スマートスピーカへの偽音声攻撃に対する防御に向けたソナー音に基づく人検知手法

米岡 尚樹 (1751125)


近年,Amazon EchoやGoogle Homeのような市販のスマートスピーカが広く普及している.これらのスマートスピーカは音声を利用したインターフェイスを介して住人から命令を受け,住人の生活を消費行動の代行や家電の制御などといった様々な形で支援する.その一方で,スマートスピーカが住人の発する声と機械の発する声を区別できないことを悪用し,宅内に設置された他のデバイスから音声を流すことによって,スマートスピーカから住人の個人情報を盗む,スマートスピーカに住人の望まない商品を買わせるなどの操作をできてしまうことが報告されている.さらに,人間には聞こえない超音波を使って同様の攻撃を行うDolphinAttackという攻撃も報告されている.そのため,スマートスピーカに対して人間が命令しているのか否かを何らかの方法で判定することが望まれている.

そこで本研究では,スマートスピーカの周囲に人がいないにも関わらずスマートスピーカに対し命令がなされるといった状況を検知しユーザに警告することを目指し,スマートスピーカの機能(ソナー音を発信するスピーカとそれを受信する複数のマイクロフォンアレイ)だけを用いて,スマートスピーカの周囲に住人が存在するかどうかを検知するシステムを提案する.提案システムでは,直交周波数多重分割方式(OFDM)で生成したソナー音をスピーカから周囲の全方向に発信し,その反射波をスピーカの真上に設置した8chマイクロフォンアレイで受信する.受信信号にはスピーカから直接到来する直接音と,部屋や人に反射してから到来する反響音が混在しているため,ソナー音との相互相関関数を減算することによって直接音を消去する.残る反響音からは各マイクロフォン素子が受信した音の平均パワーを求め,提案システムの動作開始からの経過時間依存性を比較すると,人の有無によって反響音に違いがあることから,平均パワーの値に一定の閾値を設けることで人の有無を判定できる.

提案手法による人検知の可能性を確かめるため,二種類の異なる部屋において,無人を含む複数の人配置パターンでソナー反響音データを収集した.収集したデータを用いて計算した平均パワーを配置パターン間で比較したところ,いずれの部屋においても人がいる時といない時とで平均パワーの大きさに十分な差があり,人を検知できることが分かった.また,平均パワーと提案システムの動作開始からの経過時間との関係を確かめたところ,約2秒間のパワー計測によって人の有無を十分に検知できることが分かった.