Your_MS_Thesis_Or_Report_No.(例：NAIST-IS-MT0151075): Yoshitaka Nakajima

無音声認識

The Universal and Individual Design Interface

中島淑貴 (0151075)

未来のインターフェースとして、ＳＦの世界でも現実でも音声認識がその役割を担うものとして期待され、有望視されて、開発が進められてきたが、現在でも十分実用レベルの認識精度を持ちながら、未だに我々の日常生活への普及をみていない。

音声認識は当初より、常に空中に放出された音声を、外部マイクロフォンで採取して分析するという大前提で開発が進められてきたが、その前提に本質的に付随する、雑音への脆弱性、騒音発生、情報漏洩性などが、普及への障害になっているという側面もあった。

この論文では「無音声認識（非可聴つぶやき認識）」という、新しいスタイルの実用的な入力インターフェースを提案する。これは音声認識と異なり、声帯の振動を伴う通常音声の空気伝搬ではなく、「非可聴つぶやき（Non-Audible Murmur: NAM），つまり第三者に聴取不能な声帯の振動を伴わない調音呼気音の体内伝導」を体表からサンプリングし、HMMを用いて認識する．

これを実現するための基礎として、第一に医療用膜型聴診器の原理を応用した体表接着型マイクロフォンを開発した。第二として体内を伝導するNAMを採取して認識するために最適な接着位置を発見した。第三としてNAMの音響学的性質を検討した。第四として、この部位から採取されたサンプルを用い、HMM音響モデルに連結学習して音響モデルの再構築を行った。これらを元に、日本語ディクテーション基本ソフトウェアを評価に用い、認識エンジンJuliusを使用して、この認識入力方法の実用可能性の検討を検証した。

次に実際の使用面で問題となる外部雑音環境への耐性についての現時点での評価を行い、NAMの個人性と学習による個人適合を考察した．

応用面としては、体内伝導の通常音声も含めた総合発話認識について考察し、１音響モデルによるNAM・通常音声同時認識を試みた。また体表・体内雑音の分析を行い、それをむしろ入力の特殊キーとして利用する方法を考案した。加えて「吸気NAM」の存在とその利用、無線化の問題、NAMの直接通信利用など応用例の可能性と問題点を検討し、その展望を述べた。

またもう一つの無音声認識として、医療用超音波イメージング装置による動画情報からのHMM発話動態認識を目指す。その準備段階として、音韻情報の形態学的な解析を肉眼で定性的に試み、今後の基礎資料とする。

さらにエコー装置とその画像処理を用いて、音情報を直接分析して得られる韻律情報F0とはばｓｈ違った次元から、新たな「声の高さ」を表す指標を発案した。このLaryngeal Elevation Index (LEI) 曲線ではF0を認めないNAMの韻律意図を表現・定量が可能である。

無音声認識は音声認識の豊かな技術蓄積をそのまま利用し，発展させながら実用可能である。音声言語のパブリシティーコントロールが可能となり、雑音耐性の良好な無音声認識は、誰もが特別の技術習得なしに使用できるユニバーサルな、しかも個人に特化したインディビジュアル・デザインである。かつて人間が手にした事のない入力インターフェースとして、高度情報化社会への幅広い普及が期待でき、新たな言語文化を創生する可能性がある。