日本語ディクテーションシステムにおける被覆率の高い言語モデル

廣瀬 良文 (9851091)


日本語の表記法は、かな漢字混じりである。そのため、同一の語に対しても多 様な表現が可能である。大語彙連続音声認識においては、無限の語彙を扱うこ とは不可能であるため、語彙を制限する必要がある。このとき、言語の被覆率 が低下する。発話文に未知語が存在した場合には、その単語のみが認識誤りを 起こすのではなく、その前後の単語にも影響を与えることになる。従って、ディ クテーションなどでは、より広い語彙を被覆することは実用上非常に重要であ る。 本研究では、形態素解析システムにより得た形態素の「読み」情報を利 用することにより、被覆率の高い統計的言語モデルの構築を試みた。

「読み」表記による言語モデル、および、「読み」表記と「漢字」表記を混合 した言語モデルを構築し、未知語率を約50%削減した。評価として、語彙サ イズの影響を検証するために未知語の存在しない評価文に対する認識実験、お よび、単語被覆率の改善による認識性能の評価のために未知語を含む評価文に 対する認識実験を行った。2万語、3万語のディクテーションシステムにおい て認識率の改善が見られ、効果が確かめられた。一方、未知語の存在しない評 価文に対しては語彙サイズを大きくすることによる悪影響はないことが確認で きた。