NAIST-IS-MT9851091: Yoshifumi Hirose

日本語ディクテーションシステムにおける被覆率の高い言語モデル

廣瀬良文 (9851091)

日本語の表記法は、かな漢字混じりである。そのため、同一の語に対しても多様な表現が可能である。大語彙連続音声認識においては、無限の語彙を扱うことは不可能であるため、語彙を制限する必要がある。このとき、言語の被覆率が低下する。発話文に未知語が存在した場合には、その単語のみが認識誤りを起こすのではなく、その前後の単語にも影響を与えることになる。従って、ディクテーションなどでは、より広い語彙を被覆することは実用上非常に重要である。本研究では、形態素解析システムにより得た形態素の「読み」情報を利用することにより、被覆率の高い統計的言語モデルの構築を試みた。

「読み」表記による言語モデル、および、「読み」表記と「漢字」表記を混合した言語モデルを構築し、未知語率を約５０％削減した。評価として、語彙サイズの影響を検証するために未知語の存在しない評価文に対する認識実験、および、単語被覆率の改善による認識性能の評価のために未知語を含む評価文に対する認識実験を行った。２万語、３万語のディクテーションシステムにおいて認識率の改善が見られ、効果が確かめられた。一方、未知語の存在しない評価文に対しては語彙サイズを大きくすることによる悪影響はないことが確認できた。

日本語ディクテーションシステムにおける被覆率の高い言語モデル

廣瀬 良文 (9851091)

廣瀬良文 (9851091)