形態素解析器の出力する読みの曖昧性解消

米田隆一 (0151124)


日本語テキストの音声合成、および墨字・点字変換プログラムにおいて、 正確な読みを付与することはきわめて重要である。日本語形態素解析器「 茶筌」において、読みは解析の過程で付与される。ただし、 基本的には、単語と品詞から得られる読みの頻度のみを手掛かりに決定している ため、あまり正確ではない。 本研究では、固有名詞と固有名詞以外に対してそれぞれ、ウェブ検索エンジンを用いた読み付与、 前後2単語の情報を用いた読み付与を提案する。前者の方法では、コーパス中のすべての 固有名詞を対象にし、固有名詞の読み付与の誤り率の削減に成功した。後者の方法では、 コーパス中での出現頻度が100以上の、複数の読みをもつ単語を対象にし、読み付与の 精度の向上に成功した。