多段階手続きによる日本語活字文字認識

伊藤 仁志(0151009)


日本語活字OCRソフトは、おおまかに分けて、文字切り出し、 画像特徴の抽出、判別処理、文脈解析といった多段階処理を行っている。 本研究では特に判別処理(文字認識器)に注目し、その問題と 対処を考えた。

日本語活字OCRでは4千文字種以上の文字を 扱わねばならないために、その全ての文字種について サンプルを実画像データとして十分 な枚数収集することは困難である。そこでフォントデータから 機械的に生成したサンプルから、性質の異なる実画像サンプル を判別できるようにならねばならない。本研究ではこれを特殊な 特徴選択で解決する。また計算量・辞書データ容量と認識率との 間のトレードオフを解決するために、多段階手続きの判別処理を提案する。 まず、大分類として全文字種代表点に対して、 おおまかなクラスタリングを行い、計算量の削減に成功した。中分類では、 認識性能が高く、計算量や記憶容量に関しても高い性能を持つ 修正二次判別関数を用いて高い認識率を達成した。また、小分類では 中分類で認識困難な文字種組に対してサポートベクトルマシンを 適用し、さらなる認識性能向上に成功した。