NAIST-IS-MT0151009: Hitoshi Itoh

多段階手続きによる日本語活字文字認識

伊藤仁志(0151009)

日本語活字OCRソフトは、おおまかに分けて、文字切り出し、画像特徴の抽出、判別処理、文脈解析といった多段階処理を行っている。本研究では特に判別処理(文字認識器)に注目し、その問題と対処を考えた。

日本語活字ＯＣＲでは4千文字種以上の文字を扱わねばならないために、その全ての文字種についてサンプルを実画像データとして十分な枚数収集することは困難である。そこでフォントデータから機械的に生成したサンプルから、性質の異なる実画像サンプルを判別できるようにならねばならない。本研究ではこれを特殊な特徴選択で解決する。また計算量・辞書データ容量と認識率との間のトレードオフを解決するために、多段階手続きの判別処理を提案する。まず、大分類として全文字種代表点に対して、おおまかなクラスタリングを行い、計算量の削減に成功した。中分類では、認識性能が高く、計算量や記憶容量に関しても高い性能を持つ修正二次判別関数を用いて高い認識率を達成した。また、小分類では中分類で認識困難な文字種組に対してサポートベクトルマシンを適用し、さらなる認識性能向上に成功した。

多段階手続きによる日本語活字文字認識

伊藤 仁志(0151009)

伊藤仁志(0151009)