自然言語処理学研究室

人間の知能の本質・言語を読み解く

教員

  • 教授:松本 裕治

    教授:
    松本 裕治

  • 准教授:新保 仁

    准教授:
    新保 仁

  • 助教:Kevin Duh

    助教:
    Kevin Duh

  • 助教:進藤 裕之

    助教:
    進藤 裕之

E-mail { matsu , shimbo , kevinduh }[at] is.naist.jp

研究室概要

人間の知能の本質である言語の計算機による解析と理解を中心的なテーマとし、言語解析の基礎研究およびその応用研究を行っています。

メンバー (平成26年3月現在):上記スタッフ以外に、研究員4名、博士後期課程学生15名、博士前期課程学生25名 (内、留学生8名、社会人2名)

自然言語の解析技術と解析環境の共有化

自然言語の解析に必要な辞書や文法などの基礎的なデータの蓄積、言語解析ツールと使用環境の構築と共有のための研究活動を行っています。

公開中のシステム例

  • 日本語形態素解析システム「茶筌」(図1)
  • 日本語係り受け解析システム「南瓜」
  • 日本語述語項構造解析システム「新茶」(図2)
日本語形態素解析システム「茶筌」

図1 :日本語形態素解析システム「茶筌」: 日本語文を形態素(単語)に分割し、品詞を推定します。

日本語述語項構造解析システム「新茶」

図2 :日本語述語項構造解析システム「新茶」: 省略を補完し、文章中の各述語の主語や目的語を同定します。

Webデータのマイニングとリンク構造に関する研究

Webページ、文献参照情報、単語の類似性など様々なデータ間のリンク構造の性質の解析、リンクトデータにおける重要度や関連度の抽出に関する研究を行っています。

言語表現の意味関係に関する研究

単語や句の意味表現に関する研究、文章中で事象を表わす動詞と名詞の間の意味関係など、様々な意味に関する研究を行なっています。これらの意味関係解析は、質問応答や情報抽出、複数文書要約など、幅広い応用に共通する基本問題です。意味関係の自動獲得手法の研究、および、それに必要な言語資源の構築を進めています。

機械翻訳・多言語処理に関する研究

統計的な手法を用いた機械翻訳の研究、および、語彙・文法知識等を用いた手法との融合に関する研究を行なっています。また、多言語データの自動対応や、翻訳知識の自動獲得に関する研究を行なっています。

自然言語処理を用いた言語学習支援に関する研究

自然言語処理の応用研究の一つとして、言語学習者支援があります。大規模なウェブデータを用いた日本語の誤り検出や、統計的機械翻訳を応用した言語学習者の作文添削手法の研究を行っています(図3)。

Chantokun:日本語学習者の作文の誤り検出

図3:Chantokun:日本語学習者の作文の誤り検出・訂正インタフェース。格助詞の使用誤りを検出し,訂正候補を示します。

研究設備

大規模文書処理システム(CPU(クアッドコア×24) 4台、主記憶512Gバイト/台、ファイルサーバ112テラバイト、他にUnixマシンやPCを多数保有しており、大規模テキストデータの解析に利用しています。

共同研究・社会活動など(平成25年度)

文部科学省科研費: 基盤研究(A)、基盤研究(B)、スタート支援研究、特別研究員奨励費×3