本文へジャンプ

研究室紹介

>>研究室一覧へ

自然言語処理学研究室

人間の知能の本質・言語を読み解く

人間の知能の本質である言語の計算機による解析と理解を中心的なテーマとし、言語解析の基礎研究およびその応用研究を行っています。

メンバー (平成22年3月現在):上記スタッフ以外に、研究員3名、外国人客員研究員2名、博士後期16名、博士前期16名、研究生1名(内、留学生8名、社会人2名)


〈教 員〉 教 授 : 松本 裕治
准教授 : 新保 仁
助 教 : Kevin Duh, 進藤 裕之
研究室ホームページ
松本 裕治 教授
松本 裕治 教授

主な研究テーマ

自然言語の解析技術と解析環境の共有化

自然言語の解析に必要な辞書や文法などの基礎的なデータの蓄積、言語解析ツールと使用環境の構築と共有のための研究活動を行っています。公開中のシステム例:

  • 日本語形態素解析システム「茶筌」
  • 日本語述語項構造解析システム「新茶」
  • 日本語係り受け解析システム「南瓜」
学習に基づく言語処理・知識獲得

大量の自然言語テキストから規則性を獲得し、精度の高い言語解析システムや照応解析システムなど種々の言語処理システムを自動構築する研究、言語の語彙知識や一般的な常識的知識を自動獲得する研究を行っています。

言語表現間の論理的関係の推論に関する研究

同義、含意、矛盾のような論理的関係にあるテキストの対を識別する課題は、質問応答や情報抽出、複数文書要約など、幅広い応用に共通する基本問題です。こうした推論に必要な言語資源、推論アルゴリズムの研究を進めています。

Web文書解析と意見・評判情報抽出に関する研究

Web文書には様々な人々の意見や事柄に関する評判情報が記されています。明示的に述べられていない主語や目的語などの補完や共参照表現の解析などの基礎技術を応用して、意見・評判情報抽出を行っています。

レストランの評判情報抽出:
肯定的な意見と否定的な意見を自動抽出し、まとめて提示します。
レストランの評判情報抽出
テキスト・Webデータのマイニングに関する研究

大規模な言語データから商品や各種サービスなどの評価情報や意見情報およびその根拠のマイニングに関する研究を行っています。また、Webや文献参照情報などのリンク構造の解析と重要度や関連度の抽出に関する研究を行っています。

研究設備

大規模文書処理システム(CPU(クアッドコア×8) 5台、主記憶256Gバイト/台、文書記憶サーバ96テラバイト)、他にUnixマシンやPCを多数保有しており、大規模テキストデータの解析に利用しています。

研究室の魅力

人間の言語には、文法的な規則正しい美しさの中にも多様な例外や細かい現象があり、大変複雑なシステムです。また、我々が持っている知識を表現し伝えるための知識表現・記述システムでもあります。計算機による言語の解析・理解には様々な理論や道具立てが必要となります。本研究室では、言語処理の基礎から応用まで、様々な研究グループや勉強会を組織しています。各勉強会では最新の研究成果のサーベイや専門書の購読、および、各自の進捗報告などを行っています。これらの勉強会や研究グループに参加することにより、一人では把握できない幅広い知識を身につけることができるよう研究室運営をしています。

研究室の風景
研究室の風景

研究室で公開しているソフトウェア・辞書

研究成果を広く使っていただくため、以下のソフトウェアや辞書を無償で公開しています。

自然言語解析ソフトウェア
  • 日本語形態素解析システム ChaSen 「茶筌」
  • 品詞タグ付きコーパス作成支援 GUI ツール VisualMorphs
  • 日本語係り受け解析システム CaboCha「南瓜」
  • 汎用 テキストチャンカー/タガー YamCha
  • SVM 学習ツール TinySVM
  • Latent Dirichlet Allocation 学習ツール lda
  • 高速形態素解析器システムMeCab
  • 高速文字列検索システム SUFARY
  • コーパス管理・検索ツール 「茶器」
  • 日本語述語項構造解析器 SynCha 「新茶」
  • 統計的仮名漢字変換システム ChaIME「チャイム
自然言語解析用辞書
  • NAIST Japanese Dictionary
  • NAIST English Dictionary
  • NAIST Japanese ENE Dictionary on Wikipedia
  • 評価値表現辞書