多言語自然言語処理研究室(国立研究開発法人情報通信研究機構)
地球上に7,000あるとされる言語はとても面白い。
教員
-
教授:隅田 英一郎
-
准教授:丁 塵辰
研究を始めるのに必要な知識・能力
以下の3つの条件のうち、いずれか1つ以上を満たすこと。
- - 数学: 例えば、解析、線形代数、数理統計等に関する知識。
- - プログラミング: 少なくともPython、好ましくは、C/C++、及び、機械学習ライブラリに関する知識。
- - 語学: 母語以外の2つ以上の言語に関する知識。
研究室の指導方針
「自然言語」と「情報工学技術」を両方精通している人材の育成を目指す。AI技術がデータと計算の巨大化に依拠して進化し続ける現代世界では、「自然言語」と「情報工学技術」の両方が分かる研究者・開発者が必須となる。多様な分野出身の学生に対して個々が有する知識に応じて育成していきたい。
NICTでのインターン活動も可能であり、その場合、AI技術の社会実装も視野に入れた研究現場での実習、及び多様なステークホルダーとの議論により、大局的な視点を持てるようになる。
この研究で身につく能力
- 情報学、又は一般的な理工学部出身の学生
論理的な考え方、プログラミングの技術に長けていることは前提としつつ、研究対象である「自然言語」への感性・理解力を深める。自然言語は厳密ではない抽象的な符号体系であって、その「規律」と「適当さ」を体得し、自律的に自然言語の研究開発ができるようにする。 - 言語学、又は一般的に言語を研究対象とする文系出身の学生
特定の言語現象、または人文的な分析の枠組みに詳しいことは前提としつつ、工学的な考え方・手法を習得する。最先端のAI技術の仕組を理解した上で利用、評価する能力を身に着ける。 - 留学生
一般に、留学生は2つ以上の言語に精通している。その母語・他言語の能力を生かしつつ、言語処理技術の仕組を習得する。帰国後、その国の言語処理を支える人材を育成する。
修了生の活躍の場
本研究室は多言語自然言語処理の発展を見据えて2024年度に設置するものであり、修了生はまだない。本研究室の教員は、情報通信研究機構(NICT)に長年勤務しており、過去に指導したインターン生、研究員は国内外の大学、研究所、大手企業からベンチャーまで、様々な職場で活躍している。
研究内容
本研究室は、新たな自然言語処理技術を研究開発し世界中の言語を「平等」にすることを目指す。英語のような広く世界中に使われる言語もあれば、利用地域・場面が限られている言語も数多くある。言語処理技術の水準も言語が異なれば大きく異なる。この言語にかかわる不平等を、最先端の技術と大規模計算リソースを駆使して改善してゆく。
主要な研究方向を以下に挙げる。これまでの研究成果については、担当教員のHPの発表論文をご参照ください。下に挙げたものに限らず、多様な研究課題も可能なので、気軽に相談ください。
多言語データの構築
多言語に対して統一的に適用できる形態的・構文的な体系を整備し、これに基づいて多言語処理に必要な学習データを構築する。これは英語・日本語のような大量なデータがすでに整備されている言語だけでなく、多数ある言語処理が未開拓な言語のデータ整備に注目しているからである。NICTは今まで、東南アジア地域の言語リソースの整備に力を注いできた。本研究室では、アジア地域にもとどまらず、全世界の言語を視野に入れる。
多言語情報の解析
言語データを利用し、形態的、構文的、意味的な言語解析タスクへ機械学習手法を適用する。言語情報の解析は、多様なタスクと多様な言語といった両軸がある。従来の研究において、具体的なタスクと具体的な言語にそれぞれ個別的に対応しなければならない。最先端の深層学習技術及び大規模言語モデルの発展により、多言語・多タスクの同時学習は可能となっている。本研究室は、大量データが整備された言語を活用する一方、データが無い言語・少ない言語も解析できる手法を探求する。
多言語情報の生成
人間にとって読みやすく分かりやすい文章を計算機で生成するのは、言語処理における最重要の一つとされている。多言語テキストの自動翻訳は、本研究室が得意とする応用であり、ビジネス・日常生活に浸透している。しかしながら、まだまだ、課題も多く、特に、言語の多様性への対応、入力揺らぎへの頑健性、及び、翻訳結果の説明性を重視して研究を行う。NICTが開発している翻訳エンジン「みんなの自動翻訳@TexTra」を活用することも視野に入れて進める。
音声、画像処理との連携
音声認識/光学文字認識に加え、画像・音声の情報とテキスト情報の融合、及びこれらの情報を用いる自動翻訳も、取り組んでいく。
研究設備
NICTのインターンとして最大で100枚程度のV100 GPUを一度に使用できる(2024年度現在)。