SUNG JUNEHWAN | M, 2回目発表 | 自然言語処理学 | 渡辺 太郎, 中村 哲, 大内 啓樹 |
title: Validating Meta-Linguistic Awareness in Pre-trained Language Models Through the International Linguistics Olympiad Challenge
abstract: At the International Linguistics Olympiad (IOL), participants compete on how quickly and accurately they can identify linguistic rules in languages they have never encountered before. They are presented with pairs of sentences, one in an unknown language and its translation, and are tasked with translating sentences from the unknown language into English and/or from English into the unknown language, relying solely on the provided sentence pairs. Solving such problems requires a skill known as "meta-linguistic awareness", which involves the ability to recognise and analyse language. This study aims to validate the meta-linguistic awareness in a pre-trained language model (PLM) by challenging it with IOL problems. language of the presentation: Japanese 発表題目: 国際言語学オリンピック問題を用いた事前学習済み言語モデルにおけるメタ言語能力の検証 発表概要: 毎年行われる国際言語学オリンピック(IOL)では、参加者たちが今まで接したことのない言語から、如何に素早くかつ正確に言語学的規則を見出だせるかが試される。問題の構成としては、未知の言語で作成された文とそれの対訳での対に基づき、問題として与えられる文を未知の言語から英語へ、または英語から未知の言語へ訳すこととなっており、問題は与えられた対訳の対のみで全て解けるように設計されている。このような問題を解くには、メタ言語能力(meta-linguistic awareness)と呼ばれる、言語を認識し観察する力が求められる。本研究では、事前学習済みモデル(Pre-trained Language Model; PLM)を用いIOL問題に挑戦することで、PLMにおけるメタ言語能力を検証することを目的とする。 | |||
山本 和太郎 | M, 2回目発表 | 自然言語処理学 | 渡辺 太郎, 中村 哲, 大内 啓樹, 東山 翔平(客員助教) |
title:Annotating and Predicting Visiting Order in Travelogues for Trajectory Extraction
abstract: In recent years, tourists' travel patterns have changed with the spread of COVID-19, and it has become more important for both tourism service providers and users to obtain and use information on human mobility trajectories.We are aiming to develop a system that can extract human mobility trajectories from text. As a first step of dataset construction for training and evaluating such trajectory analysis systems, we have annotated a Japanese travelogue dataset with information related to visited places. In this study, we focus on the visiting order in which travelers visited places and design criteria for visiting order annotation. We performed a trial annotation experiment based on the criteria and achieved an agreement rate of approximately 0.8 F1. We also report on a task design for predicting the visiting order. language of the presentation:Japanese 発表題目: 移動軌跡可視化のための旅行記への訪問順序アノテーションおよび訪問順序予測 発表概要: 近年、COVID-19の普及に伴い観光客の移動パターンが変化しており、観光サービスの提供者と利用者の双方にとって、人の移動軌跡に関する情報を入手し活用することが重要になってきている。我々は、テキストから人の移動軌跡を抽出するシステムの開発を目指している。このような移動軌跡解析システムの学習・評価のためのデータセット構築の第一段階として、日本の旅行記データセットに訪問場所に関連する情報をアノテーションした。本研究では、旅行者の訪問順序に着目し、訪問順序アノテーションの設計基準を検討した。この基準に基づいてアノテーション実験を行い、一致率を評価した。今後の展望として、訪問順序を予測するためのタスク設計についても報告する。 | |||
大羽 未悠 | M, 2回目発表 | 自然言語処理学 | 渡辺 太郎, 中村 哲, 大内 啓樹 |
title: Second Language Acquisition of Neural Language Models
abstract: With the success of neural language models (LMs), their language acquisition has gained much attention. This work sheds light on the second language (L2) acquisition of LMs, while previous work has typically explored their first language (L1) acquisition. Specifically, we trained bilingual LMs with a scenario similar to human L2 acquisition and analyzed their cross-lingual transfer from linguistic perspectives. Our exploratory experiments demonstrated that the L1 pretraining accelerated their linguistic generalization in L2, and language transfer configurations (e.g., the L1 choice, and presence of parallel texts) substantially affected their generalizations. These clarify their (non-)human-like L2 acquisition in particular aspects. language of the presentation: Japanese 発表題目: 言語モデルの第二言語獲得 発表概要: ニューラル言語モデル (LM) の成功を踏まえ、LMの言語獲得について大きな注目が集められている。 既存研究ではヒトと言語モデルの第一言語獲得に焦点が当てられていたが、本研究では、LMの\textbf{第二言語(L2)獲得}にスコープを当てた調査を行う。 具体的には、人間のL2獲得と同様のシナリオで2言語LMを学習し、言語間の転移について言語学的観点から分析する。 実験の結果、L1での事前学習はL2の言語汎化を促し、L1となる言語、対訳テキストの有無などといった言語間の転移の設定が汎化に大きな影響を与えることを実証した。 これらの知見は、言語モデルの言語間の転移について、必ずしも人間の第二言語獲得のアナロジーが通用しないことを示唆している。 | |||