相島 祐太 | D, 中間発表 | 数理情報学 | 池田 和司, | 笠原 正治, | 久保 孝富, | 日永田 智絵, | LI YUZHE |
title: Unifying Diffusion models and Schrodinger Bridges via a variational formulation
abstract: In recent years, generative models based on stochastic differential equations (SDEs), such as diffusion models and Schrodinger bridges (SB), have seen rapid development. However, a comprehensive understanding of the properties of their sample paths remains limited. In this study, we propose an unfied framework for diffusion models and SB by employing the Jordan-Kinderlehrer-Otto (JKO) scheme- a variational time discretization method for free energy gradient flows. Our analysis demonstrates that diffusion models and SB can be smoothly connected through the JKO scheme. This unified formulation enables us to characterize the path optimality and path properties of both models from the perspective of optimal control theory. language of the presentation: Japanese | |||||||
尾上 圭介 | M, 2回目発表 | 数理情報学 | 池田 和司, | 笠原 正治, | 久保 孝富, | 日永田 智絵, | LI YUZHE |
title: Stochastic Coordinate Ascent Variational Inference for Student-t Process Regression with Student-t Likelihood
abstract: Gaussian Process (GP) regression is a cornerstone of Bayesian non-parametric modeling but is notoriously sensitive to outliers. While the Student-t Process (TP) has emerged as a robust alternative, inference in TP regression models that assume flexible, independent t-distributed noise suffers from either inaccurate Laplace approximations or intractable Evidence Lower Bounds (ELBOs) that necessitate sampling. To address this challenge, this work introduces a new, analytically tractable and scalable variational inference framework. Our proposed method represents both the TP prior and the likelihood function as Gaussian-Gamma scale mixtures. This hierarchical representation induces conjugacy in the model, enabling the derivation of closed-form update rules for a mean-field variational posterior using Coordinate Ascent Variational Inference. This fundamentally resolves the intractability of the ELBO of the existing formulation, achieving both accuracy and stability in inference. Furthermore, by incorporating inducing points and extending the framework to a mini-batch setting, our model obtains scalability for large-scale datasets. language of the presentation: Japanese | |||||||
齋藤 正博 | M, 2回目発表 | 数理情報学 | 池田 和司, | 笠原 正治, | 久保 孝富, | 日永田 智絵, | LI YUZHE |
title: Test time adaptation using Maximum Mean Discrepancy
abstract: Deep learning models face a significant challenge in that their performance degrades remarkably when the distributions of training and test data differ. Test-Time Adaptation (TTA), which adapts a model using unlabeled test data at inference time, has garnered attention as an effective solution to this problem. The performance of TTA heavily relies on the design of the pseudo-loss that guides model adaptation. In this research, we introduce the Maximum Mean Discrepancy (MMD), widely used in Unsupervised Domain Adaptation (UDA), as a pseudo-loss for TTA. MMD originally requires data from both the source (training) and target (test) domains. However, in the TTA setting, access to the source data is unavailable (a source-free constraint). To address this limitation, our study incorporates MMD into the TTA framework by approximating its calculation using only target data during adaptation. We implement this proposed method and experimentally verify the changes in model performance under distribution shift environments. language of the presentation: Japanese 発表題目: テスト時適応における最大平均差分 (MMD) の利用 発表概要: 深層学習モデルは、訓練データとテストデータの分布が異なる(分布シフト)状況下で性能が著しく低下する課題を持つ。この問題に対し、推論時にラベルなしのテストデータを用いてモデルを適応させるテスト時適応(TTA)が有効な解決策として注目されている。TTAの性能は、モデル適応の指針となる疑似損失の設計に大きく依存する。本研究では、TTA向け疑似損失として、教師なしドメイン適応(UDA)で広く用いられるMaximum Mean Discrepancy(MMD)を導入する。MMDは本来ソース(訓練)とターゲット(テスト)両方のデータを必要とするが、TTAではソースデータにアクセスできない(ソースフリー制約)。そこで本研究では、この制約に対応するため、適応時にはターゲットデータのみを用いてMMDを近似計算することで、TTAフレームワークに組み込んだ。本提案手法を導入し、分布シフト環境下でのモデル性能の変化を実験により検証する。 | |||||||
陳 俊豪 | M, 2回目発表 | 数理情報学 | 池田 和司, | 笠原 正治, | 久保 孝富, | 日永田 智絵, | LI YUZHE |
title: Using reinforcement learning for medical clinical reasoning
abstract: The advent of OpenAI o1 clearly demonstrated the potential of reinforcement learning in particular in improving LLM performance. However, these methods, including related research, are biased toward mathematical reasoning tasks and have not been fully applied to specialized areas such as medicine. Clinical diagnosis in medicine requires advanced reasoning, and LLMs may repeat incorrect inferences without appropriate feedback. To address this issue, this study applies a group-based reinforcement learning based approach (GRPO). GRPO reduces memory consumption by removing the value function from conventional PPO methods. Furthermore, GRPO uses the average reward of a group of outputs as a baseline. This approach better aligns with the nature of reward model training, which often examines multiple outputs for one single input. This allows the LLM model to acquire expertise in the medical field, on top of which it gains medical reasoning capabilities. Experimental results show that our proposed method improves the correct response rate on medical benchmarks compared to the pre-training method. language of the presentation: English | |||||||
酒井 眞 | M, 2回目発表 | 自然言語処理学 | 渡辺 太郎, | 荒牧 英治, | 上垣外 英剛, | 坂井 優介 |
title: Analyzing and Mitigating Overcorrection in LLM-based ASR Error Correction
abstract: Automatic Speech Recognition (ASR) systems often suffer from transcription errors, particularly in languages like Japanese where pronunciation-to-orthography mappings are complex. This study investigates the challenges of overcorrection in LLM-based Generative Error Correction (GER), where models revise ASR outputs without access to acoustic cues. Preliminary results reveal that direct LLM-based corrections can lead to increased error rates due to unjustified substitutions. We hypothesize that the absence of phonetic constraints contributes to these overcorrections. Future work will explore methods such as phoneme-aware prompting and error reasoning to guide LLMs toward more accurate, semantically and phonetically aligned corrections. language of the presentation: *** English or Japanese (choose one) *** 発表題目: 大規模言語モデルを用いた音声認識誤りの過修正に関する検討 発表概要: 音声認識(ASR)における誤り訂正の精度向上は、NLP処理の前段において重要な課題である。本研究では、特に日本語における発音と表記の対応の不一致や同音異義語が引き起こす誤りに着目し、大規模言語モデル(LLM)を用いたGenerative Error Correction(GER)の効果と限界を分析する。初期実験では、テキストのみを用いた訂正により過修正が生じ、逆に誤り率が増加する傾向が見られた。これは音声的な手がかりを考慮していないことに起因すると仮定し、今後はphoneme変換や修正理由の明示などを通じて、過修正の抑制に向けた手法を検討する。 | ||||||
岩國 巧 | M, 2回目発表 | 自然言語処理学 | 渡辺 太郎, | 荒牧 英治, | 上垣外 英剛 | |
title: Robustness Evaluation of XCOMET against Word-level Translation Errors
abstract: Translation errors involving named entities and numbers can pose serious risks in domains such as finance and healthcare, yet current evaluation metrics may struggle to detect such localized errors precisely. This study evaluates the robustness of XCOMET, a neural machine translation evaluation metric, against word-level errors. We construct pseudo-error translations by substituting named entities and numerical expressions, and analyze XCOMET's detection behavior at both the sentence and token levels. Experiments on Japanese-to-English translations in the financial domain show that while XCOMET is sensitive to target errors, it frequently over-predicts incorrect tokens, especially at sentence-initial positions. These findings highlight limitations in error span detection and suggest directions for improving metric robustness. language of the presentation: Japanese 発表題目: 単語単位の翻訳誤りに対するXCOMETの頑健性評価 発表概要: 固有表現や数値の誤訳は、機械翻訳において依然として深刻な問題である。特に金融や医療などの専門分野では、こうした誤訳が重大なリスクを招くため、翻訳評価指標には単語単位の誤りに対する頑健性が求められる。本研究では、固有表現や数値を置換した擬似誤訳文を用いて、ニューラル翻訳評価指標XCOMETの誤り検出性能を文レベル・トークンレベルの両面から分析した。英日の金融対訳コーパスを用いた実験の結果、XCOMETは一部の誤訳に対して高い感度を示す一方、誤りのないトークンへの過検出も多く、特に文頭でその傾向が顕著に見られた。これにより、XCOMETの局所的な誤検出制御やエラー位置の特定には改善の余地があることが示唆された。 | ||||||
大熊 基暖 | M, 2回目発表 | 自然言語処理学 | 渡辺 太郎, | 荒牧 英治, | 上垣外 英剛 | |
title: An LLM-Guided Scoring Method for Pedagogically-Aware Teacher Response Generation
abstract: Although English has become the global lingua franca, second-language learners still lack sufficient opportunities to interact with native speakers that are necessary to hone their speaking skills, Generative-AI-based educational dialogue systems have attracted attention as a promising means to address this issue, but existing methods seldom guarantee the quality of teacher responses as instructional materials because they evaluate response quality without considering pedagogical criteria. This study proposes a framework that introduces LLM-guided scoring with explicit pedagogical perspectives to select the optimal teacher response. Specifically, instead of relying solely on context-based metrics such as BERTScore and DialogRPT, the framework prompts an LLM to infer three pedagogical dimensions—Pedagogical Appropriateness (PA), Student Understanding (SU), and Instructional Helpfulness (IH) —along with their average (Overall Score), which were also used in the human evaluation of NAISTeacher. Using these scores, it selects the Best and Worst among three zero-shot candidates and then regenerates the final reply based on the selected response. When evaluated with the same backbone as NAISTeacher, our method improved BERTScore precision, recall, and F1, whereas DialogRPT dropped overall, with the UpDown score decreasing by -13.84 %. In the LLM-guided scores, PA declined by only -0.47 %, but SU and IH fell by -2.38 % and -2.64 % respectively (overall -1.82 %). These results suggest that redundant phrasing and a uniform writing style reduce conversational appeal. The ensemble architecture of NAISTeacher, which secures greater diversity of response strategies, may have given it an advantage. Our contribution lies in introducing a transparent and multifaceted evaluation method based on pedagogical criteria into the framework. Although the proposed method did not outperform NAISTeacher in terms of performance, it revealed key weaknesses and indicated directions for improvement. Future work will focus on reducing redundancy, enriching stylistic diversity, and reexamining the validity of the three pedagogical dimensions. language of the presentation: Japanese 発表題目: 教師応答生成のための教育的観点を考慮した LLM-guided スコアリング手法の提案 発表概要: 英語は世界共通語として定着しているものの,第二言語学習者にはスピーキング技能を磨くうえで必要なネイティブ話者との対話機会が依然として不足している.生成 AI を活用した教育対話システムはこの課題を解消する有望な手段として注目されているが,既存手法では pedagogy(教育的観点)を考慮せずに応答品質を評価するため,教師応答の教材としての品質は十分に保証されていない.本研究では,教育的観点を明示した LLM-guided スコアリングを導入し,最適な教師応答を選択するフレームワークを提案する.具体的には,BERTScore や DialogRPT といった文脈ベースの指標だけに依存するのではなく,NAISTeacher の人手評価でも利用された 3 つの教育的観点—Pedagogical Appropriateness (PA),Student Understanding (SU),Instructional Helpfulness (IH)—とその平均(Overall Score)を LLM に推論させる.このスコアを用いて,3 つのゼロショット候補の中から Best/Worst を選択し,選ばれた応答を元に再度生成を行う.NAISTeacher とバックボーンを揃えて評価した結果,BERTScore(Precision・Recall・F1)はすべて向上した一方,DialogRPT は全体的に低下し,特に UpDown スコアは –13.84 % となった.LLM-guided スコアでは PA の低下は –0.47 % に留まったが,SU と IH はそれぞれ –2.38 %, –2.64 %(総合 –1.82 %)低下した.これらの結果から,冗長な表現や画一的な文体が対話的魅力度を損ねていることが示唆される.また,NAISTeacher はアンサンブル学習を採用したモデルであり,応答戦略の多様性を確保している点が有利に働いた可能性がある.本研究の貢献は,フレームワークに教育的基準に基づいた透明で多面的な評価手法を導入した点である.性能面で NAISTeacher を上回ることはできなかったものの,主要な弱点を明らかにし改善の方向性を示した.今後,冗長性の削減と文体多様化を図るとともに,3 つの教育的観点の選定妥当性を再検証することを課題とする. | ||||||
北野 雄士 | M, 2回目発表 | 自然言語処理学 | 渡辺 太郎, | 荒牧 英治, | 上垣外 英剛 | |
title: Uncovering Cross-Modal Token Alignment in Vision-Language Models via Independent Component Analysis
abstract: Recent advances in Vision-Language Models (VLMs) have demonstrated remarkable performance across a wide range of multimodal tasks, owing to their ability to jointly process text and visual inputs. A typical VLM maps image and text tokens into a shared embedding space, where they are jointly processed by a large language model (LLM). It has been shown that, within this unified space, image and text representations are semantically aligned. However, this alignment is largely observed at the holistic level, and the token-level correspondence between individual image and text tokens remains poorly understood. To reveal the underlying semantic structure between image and text tokens, this study employs Independent Component Analysis (ICA). Furthermore, we conduct a layer-wise analysis of how the alignment between image and text tokens evolves. language of the presentation: Japanese 発表題目: ICAを用いたVLMにおけるモダリティ間トークン整合性の解明 発表概要: 近年、Vision-Language Model(VLM)は、テキストと言語の両モダリティを統合的に処理する能力により、様々なマルチモーダルタスクで顕著な成果を上げている。典型的なVLMは、画像とテキストのトークンを共通の埋め込み空間にマッピングし、それらを大規模言語モデル(LLM)によって統一的に処理する。この共通空間において、画像とテキストの情報はセマンティックに整合していることが示されている。しかしながら、この整合性は主に画像や文の全体レベルの意味に関するものであり、個々の画像トークンとテキストトークンの対応関係がどのように形成されているかについては、いまだ明らかではない。 本研究では、画像トークンとテキストトークン間の意味的構造を明らかにするために、独立成分分析(ICA)を用いる。また、VLM内部における層を横断して、両者の整合性がどのように変化するのかを詳細に分析する。 | ||||||