コロキアムB発表

日時: 9月15日(金)2限目(11:00-12:30)


会場: L1

司会: 織田 泰彰
山﨑 康之介 M, 2回目発表 ソーシャル・コンピューティング(ロボット対話知能) 荒牧 英治, 吉野 幸一郎(客員教授), 河野 誠也(客員助教)
title: Toward Reflective Action Selection for a Domestic Robot
abstract: Domestic robots that assist users on a daily basis should perform "reflective actions" even when an explicit request is not expressed in the utterance. For example, if the user utters "I'm full", a reflective action such as "putting away the dishes" is expected. In this study, we propose a crowdsourcing-based reconstruction of correct labels for an existing dataset that collects utterances, situations, and reflective actions, as well as an inference method that focuses on commonsense reasoning and the depth of such inference. We report the characteristics of the newly obtained correct answer labels and the experimental results of the proposed method. Finally, we discuss the dataset and system construction to achieve reflective actions that is truly required by users.
language of the presentation: Japanese
発表題目: 家庭内ロボットの気の利いた行動選択に向けて
発表概要: 日常的にユーザを支援するような家庭内ロボットでは、明示的な要求が表れていない発話であっても「気の利いた行動」を実行することが望ましい。例えば、ユーザが「ごちそうさまでした」と発話した場合には「食器を片付ける」などの気の利いた行動が期待される。本研究では、発話・状況と気の利いた行動を収集した既存のデータセットについて、クラウドソーシングを用いた正解ラベルの再構築と、常識推論やその推論の深さに注目した推論手法を提案し、新しく得られた正解ラベルの特徴や、提案手法の実験結果を報告する。最後に、これらの結果を踏まえてユーザに真に求められる気の利いた行動を実現するためのデータセットやシステム構築について議論する。
 
稲積 駿 M, 2回目発表 ソーシャル・コンピューティング(ロボット対話知能 ) 荒牧 英治, 吉野 幸一郎(客員教授), 川西 康友(客員教授), 河野 誠也(客員助教)
title: Question Disambiguation Using Eye-gaze Context
abstract: Questions in user requests that people give to systems often have some ambiguities because users often omit important words in questions. If they make such questions in the real world, the system can compensate for the omitted words using their contexts, such as dialogue history or user's gaze. In this research, we focus on question disambiguation based on human gaze information to realize real-world systems, such as robots, which can cooperate with human users. We introduce a novel task, the Gaze-grounded Visual Question Answering benchmark, that the system needs to address ambiguous user questions by clarifying what the user is looking at as eye-gaze information. We are further looking at using object information from the source and destination of the speaker's gaze information, such as region of interest features, to help the question disambiguation.
language of the presentation: Japanese
視線情報による質問の曖昧性解消
ユーザがロボットに与える質問は,指示語の発生や話題となる項の省略により曖昧さが含まれる.このような質問の意図を一意に決めるには,ユーザの対話履歴や視線情報といった文脈情報を考慮する必要がある.本研究では,視線情報に基づく質問の曖昧性解消の問題に着目し,視線先の物体・人物で補完される曖昧な質問を含む,視線情報付きVQAベンチマークを提案する.さらに,ユーザの注視対象推定の結果をもとに,曖昧な質問に対して回答を与えるシステムを提案し,既存モデルとの比較結果を報告する.
 
石塚 裕之 M, 2回目発表 サイバネティクス・リアリティ工学 清川 清, 中村 哲, 内山 英昭, Perusquia Hernandez Monica, 平尾 悠太朗
title:Subjective Difficulty Estimation of Educational Cartoons Using Gaze and Facial Features, Heart Rate and EEG
abstract:In recent years, the digitalization of education has accelerated under the influence of COVID-19, and there are high expectations for adaptive learning systems. One of the challenges for adaptive learning systems, however, is to accurately estimate the status of individual learners. Educational cartoons are effective teaching materials that can be used to teach a wide range of subjects and interest people of all ages and genders, but they are one learning style in which it is difficult to detect the learner's state using a log data approach. Therefore, this study focuses on face, heartbeat, and EEG among biometric data, and aims to identify significant facial features for estimating the subjective difficulty level of learning using educational cartoons.
language of the presentation:Japanese
発表題目: 視線・顔特徴量、心拍および脳波を用いた教育マンガの主観的な難易度推定
発表概要: 近年COVIDー19の影響を受け、教育のデジタル化が加速しており適応学習システム(adaptive learning )の活躍に期待が高まっている。 しかし適応学習システムの課題の一つとして学習者個人の状態を正確に推定することが挙げられる。 また教育漫画は効果的な教材として幅広い分野を学べ、老若男女問わず興味を持たせることができる教材であるが、 ログデータを用いたアプローチでは学習者の状態を検出することがむずかしい学習スタイルの一つである。 そこで本研究では生体情報の中でも顔、心拍、脳波に注目し、教育漫画を用いた学習の主観的な難易度を推定するために有意な顔特徴量を明らかにすることを目的とする。
 
佐賀 健志 D, 中間発表 知能コミュニケーション 中村 哲, 渡辺 太郎, 作村 諭一(BS), 田中 宏季
title: Automatic analysis of formal thought disorders regarding linguistic characteristics on schizophrenic and autistic traits
abstract: Formal Thought Disorder (FTD), which is a group of symptoms in cognition that affects language and thought, can be observed through language. FTD is seen across such developmental or psychiatric disorders as Autism Spectrum Disorder (ASD) or Schizophrenia, and its related Schizotypal Personality Disorder (SPD). Researchers have worked on computational analyses for the early detection of such symptoms and to develop better treatments more than 40 years. We collected a Japanese audio-report dataset with score labels related to ASD and SPD through a crowd-sourcing service from the general population. We measured language characteristics with the 2nd edition of the Social Responsiveness Scale (SRS2) and the Schizotypal Personality Questionnaire (SPQ), including an odd speech subscale from SPQ to quantize the FTD symptoms. We investigated the following four research questions through machine-learning-based score predictions: (RQ1) How are schizotypal and autistic measures correlated? (RQ2) What is the most suitable task to elicit FTD symptoms? (RQ3) Does the length of speech affect the elicitation of FTD symptoms? (RQ4) Which features are critical for capturing FTD symptoms? We confirmed that an FTD-related subscale, odd speech, was significantly correlated with both the total SPQ and SRS scores, although they themselves were not correlated significantly. In terms of the tasks, our result identified the effectiveness of FTD elicitation by the most negative memory. Furthermore, we confirmed that longer speech elicited more FTD symptoms as the increased score prediction performance of an FTD-related subscale odd speech from SPQ. Our ablation study confirmed the importance of function words and both the abstract and temporal features for FTD-related odd speech estimation. In contrast, embedding-based features were effective only in the SRS predictions, and content words were effective only in the SPQ predictions, a result that implies the differences of SPD-like and ASD-like symptoms.
language of the presentation: Japanese
発表題目: 統合失調症傾向および自閉症傾向における形式的思考障害と言語特徴の自動分析
発表概要: 形式的思考障害 (FTD)は言語と思考に影響を与える症状で、自閉スペクトラム症 (ASD) や統合失調症および統合失調型パーソナリティ障害(SPD) などに広く見られる。それら症状の早期発見やより良い治療法の開発のために40年以上にわたって機械学習等を用いた自動分析が試みられてきた。本研究ではクラウドソーシング サービスを通じてASDとSPDに関連するスコアラベルを含む日本語音声レポートデータセットを収集して疾患ごとの特徴分析や推定モデルの構築を行った。特性ラベルには第二版対人応答性尺度(SRS2) 、Schizotypal Personality Questionnaire (SPQ)とその下位尺度「奇異な発話」を使用した。本研究では機械学習によるスコア予測モデルの構築を通して: (RQ1)SPDとASDの評価尺度に相関関係はあるのか(RQ2) FTD の症状を引き出すのに最も適したタスクは何か (RQ3) 発話の長さがFTD症状の誘発に影響するか(RQ4) FTDの症状分析に重要な言語特徴は何かについて調査した。分析の結果、SPQスコアとSRSスコアに直接的な有意相関は確認できなかった一方で、 FTD関連の下位尺度である奇異な発話がSPQ総合スコアと SRSスコアの両方と有意に相関していることを確認した。また、タスクごとの影響分析を通して「最もネガティブな記憶」についての発話がFTD症状の誘発に有効だった。さらに「奇異な発話」スコア予測モデルの予測性能比較から、音声が長くなるとより多くのFTD症状が誘発されることが確認された。アブレーションにより、機能語の割合・抽象的特徴量・時間的特徴量がどちらの疾患にも重要な特徴量であることがわかった。対象的に埋め込みベースの特徴はASD傾向予測に、内容語の割合はSPQ予測でのみ有効であることが確認された。これらの違いは SPD様症状とASD様症状の違いを表していると考えられる。