大西 一誉 | M, 2回目発表 | 知能コミュニケーション | 中村 哲, 安本 慶一, 田中 宏季 |
q
title: Multimodal Voice Activity Prediction: Turn-taking Events Detection in Expert-Novice Conversation
abstract: Predicting the timing of utterances in dyadic conversations is essential for achieving natural interactions between humans and virtual agents. Since the former often use non-verbal cues to adjust the order of their speech, this study proposes a multimodal model incorporating non-verbal features using a Transformer-based voice activity prediction model. First, in line with previous research, we reproduced a baseline model that utilized audio features (audio waveform, voice activity frame, and voice activity history) as inputs. To this baseline model, we added non-verbal features: gaze direction, action units, head pose, and articular points. We compared our multimodal model with the baseline model to investigate the impact of non-verbal cues on voice activity prediction. We utilized a dyadic expert-novice conversation dataset and evaluated the average outcomes across ten model trainings. Results revealed that our proposed models with all the features improved the accuracy of the next speaker prediction by 2.3% and back-channeled prediction by 1.8% (p-value < 0.025). In particular, action units may contribute significantly to the turn-shift and back-channeled predic- tions. This study demonstrates that including non-verbal features in Transformer-based turn-taking models enhances the efficacy of models for predicting voice activity in dyadic conversations. language of the presentation: Japanese 発表題目: マルチモーダル音声活動予測: 専門家と初心者の会話における話者交替イベントの検出 発表概要: 二者間の会話における発話のタイミングの予測は、人間とバーチャルエージェント間の自然な対話を可能にする上で欠かせない要素である。バーチャルエージェントが非言語的特徴を利用することが明らかになっているため、本研究では、非言語的特徴を組み込んだTransformerベースのマルチモーダルモデルを提案する。先行研究で用いたれた、音声特徴量(音声波形、音声活動フレーム、音声活動履歴)を基とし、非言語的特徴として視線方向、行動単位 (Action Units)、頭部運動、関節点を組み込んだ。専門家と初心者の会話データを基に、モデルの訓練を10回繰り返し、その平均値での評価を行った。結果として、我々の提案するマルチモーダルモデルは、次の話者の予測する精度を2.3%、バックチャンネルの予測精度を1.8%高めた(p<0.025)。特に、行動単位はターンの変更やバックチャンネルの予測において有意な影響をもたらすことが示唆された。 | |||
杉本 浩之 | M, 2回目発表 | 知能コミュニケーション | 中村 哲, 安本 慶一, 田中 宏季 |
title: Acoustic and Prosodic Entrainment Analysis in Conversation With Elderly People
abstract: Entrainment is observed in linguistic and non-linguistic features and is related to the quality of communication. In this study, focusing on fundamental frequency, loudness, and speech rate, we explore entrainment in utterances spoken by clinical psychologists, caretakers, and graduate students. We analyzed the effect on dialogue act tags, the presence of overlap, and the number of utterances during conversations with elderly people. language of the presentation: Japanese 発表題目: 高齢者対話における音響的および韻律的エントレインメントの分析 発表概要: 会話中のエントレインメント(会話相手に対する話し方の適応)は, 言語的および非言語的特徴において生じる.加えて, エントレインメントはコミュニケーションの良し悪しと関連する.本研究では, エントレインメントの詳細な分析を目的とし, 音響的特徴量(基本周波数とラウドネス)および韻律的特徴量(発話速度)に焦点を絞り, 高齢者対話における臨床心理士, 介護士, 大学院生の発話におけるエントレインメントについて, 種々の条件(対話行為タグ, 割り込みの有無, 会話中の発話回数)において, 探索的に分析を行った.結果, 割り込みの有無について, ラウドネスの最大値におけるエントレインメントの違いを統計検定(p<0.05)により, 臨床心理士, 介護士, 大学院生の全ての場合で確認した.加えて, その効果量の大きさについて, 介護士が最も大きく, 続いて臨床心理士, 大学院生の順となっていた.一方, 対話行為タグや会話中の発話回数を用いた分析では, 主に介護士の発話においてのみ, エントレインメントの違いを統計検定(p<0.05)により確認した. | |||
田中 宏昌 | D, 中間発表 | ソーシャル・コンピューティング | 荒牧 英治, 安本 慶一, 若宮 翔子, 矢田 竣太郎 |
title: Practical Approach to Improving Organizational Performance Using Instant Messaging System
abstract: In many commercial enterprises, improving organizational performance is an important issue. Therefore, research results on organizational performance have been accumulated in business administration and organizational behavior theory; specifically, various organizational performance factors have been clarified. On the other hand, these research results need to be more practical to be used in actual company organizations. In this presentation, we introduce two studies as specific examples of such issues: Study 1 deals with the issue of not being able to continuously grasp Work Engagement (WE), which is the level of employees' enthusiasm for their work, and Study 2 deals with the issue that we cannot discover human who can activate their teams.
発表題目: Instant Messaging Systemを用いた組織パフォーマンス向上への実践的アプローチ
| |||
清水 聖司 | M, 2回目発表 | ソーシャル・コンピューティング | 荒牧 英治, 渡辺 太郎, 若宮 翔子, 矢田 竣太郎 |
title: Efficient QA-based annotation for Clinical Event Timeline Construction via Task Decomposition
abstract: language of the presentation: Japanese 発表題目: タスク分解による Clinical Timeline 構築のための効率的なQAベースアノテーションの検討 発表概要: 医療言語処理において、テキストからの時間関係抽出は、患者の略歴抽出や、副作用の推定といった応用を念頭に、Clinical timeline 構築を目標に研究がなされてきた。しかしながら、時間関係を表す表現の種類の多さや、考慮するイベント数の多さ、さらに必要とされる専門性に起因し、アノテーション作業は膨大な時間と労力を要する。そこで本研究では、イベントの開始時点に注目し、Clinical timeline 構築を、QAベースのマイクロタスクに分解するアノテーション手法を提案する。自然言語を使ったアノテーションと、時間関係の種類と考慮するイベントの数を最小限に抑えることで、負担の少ない、効率的なアノテーションが可能になることが期待される。 | |||