コロキアムB発表

日時: 9月14日(木)1限目(9:20-10:50)


会場: L1

司会: 矢田 竣太郎
大西 一誉 M, 2回目発表 知能コミュニケーション 中村 哲, 安本 慶一, 田中 宏季
q title: Multimodal Voice Activity Prediction: Turn-taking Events Detection in Expert-Novice Conversation
abstract: Predicting the timing of utterances in dyadic conversations is essential for achieving natural interactions between humans and virtual agents. Since the former often use non-verbal cues to adjust the order of their speech, this study proposes a multimodal model incorporating non-verbal features using a Transformer-based voice activity prediction model. First, in line with previous research, we reproduced a baseline model that utilized audio features (audio waveform, voice activity frame, and voice activity history) as inputs. To this baseline model, we added non-verbal features: gaze direction, action units, head pose, and articular points. We compared our multimodal model with the baseline model to investigate the impact of non-verbal cues on voice activity prediction. We utilized a dyadic expert-novice conversation dataset and evaluated the average outcomes across ten model trainings. Results revealed that our proposed models with all the features improved the accuracy of the next speaker prediction by 2.3% and back-channeled prediction by 1.8% (p-value < 0.025). In particular, action units may contribute significantly to the turn-shift and back-channeled predic- tions. This study demonstrates that including non-verbal features in Transformer-based turn-taking models enhances the efficacy of models for predicting voice activity in dyadic conversations.
language of the presentation: Japanese
発表題目: マルチモーダル音声活動予測: 専門家と初心者の会話における話者交替イベントの検出
発表概要: 二者間の会話における発話のタイミングの予測は、人間とバーチャルエージェント間の自然な対話を可能にする上で欠かせない要素である。バーチャルエージェントが非言語的特徴を利用することが明らかになっているため、本研究では、非言語的特徴を組み込んだTransformerベースのマルチモーダルモデルを提案する。先行研究で用いたれた、音声特徴量(音声波形、音声活動フレーム、音声活動履歴)を基とし、非言語的特徴として視線方向、行動単位 (Action Units)、頭部運動、関節点を組み込んだ。専門家と初心者の会話データを基に、モデルの訓練を10回繰り返し、その平均値での評価を行った。結果として、我々の提案するマルチモーダルモデルは、次の話者の予測する精度を2.3%、バックチャンネルの予測精度を1.8%高めた(p<0.025)。特に、行動単位はターンの変更やバックチャンネルの予測において有意な影響をもたらすことが示唆された。
 
杉本 浩之 M, 2回目発表 知能コミュニケーション 中村 哲, 安本 慶一, 田中 宏季
title: Acoustic and Prosodic Entrainment Analysis in Conversation With Elderly People
abstract: Entrainment is observed in linguistic and non-linguistic features and is related to the quality of communication. In this study, focusing on fundamental frequency, loudness, and speech rate, we explore entrainment in utterances spoken by clinical psychologists, caretakers, and graduate students. We analyzed the effect on dialogue act tags, the presence of overlap, and the number of utterances during conversations with elderly people.
language of the presentation: Japanese
発表題目: 高齢者対話における音響的および韻律的エントレインメントの分析
発表概要: 会話中のエントレインメント(会話相手に対する話し方の適応)は, 言語的および非言語的特徴において生じる.加えて, エントレインメントはコミュニケーションの良し悪しと関連する.本研究では, エントレインメントの詳細な分析を目的とし, 音響的特徴量(基本周波数とラウドネス)および韻律的特徴量(発話速度)に焦点を絞り, 高齢者対話における臨床心理士, 介護士, 大学院生の発話におけるエントレインメントについて, 種々の条件(対話行為タグ, 割り込みの有無, 会話中の発話回数)において, 探索的に分析を行った.結果, 割り込みの有無について, ラウドネスの最大値におけるエントレインメントの違いを統計検定(p<0.05)により, 臨床心理士, 介護士, 大学院生の全ての場合で確認した.加えて, その効果量の大きさについて, 介護士が最も大きく, 続いて臨床心理士, 大学院生の順となっていた.一方, 対話行為タグや会話中の発話回数を用いた分析では, 主に介護士の発話においてのみ, エントレインメントの違いを統計検定(p<0.05)により確認した.
 
田中 宏昌 D, 中間発表 ソーシャル・コンピューティング 荒牧 英治, 安本 慶一, 若宮 翔子, 矢田 竣太郎
title: Practical Approach to Improving Organizational Performance Using Instant Messaging System

abstract: In many commercial enterprises, improving organizational performance is an important issue. Therefore, research results on organizational performance have been accumulated in business administration and organizational behavior theory; specifically, various organizational performance factors have been clarified. On the other hand, these research results need to be more practical to be used in actual company organizations. In this presentation, we introduce two studies as specific examples of such issues: Study 1 deals with the issue of not being able to continuously grasp Work Engagement (WE), which is the level of employees' enthusiasm for their work, and Study 2 deals with the issue that we cannot discover human who can activate their teams.
(Study 1) The SARS-CoV-2 or Covid-19 pandemic has transformed our lives. In order to aid in the prevention and spread of infection, a remote work style has rapidly proliferated. As this remote work style has proliferated, new work-related problems have come to light such as long working hours, mental health problems, and decreased communications. One issue that team members in the company face is that they cannot fully grasp the WE level (WEL) of subordinates such as in terms of absorption, dedication, and vigor due to limited in-person communications in a remote work setting. On the other hand, as a substitute for in-person communications, online communications via text-based chat tools such as Slack and Microsoft Teams have become popular. We propose a new approach that estimates the WEL of users on text-based chat tools by embeedding them in a feature space using graph neural networks (GNNs). Specifically, in this embedding process, we do not use the content of text communications but utilize only communications network architectural information, which expresses who is talking to whom and how often. In this study, we conduct two studies using Slack data to evaluate the proposal. The results of the first study reveal that the conversation content does not influence the WEL, but the properties where they are in the communications network do have an influence. Specifically, there is a typical tendency that the similarity of graph architectural feature vectors becomes low as the difference in WE becomes large than in the case of the similarity of the linguistic feature vectors. According to this result, in the second study, we develop a machine learning model that estimates the WEL using only the architectural features of the communications network in which a node represents a human and an edge represents a communications log, i.e., if person A talks to person B, the edge between node A and node B is stretched. The model estimates the WEL using true and predicted values at a correlation coefficient of 0.60. Since this model in the proposed approach uses only the communications network and does not use linguistic information, it is valuable in actual business situations.
(Study 2) Many managers and human resource departments transfer a person in an attempt to increase the performance of an organization or team. When we define performance as team efficiency, the performance is influenced by the density of team communications. However, whether or not the candidate transferee will actually increase the density of team communications is an unknown. In this paper, we propose a new approach that estimates whether or not a person who joins a team will improve the density of team communications based on an instant messaging system (IMS). In the proposed approach, we embed people in feature space using graph neural networks. In this embedding process, we do not use the content of text communications but utilize only communication graph architectural information that expresses who is talking to whom and how often. Additionally, the proposed approach does not require a questionnaire to indicate the density of team communication as in some previous studies. In the proposed approach, we develop a machine learning model classifying whether or not a transferee will improve the density of team communications. The model classifies transferees at an accuracy of 0.57 and precision of 0.58. Since this model does not use text contents from the IMS, it is valuable in actual business situations.

language of the presentation: Japanese

発表題目: Instant Messaging Systemを用いた組織パフォーマンス向上への実践的アプローチ
発表概要: 多くの営利企業において,組織のパフォーマンスを向上させる方法は重要な論点である.そのため,経営学や組織行動論の分野では組織パフォーマンスに関する研究成果が蓄積され,組織パフォーマンスの様々な因子が明らかになっている.一方で,これらの研究成果を実際に会社組織で利用するには,十分に実践的ではないという課題が生じる.本発表では,そのような課題の具体的なものとして,従業員の仕事への熱量であるWork Engagement(以下,WEと呼ぶ)を継続的に把握できない,という課題を扱った研究(研究1)と,チームを活性化させる人材を発見出来ない,という課題を扱った研究(研究2)を紹介する.
(研究1)リモートワークの拡大によって対面コミュニケーションが減少し,部下や同僚のWEを十分に把握できなくなったという問題が発生している.一方で,対面コミュニケーションの減少と同時に,SlackやMicrosoft Teams等のIMSを用いたコミュニケーションが活発になっている.本研究では,IMSを用いてWEレベル(以下,WEL)を推定するアプローチを提案する.提案するアプローチでは,グラフニューラルネットワーク(以下,GNN)を用いて特徴空間に人を埋め込むが,その過程においてIMSでの発言内容を用いずに,誰と誰がどの程度の頻度で話しているかという情報のみを利用するため,企業における秘匿情報の観点から実際のビジネスシーンで活用しやすい.本アプローチによって構築された機械学習モデルは,WELの真の値と予測値との相関係数0.60でWELを推定することが確認できた.
(研究2)企業において,チームのパフォーマンスを高めるための一つの手段として人事異動がある.パフォーマンスをチームの効率性と定義した場合,パフォーマンスはチーム内のコミュニケーションが活発になるほど高くなることが知られている.一方で,誰がどのチームのコミュニケーションを活性化させるかを事前には分からない.そこで本研究では,IMSのデータを用いて,チームに新しく参加する人がコミュニケーションを活性化させるかを算定するアプローチを提案する.本アプローチにおいて,コミュニケーションを活性化させるかを判定する機械学習モデルを正解率0.57,適合率0.58で構築した.さらに,本アプローチでは,テキストコミュニケーションの内容を利用しないため,プライバシーや秘匿情報の観点から実際のビジネスシーンで活用しやすいという特性がある.

 
清水 聖司 M, 2回目発表 ソーシャル・コンピューティング 荒牧 英治, 渡辺 太郎, 若宮 翔子, 矢田 竣太郎
title: Efficient QA-based annotation for Clinical Event Timeline Construction via Task Decomposition
abstract:
language of the presentation: Japanese
発表題目: タスク分解による Clinical Timeline 構築のための効率的なQAベースアノテーションの検討
発表概要: 医療言語処理において、テキストからの時間関係抽出は、患者の略歴抽出や、副作用の推定といった応用を念頭に、Clinical timeline 構築を目標に研究がなされてきた。しかしながら、時間関係を表す表現の種類の多さや、考慮するイベント数の多さ、さらに必要とされる専門性に起因し、アノテーション作業は膨大な時間と労力を要する。そこで本研究では、イベントの開始時点に注目し、Clinical timeline 構築を、QAベースのマイクロタスクに分解するアノテーション手法を提案する。自然言語を使ったアノテーションと、時間関係の種類と考慮するイベントの数を最小限に抑えることで、負担の少ない、効率的なアノテーションが可能になることが期待される。