日時: 9月16日(金)2限(11:00-12:30)

会場: L1

司会: 大内 啓樹
伊藤 和浩 M, 2回目発表 ソーシャル・コンピューティング 荒牧 英治, 渡辺 太郎, 若宮 翔子, 矢田 竣太郎
title: Dataset and Case Studies for Automatic Identification of Complaints and Their Targets
abstract: A complaint is uttered when reality violates one's expectations. Research into complaints, which contributes to our understanding of basic human behavior, has been conducted in the fields of psychology, linguistics, and marketing. Although several approaches to the study of complaints have been implemented, studies have yet focused on the target scope of complaints. Examination of the target scope of complaints is an important topic because the functions of the complaints, such as the evocation of emotion, the use of grammar, and the intention, are different when the target scope of complaints is different. We first tackle constructing and releasing a complaint dataset of 6,418 tweets by annotating Japanese texts collected from Twitter with labels of target scope~\footnote{Dataset is available here: https://github.com/sociocom/JaGUCHI}. We then benchmark the annotated dataset with several machine learning baselines and obtain the best performance of 90.4 F1-score in detecting whether a text was a complaint or not, and a micro-F1 score of 72.2 in identifying the target scope label. Finally, we conducted case studies using our model to demonstrate that identifying the target scope of complaints is useful for sociological analysis.
language of the presentation: Japanese
発表題目: 「愚痴」とその対象の自動識別のためのデータセット構築・ケーススタディ
発表概要: 愚痴とは、現実が自分の期待に反したときに発話するものである。人間の基本的な行動の理解に役立つ愚痴に関する研究は、心理学、言語学、マーケティングなどの分野で行われている。愚痴に関する研究はいくつかのアプローチがあるが、愚痴の対象に焦点を当てた研究はまだない。愚痴の対象が異なると、喚起される感情、使用される文法、発話の意図など、愚痴の機能が異なるため、愚痴の対象についての研究は重要な意義を持つ。我々はまず、Twitterから収集した日本語テキストに対象のラベルをアノテーションし、6,418ツイートからなる愚痴データセットの構築を行った。そして、アノテーションされたデータセットについて複数の機械学習モデルで実験を行い、テキストが愚痴かどうかを検出する二値分類タスクでF1スコア90.4、対象ラベルを特定するマルチクラス分類タスクでmicro-F1スコア72.2という結果を得た。最後に、本モデルを用いた2種類のケーススタディを実施し、愚痴の対象の特定が社会学的分析に有用である可能性を示した。
小林 将大 M, 2回目発表 ソーシャル・コンピューティング 荒牧 英治, 渡辺 太郎, 若宮 翔子, 矢田 竣太郎
title: A Linguistic Incentive Analysis of Heated Online Discussions
abstract: Heated discussion or conversation in online communities interferes in smooth communications and civil settle-ments. To prevent such unhealthy upsurge, it is important to understand what is the feature common in the postswhich are prone to trigger it.We examined whether there is a connection between heat-provoking posts and linguistic features. First, weconstructed a comment dataset consisting of approximately 47,000 comments posted on a Japanese Wikipediacommunity page called “Idobata”. Next, we defined “overheat” phenomenon and five features and calculatedfeature scores of all comments. Each comment was classified into four or two classes based on the definition of“overheat.” In the analysis of comments, we compared these classes using the calculated features. The results ofthe analysis show that there are certain linguistic differences between these classes.
language of the presentation: Japanese
発表題目: オンライン議論の過熱の言語的誘因分析
発表概要: オンラインコミュニティにおける白熱した議論や会話は,円滑なコミュニケーションや協調的な意思決定を妨げるものである.この不健全な盛り上がりを防ぐためには,盛り上がりのきっかけとなる投稿に共通する特徴を理解することが重要である. そこで本稿では,熱を帯びやすい投稿と言語的特徴との間に関連性があるかどうかを比較分析によって検証した.まず,「井戸端」と呼ばれるWikipediaのコミュニティページに投稿された約47,000件のコメントからなるコメントデータセットを作成した.次に,議論における過熱現象と5つの言語的指標を定義し,全コメントの指標値を算出した.各コメントは過熱の定義に基づいて4つまたは2つのクラスに分類した.分析では算出した指標値を用いてこれらのクラスを比較した.結果としてこれらのクラス間には一定の言語的な差異があることがわかった.
西山 智弘 M, 2回目発表 ソーシャル・コンピューティング 荒牧 英治, 渡辺 太郎, 若宮 翔子, 矢田 竣太郎

title: MediA Corpus: Inappropriate Perceptions of Medicines in Social Media

abstract: Monitoring healthcare information using social media data has attracted attention because of its potential to help people maintain their health. Misunderstanding of the effects of medicines and the way they are abused vary depending on their types, and the different nature of text for different medicines may affect the classification results. However, the types of inappropriate use of drugs vary depending on their actions, and it is necessary to use a corpus of drugs that matches the nature of the drug when creating a classification model. However, drugs have different types of inappropriate use depending on their actions. Each drug has a unique chemical structure, and drugs with similar chemical structures are likely to have similar mechanisms of action. The corpus was used to perform automated classification by BERT. The results suggest that the application of structural similarity is useful for classifying statements about pharmaceuticals not included in the corpus, and that the structural similarity of pharmaceuticals can be used to learn for text classification.

発表題目: MediA コーパス:ソーシャルメディアにおける医薬品に関する不適切な認識 

発表概要: ソーシャルメディアデータを利用してヘルスケア情報をモニタリングすることは人々の健康維持に役立つ可能性があり注目を集めている.医薬品はその種類によって,作用の誤解,乱用のされ方が変わり,医薬品によってテキストの性質が違うことが分類結果に影響することが考えられる。モニタリングを行うためには特定の医薬品クエリで作成されたコーパスを利用したモデルを他の医薬品テキストに適応する方がタスクを省力化できるが,医薬品はその作用によって 不適切使用の種類が異なり,分類モデルを作成する際にはその性質に合わせた医薬品のコーパスを利用する必要がある.医薬品はそれぞれが固有の化学構造を有しており,化学的構造が類似している医薬品は作用機序が類似している可能性が高い.コーパスを用いて、BERTによる自動分類を行った。コーパスに含まれない医薬品に関する発言の分類に、構造的類似性の適用が有用であることが示唆され,医薬品の構造類似度がテキスト分類のための学習に利用できる可能性を示した。

李 涼碩 M, 2回目発表 ソーシャル・コンピューティング 荒牧 英治, 渡辺 太郎, 岩田 具治, 田中 佑典