一般的な環境下における人間同士の対話にはフィラーや言い淀み,笑いなどの非語彙的な表現が含まれる. これらは対話を円滑に行なうための重要な要素となり得るが,節分割などのタスクにおいて,障害となる場合があるため, これら非語彙的表現の出現箇所を同定して抽出する必要がある.
これら非語彙的表現は多くのバリエーションを持ち,単純なルールでの抽出が困難である. そこで,教師あり統計的機械学習の枠組みによって未知の対話から非語彙的表現の抽出を行なうことが有効であると考えられる.
まず,話題に制約のない対話コーパスである ESP_C 書き起し文に対し,非語彙的表現と節境界の情報を付したデータを作成した. これらのデータに対する非語彙的表現抽出を系列ラベリング問題として定式化し, Support Vector Machines (SVMs) と Linear-chain Conditional Random Fields (Linear-chain CRFs) の2つの学習器を用いてモデル化を行なった,
次に,非語彙的表現の情報を用いた対話構造の解析の一貫として,節境界の同定を行なう. 人間がフィラーなどの非語彙的表現によって,発話の構造を形作っていることを考慮し, 統計的機械学習による節境界同定において,非語彙的表現の情報を用いることにより性能を向上させる手法を示した.