ニューラルネットワークを用いた対話応答生成技術が急速に進歩しているが,既存技術に基づく応答文は低い多様性を示す.
この問題はSoftmax Cross-Entropy (SCE) 損失に起因する.
現実の対話では応答文は一意に定まらず確率的・文脈依存な応答候補が複数考えうる.
しかしニューラル対話生成では訓練時のSoftmax Cross-Entropy損失が頻出応答に対して多くの訓練ペナルティをもたらし過度な生起確率を与え,評価時のMAP予測が文脈依存性が少ない頻出応答を選択する.
その結果,応答の多様性が低下すると考えられる.
本論文ではSCE損失にトークン頻度の逆数に基づく重みをかけたInverse Token Frequency (ITF) 損失という新たな損失関数を提案する.
この損失関数は頻出語クラスの損失を減少することで,SCE損失が頻出応答に対して過度な生起確率を与える現象を抑制する.
またITF損失は重みつきSCE損失という単純な機構であるのでモデルや訓練を難しくしない利点がある.
日本語のTwitterデータセットを利用した実験では,「魅力」及び「首尾一貫」に関する人手評価において提案手法は先行研究の手法よりも高いスコアを達成した.また品質評価メトリックBLEU-1/2及び多様性評価メトリックDIST-1/2に関する自動評価においても提案手法は高いスコアであった.
キーワード:ニューラルネットワーク, 雑談対話システム, 多様性促進, 最大相互情報量, Sampling探索, Softmax Cross-Entropy損失, Inverse Token Frequency損失