敵対的模倣学習に基づく料理盛り付け方策の学習

松岡潤樹 (1811250)


労働力不足により自動化の需要が高まっている外食産業において, 自動化が困難な厨房作業の一例として料理盛り付けが挙げられる. ロボットによって各食材を皿の上に盛り付けるためには, 現在の皿の状態をもとに盛り付け行動を決定する「盛り付け計画」を行う必要がある. しかしながら,盛り付け計画を学習するためには 見栄えや食べやすさなどの定性的で曖昧な評価基準を考慮する必要があり, 方策を学習する際の報酬関数の人手による設計が困難である. そこで,熟練者がタスクを実行する際の状態行動列であるエキスパート系列を参照して 学習を行う「模倣学習」を盛り付け計画問題に適用することで, 報酬関数の設計を要さず,熟練者のノウハウを反映した 盛り付け方策の学習を実現する.

本発表では,盛り付け計画問題に模倣学習を適用する際の問題点を明らかにし, それらを考慮した敵対的模倣学習に基づく盛り付け方策の学習フレームワークを提案する. 提案した学習フレームワークによる盛り付け計画の有効性検証のため, PC上に構築した盛り付けシミュレータを用いて盛り付け計画シミュレーションを実施し, 食品特性に起因する盛り付け誤差や,環境変化に頑健な盛り付け方策を, 一つのエキスパート系列から学習可能であることを確認した.