車の安全運転支援や自動運転などの様々なアプリケーションで,画像からのカメラ運動を推定する手法が利用されている.多くの手法では画像上の特徴点の対応関係からカメラ運動とシーン構造を推定する.しかし,人工的な建造物のように類似した構造が連続する場合には,特徴点の対応付けの誤りにより推定に失敗する可能性がある.また,空や海のように画像上に特徴の少ないシーンでは,特徴点を検出できず推定に失敗することがある.このような理由から,より多様なシーンにおいて頑健にカメラ運動を推定する手法が求められている.
このような問題に対し,本研究ではディープニューラルネットワークを用いて,2枚の入力画像からカメラの相対運動を推定する手法を提案する.ディープニューラルネットワークで構築されたモデルを大量の画像データを用いて学習することで,従来の特徴点に基づく手法では考慮されてこなかった画像上の特徴が得られることが期待できる. 学習にはカメラの相対運動の3次元空間での回転成分と並進成分を表す6自由度のパラメータを訓練データとして与える.層の深いネットワークを学習する際,モデルの初期値をランダムに与えると上手く学習が行われない場合がある.そこで,モデルにより良い初期値を与えるために,予め別のタスクについて事前学習をしたパラメータを利用する.本研究では事前学習としてデプスマップの推定を行う.2枚の入力画像からデプスマップを出力するようモデルを学習し,作成したモデルをカメラの相対運動推定のために再学習する.
加えて,本研究で想定されるアプリケーションの一つとして車載カメラの映像やドローンの空撮映像からのカメラ運動推定があげられる.これらの映像において連続するフレーム間の運動量には相関がある.このような時系列データのモデル化にLong Short-Term Memory(LSTM)を用いた手法が数多く提案されている.そこで,カメラの相対運動推定の精度向上のため,LSTMを用いた時系列データにおける過去の情報を考慮した推定手法を提案する. また,学習や評価の際には大量のデータが必要となるが,実シーンで計測されたデータには限りがある.そこで,コンピュータグラフィックスを利用したシミュレーションによる学習用のデータセットを作成する. 本発表では,本研究で作成したデータセットの作成方法ついて説明する.また,提案手法で使用した,デプスマップ推定のネットワーク,畳み込みによるカメラの相対運動の推定のネットワーク,LSTMを用いたカメラの相対運動推定のネットワークについて説明し,ネットワークの学習実験について発表する.