学生国際学会報告

2008.2.23-2008.3.30　アメリカ合衆国ペンシルバニア州ピッツバーグカーネギーメロン大学知能情報処理学講座：博士前期課程2年

カーナビゲーションにとって重要な地図情報の更新の効率化を図るために、同時に多数の地域の街並情報を効率よく収集し、その変化検出を行うため、一般車両に搭載した車載カメラとGPSを利用した街並変化検出システムの実現を目指す。本研究では、このシステムに必要な基盤技術の一つである「異なる時刻に撮影された画像間の対応付け」の手法の研究、開発を行った。全方位カメラを搭載した特定の車両により対応付けに最適な撮影条件の元に撮影された画像を利用する手法が提案されているが、本手法では一般車両を利用するため車速、走行レーン、カメラ向きがが異なるなど多様な撮影条件下で撮影された画像の対応付けが要求される。また、利用する画像は収集後、クライアントである一般車両からサーバである街並変化検出システムへ無線通信による転送を行うため、低解像度で低フレームレートのものとする。提案手法では、撮影タイミングの大きく違う過去・現在画像間の比較を容易にするために、連続数フレームを繋げた仮想パノラマ画像間での対応付けを行なう。このパノラマ画像は，車載カメラ方位の回転補正を行なった撮影画像をパノラマ画像面に投影していくことにより生成できる．過去・現在パノラマ画像間の比較時には、走行車線の違いに対応するための画像の拡大・縮小、日照の変化やノイズに対する頑健性向上のためのエッジ特徴量抽出を行なった。派遣先では、手法の改善および更なる低フレームレート画像による手法の評価実験、原稿の執筆を行った。また、外部から招聘された講師によるセミナーに週二回参加し、新規研究について学ぶことができた。

2009.7.1 - 2009.8.8　アメリカ合衆国ペンシルバニア州ピッツバーグ
カーネギーメロン大学
知能情報処理学講座：博士前期課程2年

本研究の目的は学習モデルを用いた姿勢推定におけるモデル間遷移情報の獲得である．

近年，人体の姿勢・運動情報の獲得は，(1)CGで描かれたキャラクターを動かす事をはじめ，(2)動作を入力としたインターフェース，(3)ヒューマンロボットインタラクション，(4)スポーツや伝統技能の学習支援など，様々な分野での応用が行われ，また期待されている．この様な場面で現在はモーションキャプチャシステムが使われる．モーションキャプチャシステムは，人体にマーカー，あるいは磁気・ジャイロセンサー等を取り付け，人体の動きや姿勢を捉えている．

しかしながら，(3)の場合にはこれらのマーカーまたはセンサー等をとり付ける事が実用上の制約になる．また(4)において例えば日本の伝統舞踊等に用いる場合は，着物等の衣装の動きも重要と考えられるためマーカーまたはセンサーを取り付けられない事も考えられる．

そこで近年は，マーカーやセンサー等を人体に取り付ける必要のない，非装着型の姿勢推定手法が広く研究されている．我々は人体の計測は一般的なカメラを用いて行い，その後の画像処理によって撮影された人体の姿勢を推定する．推定には学習ベースの手法を用いる．学習ベースの手法は，「学習」と「推定」の２段階から成る．

学習時は同期した複数のカメラ群とモーションキャプチャシステムを用いて，画像情報と姿勢情報を同時に計測する．そして画像情報と姿勢情報の間の写像をコンピュータに学習させる．推定時はカメラ群のみで計測し，学習時に得られた写像を用いて姿勢を推定する．

次に学習時の具体的なステップを述べる．まずカメラの視点に依存した学習を避けるため，得られた画像からSFS (Shape From Silhouette)を用いてボクセルで表される3次元形状を得る．ボクセルデータは非常に高次元（1フレーム1,000,000～10,000,000 次元）であることから，descriptor と呼ぶ特徴量を用いる．

descriptor は次のようにして得る．
(1) 人体の重心を通る垂直な軸を設定
(2) 軸を中心とする円柱型の領域を設定
(3) 円柱領域を縦方向と回転方向に分割し，小空間を得る
(4) 各小領域において人体の表面となっているボクセルの数(=c)を数える
(5) 各小領域において軸から表面ボクセルまでの平均距離(=d)を計算する
(6) (4)(5)で得た数値を各小領域の特徴ベクトル(v={t, d})とする．

(7) (6)の特徴ベクトルを並べたベクトルをdescriptor (={v1, v2, …vn})とする．

このdescriptor を用いる事によって次元数を100～200次元にすることができる．

次に姿勢データからGPDM(Gaussian Process Dynamical Models)を用いて姿勢データの潜在空間と潜在空間中におけるダイナミクスを得る．この時，同時に潜在空間から姿勢データへの写像がGP regression(Gaussian Process regression)によって得られる．そして最後に descriptor から姿勢データの潜在空間への写像をGP regression によって求める．これらの手順で得られた，姿勢データの潜在空間と潜在空間中のダイナミクス，２つのGP regression のパラメータを学習モデルとする．

推定時のステップは，画像群からSFSによってボクセル表現の3次元形状を得る．これを descriptor に変換する．学習時に得られた GP regression のパラメータを用いて descriptor を姿勢データの潜在空間に写像する．最後に写像された座標を GP regression によって姿勢データに写像することによって，推定姿勢を得る．

以上が姿勢推定の基本的な流れである．さらに我々は学習モデルを得る際は一度に全ての動作を計測し学習するのではなく、動作ごとに計測と学習を行い、後からモデルを追加可能にする。しかし実際に人が動作を行う際はいくつかの動作の間を遷移すると考えられるが，全ての動作の組み合わせについてその間の遷移を計測、学習させる事は組み合わせの数を考えれば困難である．本研究では動作モデルが複数与えられた時，その間の遷移を補間したモデルを作成し，計測されていない遷移が起こった時にも，計測した姿勢と同水準の推定精度を得ることを目指す．

海外研修中には遷移情報を補間するところまでを実装した．本学に帰った後，実験データを計測して現在誤差等の評価中である．

メリーランド大学において私の研究に関する研究室の先生方，生徒方にそれぞれ研究内容についての概要を説明して頂いた．