本研究の目的は学習モデルを用いた姿勢推定におけるモデル間遷移情報の獲得である.
近年,人体の姿勢・運動情報の獲得は,(1)CGで描かれたキャラクターを動かす事をはじめ,(2)動作を入力としたインターフェース,(3)ヒューマンロボットインタラクション,(4)スポーツや伝統技能の学習支援など,様々な分野での応用が行われ,また期待されている.この様な場面で現在はモーションキャプチャシステムが使われる.モーションキャプチャシステムは,人体にマーカー,あるいは磁気・ジャイロセンサー等を取り付け,人体の動きや姿勢を捉えている.
しかしながら,(3)の場合にはこれらのマーカーまたはセンサー等をとり付ける事が実用上の制約になる.また(4)において例えば日本の伝統舞踊等に用いる場合は,着物等の衣装の動きも重要と考えられるためマーカーまたはセンサーを取り付けられない事も考えられる.
そこで近年は,マーカーやセンサー等を人体に取り付ける必要のない,非装着型の姿勢推定手法が広く研究されている.我々は人体の計測は一般的なカメラを用いて行い,その後の画像処理によって撮影された人体の姿勢を推定する.推定には学習ベースの手法を用いる.学習ベースの手法は,「学習」と「推定」の2段階から成る.
学習時は同期した複数のカメラ群とモーションキャプチャシステムを用いて,画像情報と姿勢情報を同時に計測する.そして画像情報と姿勢情報の間の写像をコンピュータに学習させる.推定時はカメラ群のみで計測し,学習時に得られた写像を用いて姿勢を推定する.
次に学習時の具体的なステップを述べる.まずカメラの視点に依存した学習を避けるため,得られた画像からSFS (Shape From Silhouette)を用いてボクセルで表される3次元形状を得る.ボクセルデータは非常に高次元(1フレーム1,000,000〜10,000,000 次元)であることから,descriptor と呼ぶ特徴量を用いる.
descriptor は次のようにして得る.
(1) 人体の重心を通る垂直な軸を設定
(2) 軸を中心とする円柱型の領域を設定
(3) 円柱領域を縦方向と回転方向に分割し,小空間を得る
(4) 各小領域において人体の表面となっているボクセルの数(=c)を数える
(5) 各小領域において軸から表面ボクセルまでの平均距離(=d)を計算する
(6) (4)(5)で得た数値を各小領域の特徴ベクトル(v={t, d})とする.
(7) (6)の特徴ベクトルを並べたベクトルをdescriptor (={v1, v2, …vn})とする.
このdescriptor を用いる事によって次元数を100〜200次元にすることができる.
次に姿勢データからGPDM(Gaussian Process Dynamical Models)を用いて姿勢データの潜在空間と潜在空間中におけるダイナミクスを得る.この時,同時に潜在空間から姿勢データへの写像がGP regression(Gaussian Process regression)によって得られる.そして最後に descriptor から姿勢データの潜在空間への写像をGP regression によって求める.これらの手順で得られた,姿勢データの潜在空間と潜在空間中のダイナミクス,2つのGP regression のパラメータを学習モデルとする.
推定時のステップは,画像群からSFSによってボクセル表現の3次元形状を得る.これを descriptor に変換する.学習時に得られた GP regression のパラメータを用いて descriptor を姿勢データの潜在空間に写像する.最後に写像された座標を GP regression によって姿勢データに写像することによって,推定姿勢を得る.
以上が姿勢推定の基本的な流れである.さらに我々は学習モデルを得る際は一度に全ての動作を計測し学習するのではなく、動作ごとに計測と学習を行い、後からモデルを追加可能にする。しかし実際に人が動作を 行う際はいくつかの動作の間を遷移すると考えられるが,全ての動作の組み合わせについてその間の遷移を計測、学習させる事は組み合わせの数を考えれば困難である.本研究では動作モデルが複数与えられた時,その間の遷移を補間したモデルを作成し,計測されていない遷移が起こった時にも,計測した姿勢と同水準の推定精度を得ることを目指す.
海外研修中には遷移情報を補間するところまでを実装した.本学に帰った後,実験データを計測して現在誤差等の評価中である.
メリーランド大学において私の研究に関する研究室の先生方,生徒方にそれぞれ研究内容についての概要を説明して頂いた. |