近年, 多くのヒューマノイドロボットの研究者は, エネルギー効率の良く, 人の歩容に似ている準受動歩行を盛んに研究している. 準受動歩行は制御器の設計は, ロボットの物理パラメータ, 並びに環境の変化に敏感であり, 制御パラメータの自動調節が望まれる. 強化学習は環境に応じて適応する技術の1つであり, シミュレーション実験で, 準受動歩行に強化学習を適用した研究が知られている. しかし,既存手法を実機のロボットに適用すると, 学習速度が遅くロボットが適切な制御器を獲得する前に ロボットが故障してしまう可能性がある. 本研究では, 学習を加速するためにoff-policy Natural Actor-Critic法(off-NAC法)を採用し, 準受動歩行の安定した制御器の獲得問題に適応する. off-NAC法の最も重要な特徴は, 過去の制御器で獲得したサンプルを再利用することが可能な点である. 本研究では, さらに学習係数を適応的に調節する手法も提案する. その手法を用いることで, シミュレーション実験, 実機実験の両方で 高速に且つ安定に準受動歩行の安定に歩行することが可能な制御器を 獲得することができることを示す.