H 年 年 年 21 9 14 年 年年年年年年年年年年年年年年 体 M 年年年年 2 1 Emulation and Behavior Understanding through Shared Values 年年年年年年年年年年 年年年年年年年年年年年年年年年 -
Dec 31, 2015
H21年 9月 14日
生体情報システム工学教育研究分野 M2 岡本隆志
1
Emulation and Behavior Understanding through Shared Values
先端研究論文紹介ゼミ
-共有価値を通した手本と行動理解
もくじ•概要•イントロダクション•実験の準備•メカニズムの概要•実験の結果•結論
2
概要
3
• 神経生理学は生物の模倣行動に深く関連のあるミラーニューロンの存在を明らかにした。
• ミラーニューロンは自己の目的志向性動作の実行時と、他者の同じ行動を観察する時、類似した活動を示す。
• ミラーニューロンシステムの概念は、行動獲得と他者の意図推論が相互に関連があることを示唆している。
• つまり行動学習モジュールは、行動実行だけでなく他者の行動理解にも利用されているかもしれない。
概要
4
• 実験では、観測者が既に観測可能な全ての情報(強化学習における状態価値)を獲得している前提で、他者の行動を理解するために新しい方法を提案する。
• その方法は、視点の違いによる視界の差に対処するためのモデルや調整システムを必要としない。
• 本論文では、観測者が座標空間における正確なオブジェクト軌道でなく、行動観測中の価値推定によって他者行動を理解、認識できることを示す。
1 イントロダクション
5
現実の世界の近年のロボットは、マルチタスクを実行し、マルチエージェント環境での動作に適応し、他者とのインタラクションを通して新たな協調・競合行動を学習することが要求される。強化学習は、シングル・マルチエージェント環境におけるモータ動作学習とロボット行動獲得を学習してきた。しかしながら、それは巨大な探索空間と学習時間のために実環境における動作では、実用的に非現実的である。
従って、エージェントは他者からの行動を理解するために、目的を持った行動を学習するそれらの意図を理解する必要があった。
1 イントロダクション
6
近年では、マルチエージェントの分野で、模倣学習、協調・競合行動の獲得などの、他エージェントの行動の認識、模倣システムの方法に関する多くの研究が行われている。エージェントはセンサや装置からのノイズやパラメータのあらゆる変化に対応しながら、センサ入力を基に、特定のタスクに対して目的を達成する。
問題点:状態空間の広さ 運動軌道を完全にはカバーできない
解決方法として、エージェントに目的志向性動作を模倣させること 計算モデル:モータマッピング 観測系列と自己のモータプログラムの対応付け問題エージェントは目的につながる行動のみを実行模倣には、当事者間で価値を共有し、報酬につながる行動を解釈することが要求される
1 イントロダクション
7
強化学習では、特定のタスク達成のための適切な行動だけでなく、エージェントが最適方策を取る間、将来受け取る報酬を割り引いた価値も生成する。その報酬の割引された報酬は”状態価値”と呼ばれる。
状態価値は、大雑把には特定タスクの目的状態への近さを示す。
→ 観測エージェントが目的を達成しそうになるというとことを 理解するかもしれないことを示唆している。
エージェントは観測オブジェクトとの距離や向きといった視覚情報を用いて、価値の差を推定し、単純な模倣だけでなく、意図認識に基づく協調・競合行動を実現できる
2 実験の準備
8
プレイヤー
駆動型ロボット VolksBots 2体全方向カメラ搭載
オブジェクトオレンジボール青いバケツ黄色い箱
基礎行動・・・オブジェクト接近、回転ロボットは各オブジェクトを移動させることで環境やエージェント同士のインタラクションを行う。観察や手本行動など
3 メカニズムの概要
9
強化学習による行動学習
各時間ステップでエージェントは、①状態観測 ②行動 ③報酬取得を行う。エージェントは方策 π に従って行動決定する。
マルコフ過程下でモデル化。 状態価値
エージェントは状態価値を後方伝播しながら、方策を更新する。
3 メカニズムの概要
10
モジュラ学習システム
• 複数のエキスパートモジュールを組み合わせたモジュラ学習システム• 行動モジュールは一つの目的志向性の行動を担当する
• 行動モジュールは行動の達成時や報酬の受取に、正の報酬を受け取る• 行動モジュールは次の価値を予測し、価値最大となる行動を選択する• ゲートモジュールは行動モジュールの中から一つを選んで出力する
3 メカニズムの概要
11
推定価値に基づく行動分類観測者は教師行動を観測し、視点の変換を行って位置情報をマップ化する
行動モジュールは、教師の状態価値を推定し、モジュラシステムは価値が増加しているモジュールを選択する
教師と観測者の視点の変換例
3 メカニズムの概要
12
推定価値に基づく行動分類
• エージェントはゴール到達時に報酬を受け取る。
離散環境における走行タスク例
• 最適方策は複数存在する• ある方策がエージェントの
行動意図を推定するのに適切であるなら、価値最大でなくとも行動推定に利用されるべきである
• その状態価値による意図認識は、視点変換の校正誤差に対するロバスト性を持つ可能性がある
状態価値の変化による意図推定
• 観測者は教師の意図推論に対するロバストな意図認識機構を備える必要がある。
3 メカニズムの概要
13
推定価値に基づく行動分類
観察された行動は、モジュールの価値が増加している行動に分類される。
各行動モジュールは、観測された教師の推定価値に基づいた状態価値を推定し、行動セレクタに送る。
行動モジュールによる行動の分類
セレクタは状態価値の系列を観察し、教師がその時にとっている行動として状態価値が増加している行動モジュールを選択する。
モジュールが行動を説明するのに妥当であることを意味している
3 メカニズムの概要
14
推定価値に基づく行動分類
推定値が上昇すると信頼度 g が高くなり、下降すると低くなることを示している。0< g<1
信頼度 g
行動が分類されるのに合理性を示す指標β=0.1 は更新パラメータ
4 実験の結果
15
自己の動作、価値、行動
実験1 赤プレイヤーが黄色い箱に赤い ボールを押し込む
ロボットは予め表の行動を学習する環境中には、 2体のロボットと黄色い箱と赤いボール
行動 状態変数ボールへ接近 ボールへの距離黄色い箱へ接近 箱の位置への距離他プレイヤーへ接近 ボールと他プレイヤーの角度差黄色い箱へボールを押す ボールと箱の角度差他プレイヤーへボールを押す ボールと他プレイヤーの角度差
ロボットのとる方策が最適であるなら、状態価値は増加し続ける
4 実験の結果
16
自己の動作、価値、行動
赤い線が初期段階で上がり、黄色の線が後期段階で上がるように、行動はボール接近と黄色い箱接近から成る。
箱にボールを入れる間の状態価値の推移
箱に接近
箱にボールを押す 行動価値
ボールに接近
他プレイヤーにボールを押す
他プレイヤーに接近
4 実験の結果
17
観察行動の分類
プレイヤーは観察時、自分の行動レパートリーに基づいて行動を分類する
実験2 教師(青プレイヤー)が観察者(赤プレイヤー)へとボールを押す
予測価値 信頼度
他プレイヤー接近は全体を通して増加傾向にある信頼度は初期値 0.5 から、予測価値が増加する限り、増加する
4 実験の結果
18
観察行動の手本新たなオブジェクト青いバケツを加えるエージェントには青いバケツに関する知識はない
1.観察者が教師の行動を観察する2.センサからの位置情報を変換する3.教師の報酬を読み取る4.観測の間に予測した状態の価値として報酬を後方伝播する5.観測行動を手本とし、試行錯誤を通した探索によって価値を更新する
行動観察の手順は以下の通りである
4 実験の結果
19
観察行動の手本 縦軸:状態価値 横軸:バケツへの距離
①読み取った報酬
②後方伝播価値 ③修正価値
②報酬の価値を後方伝播することで、状態価値を予測できる①教師から報酬を受け取る
③後方伝播された価値に基づいて、予測価値を更新する
• 予測価値は、物理的制約やセンサ情報の誤りに対して、良い関連付けを与える• 観測行動の価値を推定した後、観察者はそれ単独で学習を行うことができる。
4 実験の結果
20
観察行動の手本
青いバケツに関する新しい行動を認識し、分類できるかどうかを確認する
観察者(赤) 教師(青)
実験3青プレイヤーはバケツを箱の中に押し込む行動を示し、赤プレイヤーはそれを観察する。
4 実験の結果
21
観察行動の手本
予測価値は初期段階でバケツに接近し、後半でバケツを箱の方に押す行動の信頼度が増加している。
箱に接近箱にボールを押す 行動価値
ボールに接近
他プレイヤーにボールを押す他プレイヤーに接近
バケツを箱に押すバケツに接近
予測価値 信頼度
青いバケツに関する情報は未知であるにも関わらず、観察者はその行動を正確に分類できていることを示している。
5 結論
22
• 達成すべき目標によって決定される行動の分類として価値は定義されている。
• これは、模倣と行動理解の単純なモデルとして提案される。
• 観察者は、他プレイヤーが取る行動の理解のために自身の報酬関数を使用する。 →価値の共有
• 未知の行動もまた、自己報酬関数の項に分類され理解される。
• エージェントは各時間ステップで次の行動を選び、その行動は強化学習アルゴリズムによる状態を通して後方伝播された報酬の経験によって選ばれる。
• したがって、行動の認識は常に、最も報酬を供給しそうな行動(必ずしも最適方策でない)の選択へとつながる。
• 選択は、過去の経験によって決定されるプロセスとしての行動の選択を示す。• 新しい観測行動の場合もまた、行動を実行するロボットは自身の行動レパートリーを使用する。