SlideShare a Scribd company logo
認知距離学習器(CDL)の解説
Cognitive Distance Learing Model
	
山川宏
ドワンゴ人工知能研究所
2015年2月
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
モデル概要	
n 認知距離学習(CDL)モデルは,環境中を移動しつつ状態間の距離
を記憶・蓄積してプランニングに利用するゴール指向型エージェン
トである.
n 実行可能性の判断が速い特徴により,プロダクションルールとして利用しうる.
n 強化学習と異なり,任意ゴールに対するナビゲーションが可能.
n 距離に基づく階層化を行なったCDLモデル
n 階層化CDLモデルは,高次レベルほど粒度の粗い認知地図を自律獲得して
利用することでメモリコストを削減できる.
n 階層的に意図を分解する意味でBDIアーキテクチャの実現例になっている.
n 山川が2000年ごろにリアルワールドコンピュティングプロジェクト
(RWCP) 内の研究の一環で,マルチエージェントシステム内の
個々のエージェントとして開発した学習型プランナ
1	
  
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
目次	
n 単層の認知距離学習器
n 問題の定式化
n 従来技術による問題解決: 探索手法,強化学習
n 認知距離学習器
n 機能比較と課題
n 階層化した認知距離学習器  ーメモリ削減のためにー
n 従来技術における階層化
n 状態の階層化
n 階層化した認知距離学習器
n ループ問題を解決する意図の保持
n BDIアーキとの関連性
n 心理実験結果と認知距離との比較
n 関連する学会発表等
n 参考:一般化状態について
2	
  
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
問題の定式化	
n 状態空間	
n 環境モデル
n 世界モデル,前向きモデル等と同義
※モデルベースド強化学習における「モデル」	
n 初期状態	
n ゴール検査	
n 単純に,ゴールの状態

が単一の場合を扱う	
n 認知距離	
n 経験的に得られた2状態間の
距離.	
n 単純に,一時刻の移動コストが
1の場合を扱う	
状態空間	
初期状態	
ゴール	
3
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
探索手法における問題解決 #1
n 環境モデルを保持する(学習してもよい)
n 初期状態からゴール状態に遷移する,環境モデルの遷移列を探索する.
n 特徴	
n 任意の初期状態とゴール状態に対して適用可能	
n 探索に要する計算コストが大きい	
環境モデル	
4	
  
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
探索手法における問題解決 #2
n 探索による経路計画の生成	
n 実行	
n 計画どおりに実行する	
5	
  
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
強化学習による問題解決 #1
n (状態 ⇒ 行動)の評価学習する(Q学習)
n 予測評価の伝播 ⇒ Temporal Difference法	
n 行動選択 ⇒ 評価の高い行動を選択
n 特徴	
n ゴール状態を固定して学習せざるを得ない	
n 探索に要する計算コストが小さい	
(状態 ⇒ 行動)	
 Q値(評価)
6	
  
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
強化学習による問題解決 #2
n 予測評価の伝播(Temporal Difference法) Q-module
n ゴールのみで与えられる遅延報酬を用いて,ゴールから
遠い状態での行動の評価を行う事が可能になる.	
•  行動選択 Selector	
s
a
r
7	
  
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
強化学習による問題解決 #3
n 行動選択肢の生成 Action model
n 行動選択 Selector
ai = argmin
i
Q si,ai( )
8
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
認知距離による問題解決#1
n 認知距離 を保持する	
n 環境モデルも保持する	
	
n 各状態において,ゴールへの認知距離小さい行動を選択
n 特徴	
n 任意の初期状態とゴール状態に対して適用可能	
n 探索に要する計算コストが小さい	
n 認知距離を記憶するメモリコストが大きい	
D: 認知距離	
FROM 状態	
TO 状態	
9
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
認知距離による問題解決#2
n  状態履歴	
n  最近の履歴を保存
n  環境モデル(フォワードモデル)	
n  遷移可能状態の選択肢を出力する	
(*) 入力センサ状state(t)と行動action(t)をペアにした一般化状態
S(t)を利用する(t は時刻).詳細は資料末尾の説明を参照.
n  認知距離モジュール	
n  認知距離を学習する	
n  セレクタ	
n  サブ意図D(t)を選択する	
10
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
認知距離による問題解決#3 ー 環境モデルの導入ー 	
n 遷移可能状態の選択肢の生成: 環境モデル
n 行動選択: Selector
ai = si,ai[ ]= argmin
i
L si,ai[ ], sG,ag
!" #$( )
11
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
認知距離による問題解決#4: 探索処理の統合
ゴール状態(SG)までの認知距離を得られるまで,環境モデ
ルを用いて反復深化深さ優先探索(IDDFS)を行う.
認知距離	
FROM 状態	
TO 状態	
Forward	
model	
状態(t)	
 状態(t+1)	
S 	
1	
 S 	
4	
S 	
7	
S 	
G	
L(S , S )	
7	
 G	
Cognitive

distance	
Di = argmin
i
L Si,SG( )
12
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
単層の認知距離学習(CDL)モデルのまとめ	
n 目標状態へ至る行動系列を生成するエージェントモデル	
n 学習: 環境との相互作用で任意の状態間の行動に要する認知距離を保存	
n 行動: 目標状態への認知距離が短い動作を選択	
•  履歴キューHは,近い過去数状態を保持するキュー	
•  環境モデルFは,状態入力から直接遷移可能な状態の候補を列挙	
•  認知距離モジュールTは,任意の状態間の距離を学習するテーブル 	
•  探索エンジンは,環境モデルFと認知距離Tを用い,状態SとゴールGから意図Dを出力	
探索エンジン	
状態S	
ゴールG	
意図D	
 認知	
距離	
CDLエージェント(=層ユニット)	
13	
  
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
機能比較: CDLは到達可能判断に強み	
n  到達可能判断:
n 与えられたゴールが実現可能か
否かを,判定する能力.
n  熟達性:
n 同じ動作シークエンスが速くなる
•  CDLは,ゴールまでの距離を
知っていれば到達可能である
と即座に判定可能	
•  この能力を条件部とみなすこ
とで,CDLはプロダクション
ルールとして利用できる.	
14	
  
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
距離保持の組み合わせ爆発 問題	
問題解決器と必要なメモリ	
n Ns : 取り扱う状態の数	
n m : 各状態から直接移動可能な状態の数(平均的に見て)
n 認知距離	
n 距離数のオーダ = O(Ns × Ns )
n 環境モデル(探索手法に用いる)
n 遷移数のオーダ = O(Ns × m )
n 評価関数(Q学習に用いる)
n 評価数のオーダ = O(Ns)
大きい	
15	
  
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
目次	
n 単層の認知距離学習器
n 問題の定式化
n 従来技術による問題解決: 探索手法,強化学習
n 認知距離学習器
n 機能比較と課題
n 階層化した認知距離学習器  ーメモリ削減のためにー
n 従来技術における階層化
n 状態の階層化
n 階層化した認知距離学習器
n ループ問題を解決する意図の保持
n BDIアーキとの関連性
n 心理実験結果と認知距離との比較
n 関連する学会発表等
n 参考:一般化状態について
16	
  
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
従来技術における階層化	
計算コスト,メモリ,学習時間などの削減が目的となっている.

(※モジュール化による再利用性向上とは異なる)
n 探索手法	
n ABSTRIPS
n 強化学習	
n マルチモジュール強化学習	
n 多層強化学習(高橋,浅田 1999)
17	
  
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
標識状態を介したCDLエージェントの階層化	
高次レベルほど粗い認知地図を自律的に獲得. 隣接する二つ
のレベル間では粗い上位レベルの各状態は,詳細な下位レベル
のセグメントに対応しそれに対応する標識状態が配置される.
	
第一層と第二層の対応	
	
	
	
	
	
	
	
	
	
空間的に概ね一様な領域
毎に配置される標識状態	
状態SとゴールGから意図
Dが並行して層変換される	
18
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
標識状態を使った階層プランニング	
層ごとの動作概要	
1.  目標状態Grと,現在状
態Srから意図Drを出力
しようと試みる.	
2.  それに失敗したら,上
位に層に,GrとSrを送り,
上位意図Dr+1を得る.
3.  Dr+1SとGrから意図Drを
出力する.
19
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
状態空間の自動分割による階層化	
n 分割統治による認知距離の保持	
n 上位層: 広い範囲を粗く学習	
n 下位層: 狭い範囲を詳細に学習	
n 空間分割アルゴリズム
n 適当に選んだ標識状態
からの距離が一定以下に
なるように領域を分割する
n 学習した分割は
右図のような均等な形には
ならない.
n 到達可能範囲はオーバーラップ	
 lcd: 認知距離の最大記憶長	
標識状態	
20	
  
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
実験パラメータ:	
2  	
maxCDLngth 学習する最大の認知距離	
1   	
shallowSearchLngth ゴールを浅く探索する場合の最大の深さ	
200 	
deepSearchLngth ゴールを深く探索する場合の最大の深さ	
-1  	
minSearchLngth ゴールを探索する最小の深さ	
3   	
maxSegmentSize 標識状態間の最大距離。ここで指定された
距離の範囲で標識状態を探索し、標識状態が無ければ
新たな標識状態を生成します。	
部屋: 16×16ほぼ円形グリッドワールで.	
移動: 上下左右の4方向(ランダム移動)	
状態数: 位置と移動方向を合わせた688状態.	
(全状態数=188マス×4方向-16×4= 688状態)	
円形グリッドワールドでの自動分割実験
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
2層の標識状態	
140個程度の各
台形(黄色)が2
層の標識状態	
学習後の各層(2〜5層)における標識状態	
3層の標識状態	
18個程度の台
形クラスタが2
層における一つ
の状態で,あり
3層の標識状態	
5層の標識状態	
1個台形クラスタ
が4層における一
つの状態であり,
5層の標識状態	
各台形は,(位置+進入方向)を表す	
4層の標識状態	
3個台形クラスタ
が3層における一
つの状態であり,
4層の標識状態
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
層ユニットのDFD(データフローダイアグラム)
n 疎視化	
n 下位の状態を上位の状態に
マップする	
n 標識化	
n 上位状態の下位における標
識状態を指定	
n サブ意図選択	
n 距離の小さい状態を選択	
n 探索	
n D0=探索(S,G,深く)
n D1=探索(S,G,浅く)
n D3=探索(S,V,深く)
23	
  
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
サブ意図に対するループ問題	
n gに行きたいが以下の動作を繰り返す	
n 下位層: bに行くためにs2に移動	
n 上位層: Aに行くためにs1に移動	
n 二つのユニット間の意図の一貫性の欠如	
n ⇒目的地に到達するまでは意図を保持ことが必要	
下位層主導の動作	
 上位層主導の動作	
24	
  
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
層ユニットのDFD(保持サブ意図の導入)	
n 保持サブ意図	
n 上位のサブ意図を保持	
n 入力意図到達	
n 距離の小さい状態を選択	
n 探索	
n D0=探索(S,G,深く)
n D1=探索(S,G,浅く)
n D2=探索(S,V,深く)
n D3=探索(S,V,深く)
ループ問題を解消
25	
  
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
階層化によるメモリ&探索コスト削減	
階層を用いない場合	
利
用
階
層
数
	
空間スケーラビリティ:

   階層化は,メモリ&探索コストを削減する	
メモリ	
探索コスト	
26
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
目次	
n 単層の認知距離学習器
n 問題の定式化
n 従来技術による問題解決: 探索手法,強化学習
n 認知距離学習器
n 機能比較と課題
n 階層化した認知距離学習器  ーメモリ削減のためにー
n 従来技術における階層化
n 状態の階層化
n 階層化した認知距離学習器
n ループ問題を解決する意図の保持
n BDIアーキとの関連性
n 心理実験結果と認知距離との比較
n 関連する学会発表等
n 参考:一般化状態について
27	
  
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
階層CDLの意図はBDIアーキテクチャと似ている	
n Bratman 『意図と行為』
n (C1)意図を実現する手段を
推論する	
n (C2)意図を持続的に保持す
る	
n (C3)当面の詳細な熟考を抑
制する	
n (C4)推論の前提となる信念
に影響を与える	
n BDIアーキテクチャ	
n 意図によるプランニングのモ
デル(Rao, 高田)
n 階層化CDLでの意図	
n 上位層から受け取った意図
を保持する.	
n 意図を保持しないと行動に無
限ループが発生する.	
n 左の(C1)~(C3)の性質を反
映している.	
n ※意図の必要性を実験的
に示すことができた.	
28
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
心理実験結果と認知距離との比較	
n 認知距離yの,実距離xとの関係は,Stevensの法則がよく知ら
れている.	
b
axy =
•  学習ステップが500回
でStevensの法則によ
く一致.	
•  心理実験結果(篠原)
によるa=0.69に近い	
•  学習が進むと,正しい
距離に近づく.	
29	
  
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
関連する学会発表等	
n  山川宏,岡田浩之,馬場孝之. (2000). “認知距離を用いた問題解決
器の提案," Proc. MACC2000 予稿集, 沖縄.
http://www.kecl.ntt.co.jp/csl/ccrg/events/macc2000/yamakawa.html
n  Hiroshi Yamakawa, Yuji Miyamoto, and Hiroyuki Okada. “
Comparison the learning processes of cognitive distance learning
and search based agent. ” 6th International Work-Conference on
Artificial and Natural  Neural Networks (IWANN2001), pp. 378-385,
2001.
http://link.springer.com/chapter/10.1007/3-540-45720-8_44
n  山川宏, 宮本祐司, 馬場孝之, 岡田浩之. “認知距離学習による問題解
決器の 実行時探索削減の評価と学習プロセスの解析", 人工知能学会
誌, Vol. 17, No. 1, pp.1-13, 2002.
http://dx.doi.org/10.1527/tjsai.17.1
n  山川宏, 岡田浩之. “意図モデルの比較による意図の存在意義の検討”,
日本認知科学会第19回大会, pp. 206-207, June 2002.
n  認知距離学習(CDL)モデルからみた海馬-嗅内皮質機能の検討,脳と心
のメカニズムワークショップ,ルスツ,2012.
30	
  
参考:一般化状態について
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
利用できる機会が多い
観察からの学習により
抽出できる構造には
制御可能性の情報が
含まれない	
制御可能性を区別しない定式化	
マルコフ決定モデル(Q
学習等)では変数の

制御可能性の

区別が必要	
制御可能性の区別を必要としない

問題解決器として定式化したい	
32
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
マルコフ決定モデルとQ学習	
n s(t): センサ入力 (時刻 t における)
n a(t): 動作出力(時刻 t における)
n Q(s(t), a(t+1)): Q値(行動の評価)
33	
  
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
変数の制御可能性	
n s(t): センサ入力 → 制御不能な変数	
n a(t): 動作出力 → 制御可能な変数	
必ず

実現する	
予測	
予測	
制御可能	
制御不能	
エージェントは,センサ入力から動作出力を行い,	
環境は,動作出力からセンサ入力を生成する.	
34	
  
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
一般化状態として定式化	
n S(t): 環境から得られる状態 = (s(t), a(t))
n D(t): Agentが実現したい意図= (s(t+1), a(t+1))
予測値	
予測	
必ず実現
する予測	
制御可能	
制御不能	
制御可能な変数は,環境へ与えた実現したい状態(意図)が	
センサ入力として反映される.	
35	
  
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
グリッドワールドではどうなるか
n 一般化状態	
n S(t): = (s(t), a(t))
n 状態s(t)とそこに至るa(t)をまと
めて一般化状態S(t)とする.
n Q学習の例	
n Q(s(t), a(t+1))
n ある状態s(t)において
行動a(t+1)を行う.
36
CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS
一般化状態を導入するメリットとデメリット	
n メリット	
n 制御可能性の区別を必要としない	
• 制御可能性が動的に変化しても問題無い.	
n CDLにおいて階層化の定式化を自然に行えた	
n デメリット	
n 常に行動も含めた目標状態(ゴール)の設定が必要
• 記述が複雑になる可能性がある.	
• 部分情報をゴールとするにはマルチゴールとして扱う必要がある	
n 一般化状態による認知距離だけでは動作できない	
• 環境モデル(環境モデル)が必須となる	
37	
  

More Related Content

認知距離学習器の説明

  • 1. 認知距離学習器(CDL)の解説 Cognitive Distance Learing Model 山川宏 ドワンゴ人工知能研究所 2015年2月
  • 2. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS モデル概要 n 認知距離学習(CDL)モデルは,環境中を移動しつつ状態間の距離 を記憶・蓄積してプランニングに利用するゴール指向型エージェン トである. n 実行可能性の判断が速い特徴により,プロダクションルールとして利用しうる. n 強化学習と異なり,任意ゴールに対するナビゲーションが可能. n 距離に基づく階層化を行なったCDLモデル n 階層化CDLモデルは,高次レベルほど粒度の粗い認知地図を自律獲得して 利用することでメモリコストを削減できる. n 階層的に意図を分解する意味でBDIアーキテクチャの実現例になっている. n 山川が2000年ごろにリアルワールドコンピュティングプロジェクト (RWCP) 内の研究の一環で,マルチエージェントシステム内の 個々のエージェントとして開発した学習型プランナ 1  
  • 3. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 目次 n 単層の認知距離学習器 n 問題の定式化 n 従来技術による問題解決: 探索手法,強化学習 n 認知距離学習器 n 機能比較と課題 n 階層化した認知距離学習器  ーメモリ削減のためにー n 従来技術における階層化 n 状態の階層化 n 階層化した認知距離学習器 n ループ問題を解決する意図の保持 n BDIアーキとの関連性 n 心理実験結果と認知距離との比較 n 関連する学会発表等 n 参考:一般化状態について 2  
  • 4. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 問題の定式化 n 状態空間 n 環境モデル n 世界モデル,前向きモデル等と同義 ※モデルベースド強化学習における「モデル」 n 初期状態 n ゴール検査 n 単純に,ゴールの状態
 が単一の場合を扱う n 認知距離 n 経験的に得られた2状態間の 距離. n 単純に,一時刻の移動コストが 1の場合を扱う 状態空間 初期状態 ゴール 3
  • 5. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 探索手法における問題解決 #1 n 環境モデルを保持する(学習してもよい) n 初期状態からゴール状態に遷移する,環境モデルの遷移列を探索する. n 特徴 n 任意の初期状態とゴール状態に対して適用可能 n 探索に要する計算コストが大きい 環境モデル 4  
  • 6. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 探索手法における問題解決 #2 n 探索による経路計画の生成 n 実行 n 計画どおりに実行する 5  
  • 7. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 強化学習による問題解決 #1 n (状態 ⇒ 行動)の評価学習する(Q学習) n 予測評価の伝播 ⇒ Temporal Difference法 n 行動選択 ⇒ 評価の高い行動を選択 n 特徴 n ゴール状態を固定して学習せざるを得ない n 探索に要する計算コストが小さい (状態 ⇒ 行動) Q値(評価) 6  
  • 8. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 強化学習による問題解決 #2 n 予測評価の伝播(Temporal Difference法) Q-module n ゴールのみで与えられる遅延報酬を用いて,ゴールから 遠い状態での行動の評価を行う事が可能になる. •  行動選択 Selector s a r 7  
  • 9. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 強化学習による問題解決 #3 n 行動選択肢の生成 Action model n 行動選択 Selector ai = argmin i Q si,ai( ) 8
  • 10. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 認知距離による問題解決#1 n 認知距離 を保持する n 環境モデルも保持する n 各状態において,ゴールへの認知距離小さい行動を選択 n 特徴 n 任意の初期状態とゴール状態に対して適用可能 n 探索に要する計算コストが小さい n 認知距離を記憶するメモリコストが大きい D: 認知距離 FROM 状態 TO 状態 9
  • 11. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 認知距離による問題解決#2 n  状態履歴 n  最近の履歴を保存 n  環境モデル(フォワードモデル) n  遷移可能状態の選択肢を出力する (*) 入力センサ状state(t)と行動action(t)をペアにした一般化状態 S(t)を利用する(t は時刻).詳細は資料末尾の説明を参照. n  認知距離モジュール n  認知距離を学習する n  セレクタ n  サブ意図D(t)を選択する 10
  • 12. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 認知距離による問題解決#3 ー 環境モデルの導入ー n 遷移可能状態の選択肢の生成: 環境モデル n 行動選択: Selector ai = si,ai[ ]= argmin i L si,ai[ ], sG,ag !" #$( ) 11
  • 13. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 認知距離による問題解決#4: 探索処理の統合 ゴール状態(SG)までの認知距離を得られるまで,環境モデ ルを用いて反復深化深さ優先探索(IDDFS)を行う. 認知距離 FROM 状態 TO 状態 Forward model 状態(t) 状態(t+1) S 1 S 4 S 7 S G L(S , S ) 7 G Cognitive
 distance Di = argmin i L Si,SG( ) 12
  • 14. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 単層の認知距離学習(CDL)モデルのまとめ n 目標状態へ至る行動系列を生成するエージェントモデル n 学習: 環境との相互作用で任意の状態間の行動に要する認知距離を保存 n 行動: 目標状態への認知距離が短い動作を選択 •  履歴キューHは,近い過去数状態を保持するキュー •  環境モデルFは,状態入力から直接遷移可能な状態の候補を列挙 •  認知距離モジュールTは,任意の状態間の距離を学習するテーブル •  探索エンジンは,環境モデルFと認知距離Tを用い,状態SとゴールGから意図Dを出力 探索エンジン 状態S ゴールG 意図D 認知 距離 CDLエージェント(=層ユニット) 13  
  • 15. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 機能比較: CDLは到達可能判断に強み n  到達可能判断: n 与えられたゴールが実現可能か 否かを,判定する能力. n  熟達性: n 同じ動作シークエンスが速くなる •  CDLは,ゴールまでの距離を 知っていれば到達可能である と即座に判定可能 •  この能力を条件部とみなすこ とで,CDLはプロダクション ルールとして利用できる. 14  
  • 16. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 距離保持の組み合わせ爆発 問題 問題解決器と必要なメモリ n Ns : 取り扱う状態の数 n m : 各状態から直接移動可能な状態の数(平均的に見て) n 認知距離 n 距離数のオーダ = O(Ns × Ns ) n 環境モデル(探索手法に用いる) n 遷移数のオーダ = O(Ns × m ) n 評価関数(Q学習に用いる) n 評価数のオーダ = O(Ns) 大きい 15  
  • 17. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 目次 n 単層の認知距離学習器 n 問題の定式化 n 従来技術による問題解決: 探索手法,強化学習 n 認知距離学習器 n 機能比較と課題 n 階層化した認知距離学習器  ーメモリ削減のためにー n 従来技術における階層化 n 状態の階層化 n 階層化した認知距離学習器 n ループ問題を解決する意図の保持 n BDIアーキとの関連性 n 心理実験結果と認知距離との比較 n 関連する学会発表等 n 参考:一般化状態について 16  
  • 18. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 従来技術における階層化 計算コスト,メモリ,学習時間などの削減が目的となっている.
 (※モジュール化による再利用性向上とは異なる) n 探索手法 n ABSTRIPS n 強化学習 n マルチモジュール強化学習 n 多層強化学習(高橋,浅田 1999) 17  
  • 19. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 標識状態を介したCDLエージェントの階層化 高次レベルほど粗い認知地図を自律的に獲得. 隣接する二つ のレベル間では粗い上位レベルの各状態は,詳細な下位レベル のセグメントに対応しそれに対応する標識状態が配置される. 第一層と第二層の対応 空間的に概ね一様な領域 毎に配置される標識状態 状態SとゴールGから意図 Dが並行して層変換される 18
  • 20. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 標識状態を使った階層プランニング 層ごとの動作概要 1.  目標状態Grと,現在状 態Srから意図Drを出力 しようと試みる. 2.  それに失敗したら,上 位に層に,GrとSrを送り, 上位意図Dr+1を得る. 3.  Dr+1SとGrから意図Drを 出力する. 19
  • 21. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 状態空間の自動分割による階層化 n 分割統治による認知距離の保持 n 上位層: 広い範囲を粗く学習 n 下位層: 狭い範囲を詳細に学習 n 空間分割アルゴリズム n 適当に選んだ標識状態 からの距離が一定以下に なるように領域を分割する n 学習した分割は 右図のような均等な形には ならない. n 到達可能範囲はオーバーラップ lcd: 認知距離の最大記憶長 標識状態 20  
  • 22. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 実験パラメータ: 2  maxCDLngth 学習する最大の認知距離 1   shallowSearchLngth ゴールを浅く探索する場合の最大の深さ 200  deepSearchLngth ゴールを深く探索する場合の最大の深さ -1  minSearchLngth ゴールを探索する最小の深さ 3   maxSegmentSize 標識状態間の最大距離。ここで指定された 距離の範囲で標識状態を探索し、標識状態が無ければ 新たな標識状態を生成します。 部屋: 16×16ほぼ円形グリッドワールで. 移動: 上下左右の4方向(ランダム移動) 状態数: 位置と移動方向を合わせた688状態. (全状態数=188マス×4方向-16×4= 688状態) 円形グリッドワールドでの自動分割実験
  • 23. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 2層の標識状態 140個程度の各 台形(黄色)が2 層の標識状態 学習後の各層(2〜5層)における標識状態 3層の標識状態 18個程度の台 形クラスタが2 層における一つ の状態で,あり 3層の標識状態 5層の標識状態 1個台形クラスタ が4層における一 つの状態であり, 5層の標識状態 各台形は,(位置+進入方向)を表す 4層の標識状態 3個台形クラスタ が3層における一 つの状態であり, 4層の標識状態
  • 24. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 層ユニットのDFD(データフローダイアグラム) n 疎視化 n 下位の状態を上位の状態に マップする n 標識化 n 上位状態の下位における標 識状態を指定 n サブ意図選択 n 距離の小さい状態を選択 n 探索 n D0=探索(S,G,深く) n D1=探索(S,G,浅く) n D3=探索(S,V,深く) 23  
  • 25. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS サブ意図に対するループ問題 n gに行きたいが以下の動作を繰り返す n 下位層: bに行くためにs2に移動 n 上位層: Aに行くためにs1に移動 n 二つのユニット間の意図の一貫性の欠如 n ⇒目的地に到達するまでは意図を保持ことが必要 下位層主導の動作 上位層主導の動作 24  
  • 26. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 層ユニットのDFD(保持サブ意図の導入) n 保持サブ意図 n 上位のサブ意図を保持 n 入力意図到達 n 距離の小さい状態を選択 n 探索 n D0=探索(S,G,深く) n D1=探索(S,G,浅く) n D2=探索(S,V,深く) n D3=探索(S,V,深く) ループ問題を解消 25  
  • 27. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 階層化によるメモリ&探索コスト削減 階層を用いない場合 利 用 階 層 数 空間スケーラビリティ:
    階層化は,メモリ&探索コストを削減する メモリ 探索コスト 26
  • 28. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 目次 n 単層の認知距離学習器 n 問題の定式化 n 従来技術による問題解決: 探索手法,強化学習 n 認知距離学習器 n 機能比較と課題 n 階層化した認知距離学習器  ーメモリ削減のためにー n 従来技術における階層化 n 状態の階層化 n 階層化した認知距離学習器 n ループ問題を解決する意図の保持 n BDIアーキとの関連性 n 心理実験結果と認知距離との比較 n 関連する学会発表等 n 参考:一般化状態について 27  
  • 29. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 階層CDLの意図はBDIアーキテクチャと似ている n Bratman 『意図と行為』 n (C1)意図を実現する手段を 推論する n (C2)意図を持続的に保持す る n (C3)当面の詳細な熟考を抑 制する n (C4)推論の前提となる信念 に影響を与える n BDIアーキテクチャ n 意図によるプランニングのモ デル(Rao, 高田) n 階層化CDLでの意図 n 上位層から受け取った意図 を保持する. n 意図を保持しないと行動に無 限ループが発生する. n 左の(C1)~(C3)の性質を反 映している. n ※意図の必要性を実験的 に示すことができた. 28
  • 30. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 心理実験結果と認知距離との比較 n 認知距離yの,実距離xとの関係は,Stevensの法則がよく知ら れている. b axy = •  学習ステップが500回 でStevensの法則によ く一致. •  心理実験結果(篠原) によるa=0.69に近い •  学習が進むと,正しい 距離に近づく. 29  
  • 31. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 関連する学会発表等 n  山川宏,岡田浩之,馬場孝之. (2000). “認知距離を用いた問題解決 器の提案," Proc. MACC2000 予稿集, 沖縄. http://www.kecl.ntt.co.jp/csl/ccrg/events/macc2000/yamakawa.html n  Hiroshi Yamakawa, Yuji Miyamoto, and Hiroyuki Okada. “ Comparison the learning processes of cognitive distance learning and search based agent. ” 6th International Work-Conference on Artificial and Natural  Neural Networks (IWANN2001), pp. 378-385, 2001. http://link.springer.com/chapter/10.1007/3-540-45720-8_44 n  山川宏, 宮本祐司, 馬場孝之, 岡田浩之. “認知距離学習による問題解 決器の 実行時探索削減の評価と学習プロセスの解析", 人工知能学会 誌, Vol. 17, No. 1, pp.1-13, 2002. http://dx.doi.org/10.1527/tjsai.17.1 n  山川宏, 岡田浩之. “意図モデルの比較による意図の存在意義の検討”, 日本認知科学会第19回大会, pp. 206-207, June 2002. n  認知距離学習(CDL)モデルからみた海馬-嗅内皮質機能の検討,脳と心 のメカニズムワークショップ,ルスツ,2012. 30  
  • 33. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 利用できる機会が多い 観察からの学習により 抽出できる構造には 制御可能性の情報が 含まれない 制御可能性を区別しない定式化 マルコフ決定モデル(Q 学習等)では変数の
 制御可能性の
 区別が必要 制御可能性の区別を必要としない
 問題解決器として定式化したい 32
  • 34. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS マルコフ決定モデルとQ学習 n s(t): センサ入力 (時刻 t における) n a(t): 動作出力(時刻 t における) n Q(s(t), a(t+1)): Q値(行動の評価) 33  
  • 35. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 変数の制御可能性 n s(t): センサ入力 → 制御不能な変数 n a(t): 動作出力 → 制御可能な変数 必ず
 実現する 予測 予測 制御可能 制御不能 エージェントは,センサ入力から動作出力を行い, 環境は,動作出力からセンサ入力を生成する. 34  
  • 36. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 一般化状態として定式化 n S(t): 環境から得られる状態 = (s(t), a(t)) n D(t): Agentが実現したい意図= (s(t+1), a(t+1)) 予測値 予測 必ず実現 する予測 制御可能 制御不能 制御可能な変数は,環境へ与えた実現したい状態(意図)が センサ入力として反映される. 35  
  • 37. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS グリッドワールドではどうなるか n 一般化状態 n S(t): = (s(t), a(t)) n 状態s(t)とそこに至るa(t)をまと めて一般化状態S(t)とする. n Q学習の例 n Q(s(t), a(t+1)) n ある状態s(t)において 行動a(t+1)を行う. 36
  • 38. CONFIDENTIAL MATERIAL / RESTRICTED ACCESSCONFIDENTIAL MATERIAL / RESTRICTED ACCESS 一般化状態を導入するメリットとデメリット n メリット n 制御可能性の区別を必要としない • 制御可能性が動的に変化しても問題無い. n CDLにおいて階層化の定式化を自然に行えた n デメリット n 常に行動も含めた目標状態(ゴール)の設定が必要 • 記述が複雑になる可能性がある. • 部分情報をゴールとするにはマルチゴールとして扱う必要がある n 一般化状態による認知距離だけでは動作できない • 環境モデル(環境モデル)が必須となる 37