マルコフ決定過程(MDP)において、現在の状態から目標の状態への遷移を説明する能力を自立型エージェントに付与するアルゴリズムを提案する。
そこでWorld Modelを用いて意思決定プロセスにおける重要な要素を特定し、その要素に基づいた説明を生成する枠組みを提案する。
自立型ロボットに求められる説明可能性は、XAIの領域で取り組まれている問題の性質とは異なる(XAIでは分類問題がメインで取り組まれる)。XAIは主に知識のあるユーザーがシステムのデバッグに用いるものであり、ユーザーが入力特徴量から望ましい意思決定結果を導き出せることが前提である場合にのみ有用である。
自立型ロボットは意思決定まで行うため、入力特徴量から意思決定までの流れを説明する必要がある。
説明の生成を以下の流れで行う
World Modelの学習
環境において状態遷移を推定できるモデルを学習させ、そのモデルを用いて目標状態に到達するために重要な状態、行動を抽出する。
重要度算出に基づくサブゴールの同定
サブゴール(MDP上で目標状態への代替経路を見つけることが困難な状態-行動ペア)を重要とし算出する。
キーポイントの特定と説明の提示
MDP上でユーザーが理解できない要素(遷移)を推定し、説明に利用する。
シミュレーション環境であるグリッド環境と、行動方策としてDQNにより学習したモデルを用いて実験を行う。
最適経路の導出結果。赤三角がエージェントであり、鍵を拾って緑の目的地に移動することを目的としたタスクである。(a)説明により示されたサブゴール(b)質問者が想定するルート(c)そのルートに対するキーポイントと説明(赤枠)。
選択したサブゴールが有用であるなら、新たなエージェントを学習させるときにサブゴールを用いれば学習の時間を減らせると仮定して実験を行なった。
シミュレーション環境で、エージェントの行動に関する説明を生成しその説明によって現在の状態から目標状態への遷移が理解できるかどうかを検証した。
ユーザーにはエージェントがゴールに向かうこと、鍵を拾って扉をくぐるとゴールに到着する、鍵と扉の位置は毎回変わること、の3点の情報が与えられた。
グリッド環境を被験者に提示する際には常にエージェント前方の3×3マスの身が観察できる画像を提示した。
アンケートによりランダムな状態-行動ペアを提示と比べて提案手法は良い説明となることが示された。