-
ある状態から方策に従って行動を決定していったときに得られる収益の期待値
- 状態価値関数は
- ここでは収益、は方策
- 状態価値関数としてVが使われるのはValueだからかな
-
状態価値関数の推定
- 収益として割引報酬和を考える
- とすると
- 期待値の線形性より
- ここで2項目がとなってくれるとと書けてうれしい
- 2項目は、
- ここでは状態遷移確率である
- ある状態である行動をしたときに次の状態へ行く環境のダイナミクス部分
- と書けて、1項目は
- なので、まとめると
- と書ける。
- これは状態価値関数におけるベルマン方程式と呼ぶ