状態価値

ある状態から方策 $π$ に従って行動を決定していったときに得られる収益の期待値
- 状態価値関数 $V^{π} (s)$ は $V^{π} (s) = E [G_{t} ∣ S_{t} = s]$
- ここで $G_{t}$ は収益、 $π$ は方策
- 状態価値関数としてVが使われるのはValueだからかな
状態価値関数の推定
- 収益として割引報酬和を考える $G_{t} = \sum_{τ = 0}^{\infty} γ^{τ} R_{t + 1 + τ} = R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + \dots$
- とすると $V^{π} (s) = E [γ^{τ} R_{t + 1 + τ} ∣ S_{t} = s]$ $= E [R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + \dots ∣ S_{t} = s]$ $= E [R_{t + 1} ∣ S_{t} = s] + E [γ R_{t + 2} + γ^{2} R_{t + 3} + \dots ∣ S_{t} = s]$
  - 期待値の線形性より $= E [R_{t + 1} ∣ S_{t} = s] + γ E [R_{t + 2} + γ R_{t + 3} + \dots ∣ S_{t} = s]$
  - ここで2項目が $S_{t + 1} = s$ となってくれると $V^{π} (s^{'})$ と書けてうれしい
    - $s^{'} = S_{t + 1}$
  - 2項目は、 $\sum_{a} π (a ∣ s) \sum_{s^{'}} P (s^{'} ∣ s, a) γ E [R_{t + 2} + γ R_{t + 3} + \dots ∣ S_{t + 1} = s^{'}]$ $= \sum_{a} π (a ∣ s) \sum_{s^{'}} P (s^{'} ∣ s, a) V^{π} (s^{'})$
  - ここで $P (s^{'} ∣ s, a)$ は状態遷移確率である
    - ある状態である行動をしたときに次の状態へ行く環境のダイナミクス部分
  - と書けて、1項目は $E [R_{t + 1} ∣ S_{t} = s] = \sum_{a} π (a ∣ s) \sum_{s^{'}} P (s^{'} ∣ s, a) r (s, a, s^{'})$
  - なので、まとめると $V^{π} (s) = \sum_{a} π (a ∣ s) \sum_{s^{'}} P (s^{'} ∣ s, a) (r (s, a, s^{'}) + γ V^{π} (s^{'}))$
  - と書ける。
- これは状態価値関数におけるベルマン方程式と呼ぶ

chisiki 🦉

エクスプローラー

状態価値

グラフビュー