行動価値

ある状態のときにある行動をしたとき、から方策 $π$ に従って行動を決定していったときに得られる収益の期待値
- ここでのある行動は方策 $π$ とは関係ない
- 行動価値関数 $Q^{π} (s, a)$ は $Q^{π} (s, a) = E [G_{t} ∣ S_{t} = s, A_{t} = a]$
行動価値関数の推定
- [状態価値関数]のときと同様に考える
  - つまり収益として $G_{t} = \sum_{τ = 0}^{\infty} γ^{τ} R_{t + 1 + τ} = R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + \dots$ を考える
- 行動価値は $Q^{π} (s, a) = \sum_{s^{'}} P (s^{'} ∣ s, a) (r (s, a, s^{'}) + γ V^{π} (s^{'}))$
- と書ける
  - ここで $P (s^{'} ∣ s, a)$ は状態遷移確率である
  - $V^{π}$ は状態価値関数である
- また行動価値を使うことで状態価値関数をしたのように書くことができる $V^{π} (s) = \sum_{a} π (a ∣ s) \sum_{s^{'}} P (s^{'} ∣ s, a) (r (s, a, s^{'}) + γ V^{π} (s^{'}))$ $= \sum_{a} π (a ∣ s) Q^{π} (s, a)$
- 行動価値関数のベルマン方程式は下のように書ける $Q^{π} (s, a) = \sum_{s^{'}} P (s^{'} ∣ s, a) (r (s, a, s^{'}) + γ V^{π} (s^{'}))$

chisiki 🦉