• ある状態のときにある行動をしたとき、から方策に従って行動を決定していったときに得られる収益の期待値

    • ここでのある行動は方策とは関係ない
    • 行動価値関数
  • 行動価値関数の推定

    • [状態価値関数]のときと同様に考える
      • つまり収益としてを考える
    • 行動価値は
    • と書ける
      • ここでは状態遷移確率である
      • は状態価値関数である
    • また行動価値を使うことで状態価値関数をしたのように書くことができる
    • 行動価値関数のベルマン方程式は下のように書ける