• 方策をパラメータによってパラメタライズし、最適化を行う方法をするときに出てくる定理
    • ここでの期待値はs,aに関しての期待値を表している
    • 報酬として平均報酬の期待値を採用すると行動価値がちょっと変わってくるので注意