方策をパラメータθによってパラメタライズし、最適化を行う方法をするときに出てくる定理 ∇θJ(θ)=Eπθ[∇θlogπθ(a∣s)Qπ(s,a)] ここでの期待値はs,aに関しての期待値を表している 報酬として平均報酬の期待値を採用すると行動価値がちょっと変わってくるので注意