chisiki 🦉

❯

❯

2026年4月02日1 min read

方策をパラメータ $θ$ によってパラメタライズし、最適化を行う方法をするときに出てくる定理
$\nabla_{θ} J (θ) = E_{π_{θ}} [\nabla_{θ} lo g π_{θ} (a ∣ s) Q^{π} (s, a)]$
- ここでの期待値はs,aに関しての期待値を表している
- 報酬として平均報酬の期待値を採用すると行動価値がちょっと変わってくるので注意

エクスプローラー