chisiki 🦉

❯

❯

Deep Q-Network

2026年4月02日1 min read

強化学習
DeepLearning

Q-学習をNNを使って行う手法
- 行動価値関数をNNによってモデル化
いくつかのdeep Learningポイントとして
- 経験再生（Replay Buffer）
  - 得られた経験（trajectory）を順に学習データとして使うのではなくランダムにサンプリングしてNNに通す
- 2つのNNによる行動価値関数のUpdate
  - $ϕ$ と $\overset{ˉ}{ϕ}$ により行動価値関数をモデル化し、TD誤差の学習のとき $\frac{1}{2} E (R + γ max_{a'} Q_{\overset{ˉ}{ϕ}} (S', a') - Q_{ϕ} (S, A))^{2}$ とターゲットに使う行動価値関数のNNと最適化対象のNNを別のパラメータでモデル化
    - 定期的なステップ数で $\overset{ˉ}{ϕ} \leftarrow ϕ$ とupdateする

グラフビュー

作成 Quartz v4.4.0 © 2026

GitHub
Discord Community