chisiki 🦉

❯

❯

Q-学習

2026年4月02日1 min read

強化学習

行動価値を $Q (S_{t}, A_{t}) \leftarrow (1 - α) Q (S_{t}, A_{t}) + α (R_{t + 1} + γ max_{a'} Q (S_{t + 1}, a'))$ によって更新する学習方法
- $α$ は学習率
式変形すると $Q (S_{t}, A_{t}) \leftarrow Q (S_{t}, A_{t}) + α (R_{t + 1} + γ max_{a'} Q (S_{t + 1}, a') - Q (S_{t}, A_{t}))$
- 実装上はこっちを使うことが多いかな

グラフビュー

バックリンク

Deep Q-Network

作成 Quartz v4.4.0 © 2026

GitHub
Discord Community