-
Q-学習をNNを使って行う手法
- 行動価値関数をNNによってモデル化
-
いくつかのdeep Learningポイントとして
- 経験再生(Replay Buffer)
- 得られた経験(trajectory)を順に学習データとして使うのではなくランダムにサンプリングしてNNに通す
- 2つのNNによる行動価値関数のUpdate
- とにより行動価値関数をモデル化し、TD誤差の学習のとき
とターゲットに使う行動価値関数のNNと最適化対象のNNを別のパラメータでモデル化
- 定期的なステップ数でとupdateする
- とにより行動価値関数をモデル化し、TD誤差の学習のとき
とターゲットに使う行動価値関数のNNと最適化対象のNNを別のパラメータでモデル化
- 経験再生(Replay Buffer)