• Q-学習をNNを使って行う手法

    • 行動価値関数をNNによってモデル化
  • いくつかのdeep Learningポイントとして

    • 経験再生(Replay Buffer)
      • 得られた経験(trajectory)を順に学習データとして使うのではなくランダムにサンプリングしてNNに通す
    • 2つのNNによる行動価値関数のUpdate
      • により行動価値関数をモデル化し、TD誤差の学習のとき とターゲットに使う行動価値関数のNNと最適化対象のNNを別のパラメータでモデル化
        • 定期的なステップ数でとupdateする