• 行動価値 によって更新する学習方法
    • は学習率
  • 式変形すると
    • 実装上はこっちを使うことが多いかな