行動価値をQ(St,At)←(1−α)Q(St,At)+α(Rt+1+γmaxa′Q(St+1,a′)) によって更新する学習方法 αは学習率 式変形するとQ(St,At)←Q(St,At)+α(Rt+1+γmaxa′Q(St+1,a′)−Q(St,At)) 実装上はこっちを使うことが多いかな