Sarsa(on policy)
Sarsa算法与Q-learning类似,最大的区别在于Sarsa为在线学习方式(on policy),而Q-learning属于离线学习方式(off policy).
参数上Sarsa比Q-learning多了一个a_,Sarsa在更新Q表时会使用Q(s_,a_)去计算真实值,而Q-learning会默认使用maxQ(s_)去计算真实值。而在s_中,Q-learning算法不一定会使用maxQ(s_),而Sarsa一定会使用用于去计算真实值的a_.
相比较来说Q-learning算法比Sarsa更加大胆,对于最终的reward表现得更加贪婪,而对于那些负面的reward表现得并不在乎。