Sarsa(onpolicy)Sarsa算法与Q-learn-CSDN blink-领先的开发者技术社区

最新

红包

立Flag

投票

同城

我的

发布

旺仔不涨价

5 年前

trueqq_52654678

Sarsa(on policy)
Sarsa算法与Q-learning类似，最大的区别在于Sarsa为在线学习方式(on policy),而Q-learning属于离线学习方式(off policy).
参数上Sarsa比Q-learning多了一个a_,Sarsa在更新Q表时会使用Q(s_,a_)去计算真实值，而Q-learning会默认使用maxQ(s_)去计算真实值。而在s_中，Q-learning算法不一定会使用maxQ(s_)，而Sarsa一定会使用用于去计算真实值的a_.
相比较来说Q-learning算法比Sarsa更加大胆，对于最终的reward表现得更加贪婪，而对于那些负面的reward表现得并不在乎。

CSDN App 扫码分享

打赏

复制链接
举报

下一条：

复选框打勾符号：☑

立即登录