热门

最新

红包

立Flag

投票

同城

我的

发布
java_wxid
Java程序员廖志伟 Java领域优质创作者
4 年前
truejava_wxid

码农的专属贴纸

树洞一下
CSDN App 扫码分享
分享
评论
3
打赏
  • 复制链接
  • 举报
下一条:
Sarsa(on policy) Sarsa算法与Q-learning类似,最大的区别在于Sarsa为在线学习方式(on policy),而Q-learning属于离线学习方式(off policy). 参数上Sarsa比Q-learning多了一个a_,Sarsa在更新Q表时会使用Q(s_,a_)去计算真实值,而Q-learning会默认使用maxQ(s_)去计算真实值。而在s_中,Q-learning算法不一定会使用maxQ(s_),而Sarsa一定会使用用于去计算真实值的a_. 相比较来说Q-learning算法比Sarsa更加大胆,对于最终的reward表现得更加贪婪,而对于那些负面的reward表现得并不在乎。
立即登录