热门

最新

红包

立Flag

投票

同城

我的

发布
qq_52654678
旺仔不涨价
4 年前
trueqq_52654678

Sarsa(on policy)
Sarsa算法与Q-learning类似,最大的区别在于Sarsa为在线学习方式(on policy),而Q-learning属于离线学习方式(off policy).
参数上Sarsa比Q-learning多了一个a_,Sarsa在更新Q表时会使用Q(s_,a_)去计算真实值,而Q-learning会默认使用maxQ(s_)去计算真实值。而在s_中,Q-learning算法不一定会使用maxQ(s_),而Sarsa一定会使用用于去计算真实值的a_.
相比较来说Q-learning算法比Sarsa更加大胆,对于最终的reward表现得更加贪婪,而对于那些负面的reward表现得并不在乎。

CSDN App 扫码分享
分享
评论
点赞
打赏
  • 复制链接
  • 举报
下一条:
复选框打勾符号:☑
立即登录