热门

最新

红包

立Flag

投票

同城

我的

发布
weixin_37699468
nobodymzy
7 年前
trueweixin_37699468

对于MDP, 有以下几个最优策略的结论。
1.当关于某个策略的值函数取得最优此时策略最优(最优策略的定义)。
2.只有最优状态值函数和状态动作值函数满足最优bellman equation,即最优策略对应的值函数满足最优bellman equation. 其余策略对应的值函数不满足
3.有些值函数是策略的值函数,有些不一定对应一个确定的策略。策略的值函数一定满足bellman expectation equation

CSDN App 扫码分享
分享
评论
点赞
打赏
  • 复制链接
  • 举报
下一条动态
立即登录