对于MDP,有以下几个最优策略的结论。1.当关于某个策略的值-CSDN blink-领先的开发者技术社区

热门

最新

红包

立Flag

投票

同城

我的

发布

7 年前

trueweixin_37699468

对于MDP, 有以下几个最优策略的结论。
1.当关于某个策略的值函数取得最优此时策略最优（最优策略的定义）。
2.只有最优状态值函数和状态动作值函数满足最优bellman equation，即最优策略对应的值函数满足最优bellman equation. 其余策略对应的值函数不满足
3.有些值函数是策略的值函数，有些不一定对应一个确定的策略。策略的值函数一定满足bellman expectation equation

CSDN App 扫码分享

分享

评论

点赞

打赏

复制链接
举报

下一条动态