对于MDP, 有以下几个最优策略的结论。1.当关于某个策略的值函数取得最优此时策略最优(最优策略的定义)。2.只有最优状态值函数和状态动作值函数满足最优bellman equation,即最优策略对应的值函数满足最优bellman equation. 其余策略对应的值函数不满足3.有些值函数是策略的值函数,有些不一定对应一个确定的策略。策略的值函数一定满足bellman expectation equation