马尔可夫决策过程,关注的是现在和未来,对于过去是一笔勾销。而或是我们所有的过去早已内化为了此刻现在的一部分,也许人生往前走也是一样。人总是要关注当下,人总是要往前看的。但是我们的状态空间与行为空间维数过大且不易量化,至于最优策略则只能在人生结束时才能盖棺定论了。