搜索
您的当前位置:首页正文

RL强化学习总结(二)——马尔科夫决策过程

来源:独旅网

马尔科夫决策过程

马尔科夫决策过程,英文为Markov Decision Process,简称MDP。

马尔科夫决策的要求

1.能达到理想状态。也可以说是可以达到最后的状态。例如:阿尔法狗下棋能进行到赢的那一步
2.可以进行多种尝试
例如:阿尔法狗可以在某一次落子时,选择棋盘上多个位置中的其中一个
3.智能体的下一个状态只与当前状态和当前状态下采取的行动有关,与之前的状态没有关系

MDP的五大元素

状态价值函数

Bellman方程

Bellman方程的核心:当前状态的价值=当前的奖励+下一步的价值

因篇幅问题不能全部显示,请点此查看更多更全内容

Top