您的当前位置：首页正文

RL强化学习总结（二）——马尔科夫决策过程

来源：独旅网

马尔科夫决策过程，英文为Markov Decision Process，简称MDP。

1.能达到理想状态。也可以说是可以达到最后的状态。例如：阿尔法狗下棋能进行到赢的那一步
2.可以进行多种尝试
例如：阿尔法狗可以在某一次落子时，选择棋盘上多个位置中的其中一个
3.智能体的下一个状态只与当前状态和当前状态下采取的行动有关，与之前的状态没有关系

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文