马尔科夫决策过程,英文为Markov Decision Process,简称MDP。
1.能达到理想状态。也可以说是可以达到最后的状态。例如:阿尔法狗下棋能进行到赢的那一步 2.可以进行多种尝试 例如:阿尔法狗可以在某一次落子时,选择棋盘上多个位置中的其中一个 3.智能体的下一个状态只与当前状态和当前状态下采取的行动有关,与之前的状态没有关系
因篇幅问题不能全部显示,请点此查看更多更全内容