以上来自wikipedia。
无模型深度强化学习算法可分为两类:
一类是直接根据策略梯度更新策略,获得最优策略;
一类是通过奖励函数V或Q来评价策略的好坏,在当前状态下选择动作的策略能使agent/actor获得最大的累计奖励就是最好的策略,actor-critic中actor是根据状态选择动作的策略网络,critic是根据状态/状态+动作评价当前策略优劣的评价网络。
上一篇:pl什么词性(play什么词性) pl什么词性 pl什么词性的缩写
下一篇:车辆违章查询电话号码是多少(汽车违章查询的电话是多少) 杭州交通违章查询电话多少 查询违章号码