无模型深度强化学习算法_财经资讯_银财网

无模型深度强化学习算法

创始人

2024-03-20 22:47:12

0次

无模型深度强化学习算法：直接训练类神经网络模型来表示策略 $\pi (a|s)$ 。这里的“无模型”指的是不建立环境模型，而非不建立任何机器学习模型。这样的策略模型可以直接用策略梯度（policy gradient）[3]训练，但是策略梯度的变异性太大，很难有效率地进行训练。更进阶的训练方法尝试解决这个稳定性的问题：可信区域策略最佳化（Trust Region Policy Optimization，TRPO）[4]、近端策略最佳化（Proximal Policy Optimization，PPO）[5]。另一系列的无模型深度强化学习算法则是训练类神经网络模型来预测未来的奖励总和 $V^{\pi }(s)$ 或 $Q^{\pi }(s,a)$ [6]，这类算法包括时序差分学习 TD、深度Q学习 DQN、SARSA。如果动作空间是离散的，那么策略 $\pi (a|s)$ 可以用枚举所有的动作来找出 $Q$ 函数的最大值。如果动作空间是连续的，这样的 $Q$ 函数无法直接建立策略 $\pi (a|s)$ ，因此需要同时训练一个策略模型[7][8][9]，也就变成一种“演员－评论家actor-critic”算法。

以上来自wikipedia。

无模型深度强化学习算法可分为两类：

一类是直接根据策略梯度更新策略，获得最优策略；

一类是通过奖励函数V或Q来评价策略的好坏，在当前状态下选择动作的策略能使agent/actor获得最大的累计奖励就是最好的策略，actor-critic中actor是根据状态选择动作的策略网络，critic是根据状态/状态+动作评价当前策略优劣的评价网络。

词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。

上一篇：pl什么词性（play什么词性） pl什么词性 pl什么词性的缩写

下一篇：车辆违章查询电话号码是多少（汽车违章查询的电话是多少）杭州交通违章查询电话多少查询违章号码

相关内容

热门资讯

汽车油箱结构是什么（汽车油箱结... 本篇文章极速百科给大家谈谈汽车油箱结构是什么，以及汽车油箱结构原理图解对应的知识点，希望对各位有所帮...

美国2年期国债收益率上涨15个... 原标题：美国2年期国债收益率上涨15个基点美国2年期国债收益率上涨15个基...

嵌入式 ADC使用手册完整版 ... 嵌入式 ADC使用手册完整版（188977万字）💜&#...

重大消息战皇大厅开挂是真的吗... 您好：战皇大厅这款游戏可以开挂，确实是有挂的，需要了解加客服微信【8435338】很多玩家在这款游戏...

盘点十款牵手跑胡子为什么一直... 您好：牵手跑胡子这款游戏可以开挂，确实是有挂的，需要了解加客服微信【8435338】很多玩家在这款游...

senator香烟多少一盒（s... 今天给各位分享senator香烟多少一盒的知识，其中也会对sevebstars香烟进行解释，如果能碰...

终于懂了新荣耀斗牛真的有挂吗... 您好：新荣耀斗牛这款游戏可以开挂，确实是有挂的，需要了解加客服微信8435338】很多玩家在这款游戏...

盘点十款明星麻将到底有没有挂... 您好：明星麻将这款游戏可以开挂，确实是有挂的，需要了解加客服微信【5848499】很多玩家在这款游戏...

SAP PS 第9节合并采购... SAP PS 第9节合并采购申请、组合WBS之影响1 合并采购申请1.1 合并采购申请后台配置1....

总结文章“新道游棋牌有透视挂吗... 您好：新道游棋牌这款游戏可以开挂，确实是有挂的，需要了解加客服微信【7682267】很多玩家在这款游...