无模型深度强化学习算法
创始人
2024-03-20 20:13:15
0
  • 无模型深度强化学习算法:直接训练类神经网络模型来表示策略{\displaystyle \pi (a|s)}。这里的“无模型”指的是不建立环境模型,而非不建立任何机器学习模型。这样的策略模型可以直接用策略梯度(policy gradient)[3]训练,但是策略梯度的变异性太大,很难有效率地进行训练。更进阶的训练方法尝试解决这个稳定性的问题:可信区域策略最佳化(Trust Region Policy Optimization,TRPO)[4]、近端策略最佳化(Proximal Policy Optimization,PPO)[5]。另一系列的无模型深度强化学习算法则是训练类神经网络模型来预测未来的奖励总和{\displaystyle V^{\pi }(s)}{\displaystyle Q^{\pi }(s,a)}[6],这类算法包括时序差分学习 TD、深度Q学习 DQN、SARSA。如果动作空间是离散的,那么策略{\displaystyle \pi (a|s)}可以用枚举所有的动作来找出{\displaystyle Q}函数的最大值。如果动作空间是连续的,这样的{\displaystyle Q}函数无法直接建立策略{\displaystyle \pi (a|s)},因此需要同时训练一个策略模型[7][8][9],也就变成一种“演员-评论家actor-critic”算法。

以上来自wikipedia。

无模型深度强化学习算法可分为两类:

一类是直接根据策略梯度更新策略,获得最优策略;

一类是通过奖励函数V或Q来评价策略的好坏,在当前状态下选择动作的策略能使agent/actor获得最大的累计奖励就是最好的策略,actor-critic中actor是根据状态选择动作的策略网络,critic是根据状态/状态+动作评价当前策略优劣的评价网络。

相关内容

热门资讯

北平锋:民进党当局对所谓“两岸... 12月26日,台湾《中国时报》报道,陆委会近日推动所谓“两岸人民关系条例”四项修正,包含:公务员赴陆...
AI核心产业超万亿,工信部将完... 今年,工业经济顶压前行、向新向优发展,展现强大韧性和活力。 12月25日至26日,全国工业和信息化工...
神州泰岳(300002)披露全... 截至2025年12月26日收盘,神州泰岳(300002)报收于11.37元,较前一交易日上涨0.09...
车企起诉电池企业第一案!吉利旗... 出品 | 搜狐汽车·汽车咖啡馆 作者 | 胡耀丹 2024年底发出的回旋镖,在2025年底向欣旺达疾...
海南产经新观察:封关政策释红利... 中新网海南东方12月26日电 (陈英清)“海南自贸港封关运作顺利实施,政策红利持续释放,南繁水稻制种...
无证售药、两地维权!养生馆纠纷... 一副自制中药制剂,引发两地法院诉讼;一次耐心调解,让双方握手言和。近日,饶平县人民法院调解一宗因养生...
*ST节能(000820)披露... 截至2025年12月26日收盘,*ST节能(000820)报收于3.36元,较前一交易日上涨0.9%...
疑电芯质量存问题,500亿巨头... 二线电池厂商欣旺达(300207.SZ)被起诉了! 12月26日盘后,欣旺达披露公告称,公司子公司欣...
央行报告:加强房地产金融宏观审... 每经AI快讯,据央行网站12月26日消息,中国人民银行近日发布了《中国金融稳定报告(2025)》。报...
济南起步区“民生政策进社区”活...   鲁网12月26日讯深冬微寒,社区里却暖意融融。在起步区崔寨街道凤凰理想社区的小广场上,一排排政策...