强化学习这么做绝绝子!最新idea登顶Science!

强化学习(RL)全新里程碑!RL之父Richard Stutton团队,提出一种奖励聚中思想,能大幅增强所有RL算法!也即:通过从观察到的奖励中减去平均奖励,来提高连续强化学习问题中折扣方法的性能!

除此以外,在Science、NeurIps等顶会顶刊上,也都涌现了不少研究。像是性能飙升60%的CMTA;吞吐量提升10倍的SACD-A……

其热度可见一斑!主要在于,强化学习在大模型等的发展中,无可替代,更是实现通用人工智能(AGI)的关键路径之一;且在游戏AI、自动驾驶、机器人控制等领域,都有着广泛应用!但也面临样本获取成本高、可解释性差、学习过程慢等问题,对其的改进成为了迫切需求。

目前热门方向主要有:与其他技术结合,像是Attention、Transformer、LLM等;以及对其自身修改,比如层次化RL等。为方便大家研究的进行,我给大家梳理了27种创新思路和源码,一起来看!

强化学习+注意力机制

Contrastive Modules with Temporal Attention for Multi-Task Reinforcement Learning

内容:论文提出了一种名为Contrastive Modules with Temporal Attention (CMTA)的新方法,用于解决多任务强化学习中的负迁移问题。CMTA通过对比学习使模块彼此不同,并使用时间注意力在比任务级别更细的粒度上组合共享模块,从而减轻了任务内的负迁移,并提高了多任务强化学习的泛化能力和性能。实验结果表明,CMTA在Meta-World基准测试中的表现优于单独学习每个任务,并且在基线上取得了显著的性能提升。

强化学习+Transformer

[Science 子刊 ]Real-World Humanoid Locomotion with Reinforcement Learning

内容:论文介绍了一种基于强化学习的全学习型方法,用于实现双足机器人在现实世界中的行走。研究者们提出了一个因果变换器(causal transformer)控制器,该控制器接收机器人的本体感受观察和动作的历史作为输入,并预测下一个动作。通过在模拟环境中大规模无模型强化学习训练,并在现实世界中零样本部署,该控制器能够适应不同的户外地形,对抗外部干扰,并且能够根据上下文进行适应性调整。

强化学习+LLM

Large Language Models Are Semi-Parametric Reinforcement Learning Agents

内容:论文提出了一个名为REMEMBERER的新型大型语言模型(LLM)基础智能体框架,该框架通过为LLM配备长期经验记忆,使其能够在不同的任务目标中利用过去的经验,从而在复杂决策过程中优化策略。REMEMBERER引入了一种名为经验记忆强化学习(RLEM)的方法来更新记忆,使得系统能够在不微调LLM参数的情况下,通过成功和失败的经验学习并提升能力。

奖励机制改进

Reward Centering

内容:论文提出了一种名为“奖励中心化”(Reward Centering)的方法,用于解决连续强化学习问题。该方法通过减去奖励的实证平均值来调整奖励,从而显著提高了使用折扣方法的性能,尤其是在接近1的折扣因子下。此外,该方法还增强了算法对于奖励常数偏移的鲁棒性。论文展示了奖励中心化如何通过简化值函数逼近器的负担,使其专注于状态和动作之间的相对差异,从而提高学习效率,并讨论了这一概念的理论基础及其在不同强化学习算法中的应用潜力。

多智能体强化学习

SMACv2: AnImproved Benchmark for Cooperative Multi-Agent Reinforcement Learning

内容:文章一个改进版的基准测试,用于评估合作型多智能体强化学习(MARL)算法的性能。SMACv2在原有的StarCraft Multi-Agent Challenge(SMAC)基础上进行了扩展和改进,增加了新的环境、任务和评估指标,旨在提供一个更加全面和挑战性的测试平台,以便更好地理解和比较不同MARL算法在复杂、动态的多人合作场景中的表现。

码字不易,欢迎大家点赞评论收藏!

关注下方《AI科研技术派》

回复【27RL】获取完整论文

👇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/8743.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

[含文档+PPT+源码等]精品基于springboot实现的原生Andriod广告播放系统

基于Spring Boot实现的原生Android广告播放系统背景,主要可以从以下几个方面进行阐述: 一、市场需求与背景 移动互联网的快速发展: 随着移动互联网技术的不断进步,智能手机已成为人们日常生活中不可或缺的一部分。人们越来越多地…

2023上半年下午3,4,5

文中的英文很可能是类名。没有英文的段落可以不看 如图,C1和C5应该是父类,有234和678等多个箭头指向他们 所以C2,C3,C4应该是C1的子类,C5同理 聚合表示部分可以脱离整体而存在,整体消失部分也能存在 组合则部分不能脱离整体&…

【C/C++】字符/字符串函数(0)(补充)——由ctype.h提供

零.导言 除了字符分类函数,字符转换函数也是一类字符/字符串函数。 C语言提供了两种字符转换函数,分别是 toupper , tolower。 一.什么是字符转换函数? 顾名思义,即转换字符的函数,如大写字母转小写字母&am…

华为eNSP实验:QINQ技术

QinQ技术是一种扩展VLAN空间的技术,通过在802.1Q标签报文的基础上再增加一层802.1Q的Tag来达到扩展VLAN空间的功能。 QinQ技术允许私网VLAN透传公网,使得在骨干网中传递的报文有两层802.1Q Tag(一层公网Tag,一层私网Tag&#xff…

YOLOv5之Common.py

文章目录 1.学习目的2.网络模型![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/67b8dbd00c9b4034ba370fc8b8a6031a.jpeg)3.common.py分析 1.学习目的 YOLOv5中最关键一个模型类 2.网络模型 3.common.py分析 # Ultralytics YOLOv5 🚀, AGPL-3.0 license…

5G时代,国产化融合通信行业的新机遇

在5G时代,国产化融合通信行业正在经历重要的转型与崛起,国产化融合通信行业正肩负着重要的社会责任,成为了推动我们社会发展的重要力量。5G技术的高速发展以及大规模的商业应用,使国产化融合通信行业迎来了前所未有的发展机遇。 5…

Spring WebFlux 核心原理(2-2)

1、Project Reactor 核心 1.1、新建项目 新建maven项目&#xff0c;将Project Reactor作为依赖项添加到应用程序中&#xff1a; <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:x…

sublime Text的提取查找结果功能

notePad中是 sublime Text是快捷键 ctrlshiftF 点击find就行了&#xff0c;会新建一个文件里面是提取的内容 勾选展示上下文的情况

基于Jeecgboot3.6.3vue3的flowable流程online表单的审批使用介绍

更多技术支持与服务请加入我的知识星球或加我微信&#xff0c;名称:亿事达nbcio技术交流社区https://t.zsxq.com/iPi8F 今天介绍一下基于jeecgboot3.6.3的flowable流程使用online表单进行审批的情况 1、首先建立一个online应用类型的流程&#xff0c;如下&#xff1a; 2、进行…

flink 内存配置(二):设置TaskManager内存

flink 内存配置&#xff08;一&#xff09;&#xff1a;设置Flink进程内存 flink 内存配置&#xff08;二&#xff09;&#xff1a;设置TaskManager内存 flink 内存配置&#xff08;三&#xff09;&#xff1a;设置JobManager内存 flink 内存配置&#xff08;四&#xff09;…

基于SpringBoot沉浸式戏曲文化体验系统【附源码】

基于SpringBoot沉浸式戏曲文化体验系统 效果如下&#xff1a; 系统主页面 系统登陆页面 用户管理页面 戏曲剧目管理页面 戏曲倾听页面 活动信息管理页面 个人中心页面 研究背景 随着互联网技术的飞速发展&#xff0c;传统文化传播方式正面临着前所未有的变革。戏曲作为我国传…

P3-1.【结构化程序设计】第一节——知识要点:算法、顺序结构程序设计、if语句的语法结构及各种用法

讲解视频&#xff1a; P3-1.【结构化程序设计】第一节——知识要点&#xff1a;算法、顺序结构程序设计、if语句的语法结构及各种用法 知识要点&#xff1a;算法、顺序结构程序设计、if语句的语法结构及各种用法 一、算法、顺序结构程序设计任务分析 知识要点&#xff1a;算法…

RAG三件套运行的新选择 - GPUStack

GPUStack 是一个开源的大模型即服务平台&#xff0c;可以高效整合并利用 Nvidia、Apple Metal、华为昇腾和摩尔线程等各种异构的 GPU/NPU 资源&#xff0c;提供本地私有部署大模型解决方案。 GPUStack 可以支持 RAG 系统中所需要的三种关键模型&#xff1a;Chat 对话模型&…

SSM物联网养殖管理系统-计算机毕业设计源码03998

目录 1 绪论 1.1 研究背景和意义 1.2国内外研究现状 1.3论文结构与章节安排 2 系统分析 2.1 可行性分析 2.1.1 技术可行性分析 2.1.2经济可行性分析 2.1.3操作可行性分析 2.2 系统功能分析 2.2.1 功能性分析 2.2.2 非功能性分析 2.3 系统用例分析 2.4 系统流程分析…

使用Python进行健康监测和分析的案例研究

健康监测和分析是指系统地使用健康数据来跟踪和评估个人或人群在一段时间内的健康状况。它包含一系列活动&#xff0c;从实时生理数据收集&#xff08;如心率&#xff0c;血压和体温&#xff09;到分析更复杂的健康记录&#xff08;包括患者病史&#xff0c;生活方式选择和遗传…

RHCE 第四次作业

一.搭建dns服务器能够对自定义的正向或者反向域完成数据解析查询。 1.配置环境 [rootlocalhost ~]# yum install bind [rootlocalhost ~]#systemctl stop firewalld [rootlocalhost ~]#setenforce 0 2.配置DNS主服务器 [rootlocalhost ~]# vim /etc/named.conf options { …

打字机效果显示

文章目录 打字机效果显示一、效果图二、视频效果三、代码 打字机效果显示 一、效果图 二、视频效果 B站-打字机效果图 打字机效果 打字机效果 三、代码 框架&#xff1a; <div class"t_title"><span>我的能力</span> <!-- <span>使…

PyQt5实战——翻译的实现,成功爬取微软翻译(可长期使用)经验总结(九)

个人博客&#xff1a;苏三有春的博客 系类往期文章&#xff1a; PyQt5实战——多脚本集合包&#xff0c;前言与环境配置&#xff08;一&#xff09; PyQt5实战——多脚本集合包&#xff0c;UI以及工程布局&#xff08;二&#xff09; PyQt5实战——多脚本集合包&#xff0c;程序…

[含文档+PPT+源码等]精品基于Nodejs实现的物流管理系统的设计与实现

基于Node.js实现的物流管理系统的设计与实现背景&#xff0c;主要源于物流行业的快速发展以及信息技术在物流管理中的广泛应用。以下是对该背景的具体阐述&#xff1a; 一、物流行业的快速发展 随着全球经济一体化的加速和电子商务的蓬勃发展&#xff0c;物流行业作为连接生产…

JavaWeb开发9

ResponseBody 类型&#xff1a;方法注解、类注解 位置&#xff1a;Controller方法上/类上 作用&#xff1a;将方法返回值直接响应&#xff0c;如果返回值类型是实体对象/集合&#xff0c;将会转换为JSON格式响应 说明&#xff1a;RestControllerControllerResponseBody; 统…