强化学习新突破:情节记忆与奖励机制引领多智能体协作

简介

本推文介绍了韩国科学技术院发表在人工智能顶会ICLR 2024上的论文《Efficient Episodic Memory Utilization of Cooperative Multi-Agent Reinforcement Learning》。该论文提出创新性高效情节记忆利用(Efficient Episodic Memory Utilization,EMU)方法,旨在解决合作多智能体强化学习(Cooperative Multi-Agent Reinforcement Learning,C-MARL)中的两个关键问题:加速学习过程与避免局部最优。通过在《星际争霸II》和《谷歌足球比赛》两种复杂环境中的实验评估,研究团队证明了高效情节记忆利用方法在性能上显著优于现有多智能体强化学习方法。

论文链接:https://openreview.net/forum?id=LjivA1SLZ6

代码链接:https://github.com/HyunghoNa/EMU

推文作者为邓镝,审校为韩煦和许东舟。

一、研究背景

合作多智能体强化学习旨在通过多个智能体协作完成共同目标(如击败敌人或得分)。尽管当前的合作多智能体强化学习算法在某些任务中表现出色,但往往需要较长的训练时间,且在面对复杂任务时容易陷入局部最优,无法找到全局最优策略。这一瓶颈在实际应用中尤其显著,特别是在任务环境复杂且需要高效协作的场景中。

针对这一问题,研究团队提出了高效情节记忆利用方法,旨在提升训练效率和策略质量。高效情节记忆利用的设计主要有两个目标:

1、加速强化学习:通过提取历史经验中的语义一致记忆,加速智能体的学习过程;

2、防止局部最优解:通过设计情节奖励机制,引导智能体朝向更理想的状态过渡,避免局部收敛问题。

高效情节记忆利用方法的核心思想是将情节记忆与策略学习过程深度结合,使智能体在面对未知任务时能够充分利用过往经验,探索更多可能的有效策略。

二、研究方法

图1概述了高效情节记忆利用框架的整体结构。该框架包含了两个关键组件:情节记忆嵌入和情节激励奖励机制。

1 高效情节记忆利用框架概述

2.1 情节记忆嵌入

论文提出了一种解码器结构,用于重构状态并预测最高回报,其嵌入函数称为EmbNet。图1(c)展示了基于EmbNet的确定性条件自编码器(dCAE),其将全局状态按时间步转化为有意义的低维嵌入向量,随后解码器预测全局状态的回报值,并通过状态重构确保特征空间的平滑性。在此过程中,智能体可通过探索性记忆回调,召回相似情境下的历史经验,从而实现更高效的学习。这种嵌入结构不仅提升了记忆空间的利用效率,还支持智能体在接近当前状态时进行更具针对性的探索,减少无效尝试。

图2 展示了t-SNE(t分布随机邻域嵌入)对采样嵌入的结果。颜色从红到紫(彩虹色)表示从低回报到高回报

2.2 情节激励奖励机制

图1(d)展示了情节激励奖励机制的设计,该机制通过标记任务中高回报状态(如在《星际争霸II》中摧毁所有敌人或在《谷歌足球比赛》中进球),给予额外奖励来引导智能体探索更优状态。智能体根据状态的“可取性”分配奖励,并将期望奖励整合到Q-Learning算法中,优化时序差分目标的计算过程。通过这一设计,智能体优先探索高回报潜力的状态,有效规避局部最优陷阱。

3 展示了情节激励。测试轨迹被绘制在嵌入空间中,并带有点状标记的采样记忆。星形标记和数字分别表示状态和时间步在情节中的可取性。颜色的含义与图2相同

三、实验结果

研究团队设计了一系列实验,重点回答以下问题:

问题1:高效情节记忆利用与当前最先进的多智能体强化学习框架相比如何?

问题2:状态嵌入如何影响嵌入空间并提升性能?

问题3:情节激励对性能改进有何作用?

该论文通过《星际争霸II》和《谷歌足球比赛》等复杂多智能体任务,系统评估了高效情节记忆利用相较于情节记忆控制器(EMC)及其他对比方法(如QMIX(混合值函数网络)、QPLEX(队列优化网络)、CDS(集群化去中心调度))的性能表现。为进一步验证高效情节记忆利用方法的通用性,论文还在QPLEX和CDS框架中实现了两个EMU版本(即基于高效情节记忆利用的QPLEX和CDS),充分展现其与多智能体强化学习框架的兼容性。

3.1 针对问题1:《星际争霸II》的比较评估

图4展示了高效情节记忆利用在不同《星际争霸II》地图上的整体性能表现。得益于高效记忆利用和情节激励机制的结合,基于高效情节记忆利用方法增强的QPLEX和CDS明显优于其原始版本,尤其是在高难度地图中,显著加速了最优策略的收敛速度。

4 高效情节记忆利用与比较算法在三个简单和困难的《星际争霸II》地图(1c3s5z、3s_vs_5z和5m_vs_6m)以及三个极难的《星际争霸II》地图(MMM2、6h_vs_8z和3s5z_vs_3s6z)上的性能比较

3.2 针对问题1:《谷歌足球比赛》的比较评估

在《谷歌足球比赛》中的实验进一步验证了高效情节记忆利用在复杂任务环境中的性能优势。在该任务中,CDS和基于高效情节记忆利用的CDS不依赖观测中的智能体索引信息,因为它们包含预测网络;相比之下,其他比较算法(如QMIX、EMC、QPLEX)则需要使用智能体身份信息。此外,为了优化学习效率,该研究未引入优先经验回放等额外算法。实验结果表明,高效情节记忆利用显著提升了整体性能,尤其在早期学习阶段,利用语义相似的记忆迅速找到获胜或得分策略。

5 高效情节记忆利用与比较算法在《谷歌足球比赛》上的性能比较

3.3 针对问题2:参数化和消融研究

该论文还研究了状态嵌入差异的阈值及状态嵌入网络结构设计对性能的影响。为了更精确地量化学习质量与效率,研究提出了以总体胜率作为评估指标,该指标综合考虑了训练速度和最终胜率。在选定的《星际争霸II》地图上,论文通过不同阈值与网络结构设计(如随机投影、EmbNet、dCAE)的组合,对总体胜率进行了详细测量。

图6 在《星际争霸II》地图上,根据不同的阈值和嵌入网络设计选择,测量总体胜率的表现

图7 根据不同的阈值和嵌入网络设计选择,衡量最终胜率的表现

图6和图7分别展示了不同阈值下的总体胜率和训练结束时的测试胜率,结果采用对数刻度表示。实验表明,dCAE结构在所有阈值下均表现出最佳训练效率,同时其最终策略的质量与其他设计选择相当。而EmbNet在训练过程中可能因状态回报相似而选择不同状态进行探索,导致过度的记忆回调,从而影响学习效果,无法获得最优策略。

图8展示了高效情节记忆利用在不同阈值下的学习曲线。结果显示,在极难的多智能体任务中(如《星际争霸II》的6h_vs_8z和《谷歌足球比赛》的CA_hard),适当的阈值能够显著提升模型表现,达到最佳效果。

图8 不同阈值在复杂多智能体强化学习任务中的效果

3.4 针对问题3:进一步的消融研究

论文还通过消融研究进一步验证了情节激励的有效性。移除情节激励的模型被记为No-EI,移除嵌入网络的模型被记为No-SE,同时移除两部分的模型被记为Original。研究在高难度的《星际争霸II》地图上评估了这些模型的性能差异。

图9显示了情节激励对学习性能的显著提升作用。特别是,在不同随机种子下,传统情节控制的模型(如QPLEX-No-EI和CDS-No-EI)性能差异较大,表明单纯依赖情节控制可能阻碍最优策略的学习。而通过情节激励选择性地鼓励期望的状态转换,模型能够有效避免局部收敛问题,提升性能稳定性。

9 通过复杂多智能体强化学习任务进行情节激励的消融研究

3.5定性分析和可视化

在可视化分析中,研究进一步探讨了情节激励机制如何影响智能体的记忆选择及信息传达的准确性。图10展示了在不同随机种子下的测试场景,每个快照都标注了对应的时间步。在图11中,每个情节的轨迹被投射到情节缓冲器的嵌入空间中。

图10 测试情节的可视化

图11 嵌入空间中的测试轨迹

具体而言,在图10中,案例(a)成功击败了所有敌人,而案例(b)则以失败告终。两者在时间步t=10之前轨迹相似,均专注于击杀一个敌人并保护盟友。然而在t=12时,案例(b)失去了一名智能体,导致其轨迹与案例(a)开始分叉。在t=14至t=16之间,案例(b)仍有获胜机会,但由于在t=20左右连续失去三名盟友,最终未能标记理想状态(未标星),从而导致失败。图11的嵌入空间分析清晰地展现了情节激励的效果,表明该机制能够有效引导智能体优先选择理想状态并避免不利决策。

四、总结

该论文提出了高效情节记忆利用框架,结合语义嵌入与情节激励,旨在高效利用情节记忆以提升合作多智能体强化学习的表现。语义嵌入使智能体能够从历史经验中提取有意义的信息,进而加速学习过程;情节激励则通过设计基于状态期望的奖励机制,避免训练过程中的局部收敛。实验结果与消融研究验证了该方法在复杂多智能体任务中的显著性能优势。

这一框架的创新设计消除了传统情节控制方法对任务复杂性超参数调整的依赖,为多智能体强化学习的未来研究与应用提供了宝贵的参考。

EN

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/36311.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【python自动化四】日志打印

我们在进行自动化测试时,需要打印过程日志和结果日志等,这里记录下日志的相关配置。这里我们直接自己新建一个logger。 先贴上日志代码如下,可根据需要修改: import logging import os import timefrom logging.handlers import …

【精选】AI Coding 新范式:Windsurf、Cursor、Coze齐上阵

2AGI.NET | 探索 AI 无限潜力,2AGI 为您带来最前沿资讯。 随着人工智能技术的飞速发展,AI Coding领域迎来了前所未有的变革。Codeium的Windsurf、Cursor的agent模式更新、Copilot的新版本以及Coze的AI应用能力,都在推动着编程领域的创新。本期…

Free-RTOS实现LED闪烁

开发板:正点原子探索者 F407 LED定时定时闪烁 本次实验验证: 配置文件 1、打开CubeMX 2、选择芯片型号,然后点击开始项目 3、配置时钟 配置烧录引脚,与FreeRTOS系统时钟 选择FreeRTOS 这里已经默认有一个任务&#xff…

java+ssm+mysql水产品商城

项目介绍: 使用javassmmysql开发的水产品商城,系统包含管理员、用户角色,功能如下: 管理员:用户管理;种类管理;商品管理;订单管理;评论管理;新闻管理&#…

SYN6288语音合成模块使用说明(MicroPython、STM32、Arduino)

模块介绍 SYN6288中文语音合成模块是北京宇音天下科技有限公司推出的语音合成模块。该模块通过串口接收主控传来的语音编码后,可自动进行自然流畅的中文语音播报。 注:SYN6288模块无法播报英文单词和句子,只能按字母播报英文 ;而…

Windows设备go环境安装配置

一、下载go安装包 官网链接:All releases - The Go Programming Language (google.cn) 安装过程比较简单,这里不再赘述,可参考这位博主的文章。本文重点在环境配置。golang环境详细安装、配置_golang安装-CSDN博客 二、环境变量配置 1.添…

vulnhub靶场【hacksudo】之aliens

前言 靶机:hacksudo-aliens 攻击:kali 都是采用虚拟机的形式,网卡桥接模式 主机发现 使用arp-scan -l或者netdiscover -r 192.168.1.1/24进行探索 信息收集 使用nmap扫描 两个http服务,一个ssh服务 网站信息 访问查看 访…

(数据结构与算法)递归 递归是什么 递归的案例和场景 递归进阶

递归的定义和应用条件 递归就是程序调用自身的编程技巧; 把大型复杂的问题转化为一个与原问题相似规模较小的问题来进行求解; 递归每次调用传入的是不同的变量 递归不是算法,是调用自己的过程 调用的那个是一个小问题,自己是一个…

鼠标右键单击Git Bash here不可用

最近在学习git时突然发现右键的git bash没反应,但是去点击应用图标就能正常运行,通常是因为你在安装git之后改变了它的目录名称或者位置,我就是因为安装后改变了一个文件夹的文件名导致不可用 在安装git时系统会默认给鼠标右键选项的git Bas…

【0x0002】HCI_Inquiry_Cancel命令详解

目录 一、命令概述 二、命令格式及参数说明 三、返回事件及参数说明 3.1. HCI_Command_Complete事件 3.2. Status 3.3. 示例 四、命令执行过程 4.1. 前提条件检查 4.2. 命令构建与发送 4.3. 控制器处理 4.4. 返回状态参数 4.5. 主机接收反馈与处理 4.6. 执行流程结…

OpenAI 12Days 第二天 强化微调(RFT):推动语言模型在科学研究中的应用

OpenAI 12Days 第二天 强化微调(RFT):推动语言模型在科学研究中的应用 文章目录 OpenAI 12Days 第二天 强化微调(RFT):推动语言模型在科学研究中的应用RFT的工作原理与应用领域案例研究:基因突变…

公共云提供商正在错失人工智能机遇

他们目前的成功和增长得益于人工智能的应用,但从长远来看,不可持续的成本和可行的替代方案可能会让企业望而却步。 生成式人工智能正在蓬勃发展,并且将继续蓬勃发展。因此,本地和公共云提供商都看到了对其人工智能产品的需求激增…

【Linux系列】AWK 使用指南

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

什么是 k8s CNI ?

1、什么是 CNI ? CNI 是容器网络接口 (Container Network Interface)的缩写。定义了容器运行时如何与网络插件进行交互,从而管理容器网络。只要开发者遵循 CNI 定义的规范就可以接入 kubernetes ,为 Pod 创建虚拟网卡…

深入理解进程的退出、等待与替换(Linux系统)

个人主页:敲上瘾-CSDN博客 个人专栏:Linux学习、游戏、数据结构、c语言基础、c学习、算法 目录 一、进程退出 1.退出场景 2.常见退出方法 3.退出码与退出信号 4._exit函数与exit函数 二、进程等待 1.什么是进程等待(是什么?…

【初阶数据结构与算法】二叉树链式结构刷题训练(Leetcode二叉树遍历、单值二叉树、相同的树、另一棵树的子树、对称二叉树)

文章目录 一、二叉树的遍历二、单值二叉树三、相同的树四、另一颗树的子树五、对称二叉树 一、二叉树的遍历 在链式二叉树的定义与实现中我们已经详细讲解了二叉树常见的三种遍历方式,以及层序遍历,这里给出链接:【初阶数据结构与算法】二叉树…

深入浅出 Go 语言 sync包中的互斥锁、条件变量

深入浅出 Go 语言 sync包中的互斥锁、条件变量 引言 在并发编程中,多个 Goroutine 同时访问共享资源可能会导致数据竞争(Race Condition),进而引发程序的不一致性或崩溃。为了确保并发程序的正确性和稳定性,Go 语言提…

制造业数据集成案例分享:3小时内实现MySQL到MySQL数据对接

ZZ刷新生产用料清单四化库存-制造一处-3小时:MySQL到MySQL数据集成案例分享 在现代制造业中,实时、准确的数据流动是确保生产效率和资源优化的关键。本文将分享一个实际运行的系统对接集成案例——“ZZ刷新生产用料清单四化库存-制造一处-3小时”&#…

OpenCV 图像基本操作

OpenCV快速通关 第一章:OpenCV 图像基本操作 第二章:OpenCV 图像基本操作 OpenCV 图像基本操作 OpenCV快速通关第二章:OpenCV 图像基本操作一、相关结构体与函数介绍(一)cv::Mat 结构体(二)cv:…

雨晨 2610(2)0.2510 Windows 11 24H2 Iot 企业版 LTSC 2024 极简 2in1

文件: 雨晨 2610(2)0.2510 Windows 11 24H2 Iot 企业版 LTSC 2024 极简 2in1 install.esd 索引: 1 名称: Windows 11 IoT 企业版 LTSC 极简 26100.2510 描述: Windows 11 IoT 企业版 LTSC 极简 26100.2510 By YCDISM RTM 2025 24-12-07 大小: 8,176,452,990 个字节 索引: 2 …