【无标题】ICCV 2023 | CAPEAM:基于上下文感知规划和环境感知记忆机制构建具身智能体

文章链接: https://arxiv.org/abs/2308.07241

2023年,大型语言模型(LLMs)以及AI Agents的蓬勃发展为整个机器智能领域带来了全新的发展机遇。一直以来,研究者们对具身智能(Embodied Artificial Intelligence)的要求就是通过创建软硬件结合的智能体(例如不同形态的机器人),使其在各种真实物理环境中来执行各种各样的复杂任务,完成人工智能的进化过程。依靠LLMs强大的语言理解和推理能力,可以极大的提升具身智能机器人的工作效率。

本文介绍一篇被计算机视觉顶会ICCV 2023录用的论文,针对现有机器人在环境导航以及与环境目标交互时经常犯错的问题,提出了一种上下文感知规划和环境感知记忆(Context-Aware Planning and Environment-Aware Memory)的具身智能框架CAPEAM,CAPEAM通过设计一系列的代理来将语义上下文(语言指令、交互的对象信息等)纳入机器人的规划序列中,同时考虑交互物体的空间布局和状态变化(例如,物体已移动到的位置),以推断后续行动。基于这样的设计,CAPEAM的代理程序可以在标准的机器人交互指令基准上达到SOTA性能。

01. 介绍

具身智能机器人在工业制造、快递物流、智能家居、高危环境救援等多种场景中都具有良好的应用前景,为了进一步提高工作效率,研究者们开始思考能否制造一种可以精确理解人类语言指令,同时具有自我路径规划和动作执行能力的具身智能机器人呢。为了完成用户指定的各种特定任务,机器人代理首先需要对任务指令进行拆分,并规划出完整的行动序列,其中涉及到与任务特定的相关对象进行交互。然而难点在于,简单的代理程序可能会规划出一些错误行动,例如与任务无关的对象进行交互。例如,如果用户指定任务“把苹果切片放在桌子上”,普通的代理可能会驱动机器人拿起面包片放到桌子上,本文作者认为,出现这种现象的主要原因是这种代理缺乏对任务指令以及当前环境的上下文记忆。

为了解决这个问题,本文作者提出了一种新的CAPEAM方法,将任务规划过程分为两个不同的阶段,首先对任务指令进行拆解并构建上下文信息(指令中涉及到需要交互的对象),随后再根据上下文记忆进行详细行动规划。如上图所示,CAPEAM首先提取任务指令中的上下文对象,随后以这些对象为中心组合出各种可能的子行动目标,再根据细节规划器(Detailed Planners)得到最终的行动序列

此外作者还考虑到交互对象的状态变化对于任务的正确完成也至关重要,如果代理程序不能及时的跟踪目标的状态(例如,对象是否已被移动),就会导致后续错误的交互。例如上图所示的“将苹果和盘子放在柜子里”任务中,如果代理首先移动了苹果,但是没有记录苹果的新位置信息,在移动盘子时有可能将盘子直接放在苹果上而导致任务失败。因此作者引入了一个环境感知存储器来存储有关对象状态的信息,这种方法允许代理随着时间的推移与处于适当状态的对象进行交互。通过跟踪对象状态和外观,代理可以确保与正确的对象进行交互并执行适当的操作,最终成功地完成任务。

02. 本文方法

本文提出的CAPEAM框架主要由两个关键模块构成,其整体框架如下图所示,作者分别引入了上下文感知规划模块和环境感知记忆模块,前者可以根据用户指令对任务有关的对象进行上下文建模,后者通过将目标对象状态和环境信息存储在对象掩码和空间记忆池中,实现更加高效的场景导航和物体交互。

2.1 上下文感知规划模块

在接收到用户指定的自然语言指令后,代理程序需要快速的理解和推断出给定任务的要求(例如抓取用户感兴趣的目标对象),随后制定出一个完整的动作序列。为此,作者提出了一种新颖的规划方案,即先将指令拆分成多个“子目标”集合,再在每个子目标的基础上扩展成可以执行的“详细动作序列”。为了保证最终动作序列的合理性,作者在拆分子目标时加入了纠错机制。例如通过上下文预测器(Context Prediction)预测得到当前任务共享的一组任务相关对象,随后与指令拆解得到的上下文信息联合生成子目标集合。随后再通过细节规划器为每个子目标制定结束动作和交互对象。

2.1.1 子目标规划器

2.1.2 细节规划器

2.2 环境感知记忆模块

下图展示了环境感知记忆模块的构成细节,代理程序首先根据输入的RGB图像预测得到的深度图像和语义分割图像来构建语义空间图(Semantic Spatial Map),使用深度信息可以更全面的探索周围环境状态,例如障碍物区域、物体位置和类别等。

在一些任务中,机器人可能需要在多个不同的时间步中与同一对象进行交互,在这期间,对象的视觉外观可能由于各种原因(例如遮挡)而改变,因此作者设计了物体回顾识别操作(Retrospective Object Recognition)来对每一时刻的物体mask进行更新,保证多次交互顺利进行。与该操作协同工作的还有对象重定位跟踪(Object Relocation Tracking)操作,其对每个已被移动的目标坐标进行动态更新,这保证代理程序不会对同一目标做出重复的子目标规划。为了减少代理程序对周围环境执行全局扫描的次数,作者使用对象位置缓存操作(Object Location Caching)对每个发生状态变化的对象都进行了空间信息缓存,这使得代理可以记忆每个目标的实际位置,从而实现更加高效的导航和交互。

03. 实验效果

本文的实验在一个极具挑战性的交互式指令基准ALFRED[2]上进行,ALFRED分为训练集、验证集和测试集三部分,为了评估本文方法的泛化能力,作者将验证集和测试集进一步划分为两个部分:可见环境(seen)和不可见环境(unseen)。模型的评价指标遵循ALFRED的标准评估协议。主要指标是成功率,用SR表示,主要衡量模型完成任务的百分比,另一个指标是目标条件成功率,用GC表示,用于衡量满足目标条件的百分比

作者首先将本文提出的CAPEAM方法与现有的SOTA方法进行对比,对比结果如下表所示,为了对比公平,作者选取了一些同样构建语义空间表征和进行深度估计的方法,其中一些方法使用了高级的任务指令(✗ Low Inst.),并且使用了环境的先验信息和动作模板(✓ Tem. Act.)来生成动作序列。

从上表可以看出,CAPEAM方法在unseen测试中的成功率优于其他所有对比方法,这表明本文方法具有更强的新环境适应能力。在seen测试中,CAPEAM的表现略逊色于Prompter方法[3],作者认为,这是由于Prompter方法中加入了更加精确的空间感知模型来对每个目标的姿态进行了精确估计,这使得模型在训练可见的场景中有更好的表现能力。但是这一现象也侧面展示了本文方法在seen和unseen测试环境之间具有更小的性能差距,表示本文方法可以更好地泛化到未见环境中。

04. 总结

本文提出了一种新型的具身智能代理框架CAPEAM,其中设置了上下文感知规划模块和环境感知记忆模块来将语言任务指令中涉及到的上下文对象纳入动作规划操作中,并且对关键的目标对象进行外观、空间位置等信息的动态更新。通过这些操作,CAPEAM有效的避免了不必要的空间搜索,并且设计了一种从粗到细的子目标动作序列生成机制来改进机器人的整体导航和交互效果。作者通过一系列的实验表明,CAPEAM方法可以有效地提升具身智能代理在不同环境中的快速适应能力,这应该是当前具身智能领域所关注的研究热点。

参考

[1] Alexander Katrompas and Vangelis Metsis. Enhancing lstm models with self-attention and stateful training. In IntelliSys, 2022.

[2] Mohit Shridhar, Jesse Thomason, Daniel Gordon, Yonatan Bisk, Winson Han, Roozbeh Mottaghi, Luke Zettlemoyer, and Dieter Fox. Alfred: A benchmark for interpreting grounded instructions for everyday tasks. In CVPR, 2020.


  关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/145354.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

通过java向jar写入新文件

文章目录 原始需求分析实施步骤引入依赖核心编码运行效果 原始需求 有网友提问: 我想在程序中动态地向同一个jar包中添加文件,比如,我的可执行jar包是test.jar,我要在它运行时生成一些xml文件并将这些文件添加到test.jar中,请问如何实现&…

【分布式计算】三、虚拟化 Virtualization

1.什么是虚拟化 1.1.非虚拟化 我们首先来认识什么是非虚拟化   1.一台机器、一个操作系统、几个应用程序   2.应用程序可能会相互影响。   3.机器利用率较低,正常情况下低于25%。 关于X86平台: 1.服务器基础设施利用率低(10-18%&#…

Linux驱动开发笔记

疑问 file_operation中每个操作函数的形参中inode的作用 file_operation定义了Linux内核驱动的所有的操作函数,每个操作函数与一个系统调用对应,对于字符设备来说,常用的函数有:llseek、read、write、pool等等,这些操…

阿里云七代云服务器实例、倚天云服务器及通用算力型和经济型实例规格介绍

在目前阿里云的云服务器产品中,既有五代六代实例规格,也有七代和八代倚天云服务器,同时还有通用算力型及经济型这些刚推出不久的新品云服务器实例,其中第五代实例规格目前不在是主推的实例规格了,现在主售的实例规格是…

【数据结构】堆,堆的实现,堆排序,TOP-K问题

大家好!今天我们来学习数据结构中的堆及其应用 目录 1. 堆的概念及结构 2. 堆的实现 2.1 初始化堆 2.2 销毁堆 2.3 打印堆 2.4 交换函数 2.5 堆的向上调整 2.6 堆的向下调整 2.7 堆的插入 2.8 堆的删除 2.9 取堆顶的数据 2.10 堆的数据个数 2.11 堆的判…

内存函数的介绍和模拟实现

目录 1.memcpy的使用(内存拷贝) 2.memcpy的实现 3.memmove的使用(内存拷贝) 4.memmove的实现 5.memset 的使用(内存设置) 6.memcmp的使用(内存比较) 1.memcpy的使用(内存拷贝) void * memcpy ( void * …

整型提升——(巩固提高——字符截取oneNote笔记详解)

文章目录 前言一、整型提升是什么?二、详细图解1.图解展示 总结 前言 提示:这里可以添加本文要记录的大概内容: 整型提升是数据存储的重要题型,也是计算机组成原理的核心知识点。学习c语言进阶的时候,了解内存中数据怎么存&#…

孤举者难起,众行者易趋,openGauss 5.1.0版本正式发布!

📢📢📢📣📣📣 哈喽!大家好,我是【IT邦德】,江湖人称jeames007,10余年DBA及大数据工作经验 一位上进心十足的【大数据领域博主】!😜&am…

华为云云耀云服务器L实例评测|云耀云服务器L实例搭建个人镜像站

华为云云耀云服务器L实例评测|云耀云服务器L实例搭建个人镜像站 一、云耀云服务器L实例介绍1.1 云耀云服务器L实例简介1.2 云耀云服务器L实例特点 二、Apache介绍2.1 Apache简介2.2 Apache特点 三、本次实践介绍3.1 本次实践简介3.2 本次环境规划 四、远程登录华为云…

SpringCloud Alibaba 入门到精通 - Sentinel

SpringCloud Alibaba 入门到精通 - Sentinel 一、基础结构搭建1.父工程创建2.子工程创建 二、Sentinel的整合SpringCloud1.微服务可能存在的问题2.SpringCloud集成Sentinel搭建Dashboard3 SpringCloud 整合Sentinel 三、服务降级1 服务降级-Sentinel2 Sentinel 整合 OpenFeign3…

【深度学习实验】卷积神经网络(三):自定义二维卷积层:步长、填充、输入输出通道

目录 一、实验介绍 二、实验环境 1. 配置虚拟环境 2. 库版本介绍 三、实验内容 0. 导入必要的工具包 1. 步长、填充 a. 二维互相关运算(corr2d) b. 二维卷积层类(Conv2D) c. 模型测试 d. 代码整合 2. 输入输出通道 a…

Arcgis克里金插值报错:ERROR 999999: 执行函数时出错。 表名无效。 空间参考不存在。 ERROR 010429: GRID IO 中存在错误

ERROR 999999: 执行函数时出错。 问题描述 表名无效。 空间参考不存在。 ERROR 010429: GRID IO 中存在错误: WindowSetLyr: Window cell size does not match layer cell size. name: c:\users\lenovo\appdata\local\temp\arc2f89\t_t164, adepth: 32, type: 1, iomode: 6, …

智能合约漏洞,Dyna 事件分析

智能合约漏洞,Dyna 事件分析 1. 漏洞简介 https://twitter.com/BlockSecTeam/status/1628319536117153794 https://twitter.com/BeosinAlert/status/1628301635834486784 2. 相关地址或交易 攻击交易 1: https://bscscan.com/tx/0x7fa89d869fd1b89e…

算法通过村第十一关-位运算|青铜笔记|初始位运算

文章目录 前言1. 数字在计算中的表示拓展:为什么要有原码、反码和补码? 2. 位运算规则2.1 与、或、异或和取反2.2 位移运算2.3 位移运算和乘除的关系2.4 位运算的常用技巧 总结 前言 提示:我的父亲从我出生起便认识我,可他对我的了解却那么少…

西北主要河流水系(绿洲)流域(山区)及高程分类数据集(一)

最近收集整理的了西北地区主要河流水系(绿洲)流域(山区)及高程分类数据,,本次主要是新疆的河流水系(绿洲)流域(山区)及高程分类数据(矢量&#xf…

ThemeForest – Canvas 7.2.0 – 多用途 HTML5 模板

ThemeForest 上的 HTML 网站模板受到全球数百万客户的喜爱。与包含网站所有页面并允许您在 WP 仪表板中自定义字体和样式的 WordPress 主题不同,这些设计模板是用 HTML 构建的。您可以在 HTML 编辑器中编辑模板,但不能在 WordPress 上编辑模板&#xff0…

机器人过程自动化(RPA)入门 7. 处理用户事件和助手机器人

在UiPath中,有两种类型的Robot用于自动化任何流程。一个是后台机器人,它在后台工作。它独立工作,这意味着它不需要用户的输入或任何用户交互。另一个是前台机器人,也被称为助理机器人。 本章介绍前台机器人。在这里,我们将了解自动化过程中通过简单按键、单击鼠标等触发事…

【Vue】数据监视输入绑定

hello,我是小索奇,精心制作的Vue系列持续发放,涵盖大量的经验和示例,如有需要,可以收藏哈 本章给大家讲解的是数据监视,前面的章节已经更新完毕,后面的章节持续输出,有任何问题都可以…

Pikachu-xxe (xml外部实体注入漏洞)过关笔记

Pikachu-xxe过关笔记 有回显探测是否有回显file:///协议查看本地系统文件php://协议查看php源代码(无法查看当前网页代码,只能看别的)http://协议爆破开放端口(两者的加载时间不同) 无回显第一步第二步第三步 运行结果…

【面试题】2023前端面试真题之JS篇

前端面试题库 (面试必备) 推荐:★★★★★ 地址:前端面试题库 表妹一键制作自己的五星红旗国庆头像,超好看 世界上只有一种真正的英雄主义,那就是看清生活的真相之后,依然热爱生活。…