TF-Grasp论文学习笔记

当 Transformer 遇到机器人抓取时:利用上下文进行有效的抓取检测


摘要

在这篇论文中,我们提出了一个基于transformer结构的用于机器人抓取的网络,我们将其命名为TF-Grasp。TF-Grasp网络架构有两个重要的设计,这使其可以对于视觉抓取工作表现的很好。第一个就是我们使用了局部窗口注意力去捕获抓取物体中局部的上下文信息和细节特征。然后,我们应用跨窗口注意力来模拟远距离像素之间的长期依赖关系。物体信息,环境配置和不同视觉标签之间的关系被融合在了一起去进行随后的抓取检测。第二个关键点就是我们使用了一个伴随滑动连接的分等级的编码器-解码器的结构,将浅层特征从编码器传递到解码器,以实现多尺度特征融合。由于强大的注意力机制,TF-Grasp可以同时获得局部信息和模型长期连接,例如杂波中不同视觉概念之间的关系。实验证明精度很好。
关键词:抓取检测,机器人抓取,视觉transformer


一、引言

巴拉巴拉讲了个故事。

在这篇论文中,我们提出了一个基于tranformer架构的抓取检测网络,将其命名为TF-Grasp。这个网络利用了注意力可以更好地聚合整个输入序列的信息以获得改进的全局表示。更具体的来说,通过自我注意力机制独立图像中的补丁得以连接起来,并且我们框架中的编码器可以捕获这些多尺度低级特征。解码器使用通过远程空间依赖性得到的高水平的图像去构建最终的抓取姿势。我们提供的具体的根据去证明我们基于transformer架构的模型可以在主流数据集,例如Cornell,Jacquard上表现得很好。实验表明transformer在通过每个物体多个部分的局部和全局特征去形成合适的抓取姿势上很重要。此外,我们的 TF-Grasp 可以在网络的单次前向传递中生成并行夹具所需的抓取姿势。简而言之,这篇论文的贡献可以总结为以下三点:
1.这项工作为视觉机器人抓取任务提出了一种新颖的整洁的transformer架构。并且据我们所知,这是第一次将视觉转移运用到了机器人抓取工作中。
2.我们考虑局部和全局特征的同时融合,并为机器人视觉感知任务重新设计经典的ViT框架。
3.我们进行了详尽的实验,以展示基于transformer的机器人感知框架的优势。实验结果表明,与最先进的方法相比,我们的模型在流行的抓取数据集上取得了更好的性能。我们进一步表明,我们的抓取转换器可以在单个或杂乱的环境中为已知或未知的对象生成适当的抓取姿势。

二、相关工作

本节回顾了机器人抓取领域的最新进展,简要描述了transformer在不同领域的进展。

A、机器人抓取

B、Transformer

三、方法

抓取表示:自主视觉抓取任务通常从通过感官输入收集物体的视觉图像开始,然后对其进行处理以生成有效的抓取配置,以最大化抓取成功的概率。考虑一个平行板夹持器,抓取表示g被表述为一个5维元组。
在这里插入图片描述
最终继续转化,将其变为二维空间。
在这里插入图片描述
相应地,TF-Grasp架构的抓取检测任务最终归结为三个子任务。即分别预测抓取位置,抓取角度和抓取宽度。Grasp Transformer Overview:这项工作的一个深刻动机是处理复杂场景下的机器人感知,动态的机器人工作应该能够相互融合全局的和局部的信息。特别地,抓取模型应该能够以一种编码器解码器的U型结构表示出来,详情请看图1。 在这里插入图片描述
编码器分支融合了整个视觉输入,相应地使用注意力模块去融合的。然后提取了对机器人视觉抓取有用的信息。在解码器过程中,模型通过跳跃连接融合了特征,并且通过上采样执行像素级抓取预测。更具体地说,解码器中的注意力模块能够更全面地处理局部和远程信息,从而实现更好的多尺度特征融合。预测热图中的每个像素都与末端执行器的最终位置和方向相关。

为了弥合transformer与视觉机器人抓取任务之间的领域差距,我们在接下来的方面精心设计了我们的抓取变压器,以改进抓取检测。
a:级联设计。不同于之前的ViT结构,我们采用了一种级联的解码器编码器结构。编码器使用子注意力机制去学习促进抓取的上下文信息,解码器充分运用提取出来的特征来形成像素级别的抓取预测。
b:局部和全局的特征平衡。为了实现更好的场景感知我们使用了一个滑动的特征层来实现局部和全局的信息平衡。窗口注意执行局部特征提取,移位窗口注意允许交叉窗口的交互去集中于多样的区域。
c:特征融合。不同阶段的特征表示通过跳跃连接进行多尺度特征融合,从而获取了丰富的语义和细节特征。
d:轻量级设计。对于机器人来说,效率是非常重要的。我们利用移位注意块和抓取transformer的瘦身设计,以达到性能和速度之间的理想权衡。

***解码器:***在被送入编码器之前,图像首先通过补丁分区层,然后切割成不重叠的补丁。每个补丁都被视为文本中的一个词标记。例如,一个2D的图像I ∈ R(W ×H×C)被划分成x ∈ R【N ×(P ×P ×C)】。(H,W)代表了起初图像的高度和宽度,C代表了图像的通道数。P代表了每个补丁的尺寸大小,最终N = H*W/P/P。然后可以通过将图像块传递到投影层来获得基于令牌的表示。

编码器由相同的transformer块叠加而成。transformer块中的注意力在远距离像素之间建立长距离交互,并关注嵌入空间中的这些位置。在编码器的顶部是一个附加到解码器的瓶颈块。我们的抓取transformer框架的基本元素是多头自我注意。对输入特征X进行线性变换,得到query Q、key K和value V,定义如下:在这里插入图片描述
其中 WQ、WK、WV 是线性投影矩阵。接下来,我们通过使用点积来计算查询和键之间的相似度,在这里插入图片描述
其中 √d 是比例因子,B 是可学习的相对位置编码。自注意力的计算复杂度相对于图像大小呈二次增长。为了实现计算效率,我们利用 CNN 和 Transformer 的优点,在我们的框架中采用 swin-transformer 块 [8]。swin-transformer 层由两部分组成:局部注意力和全局注意力。在局部注意中,自我注意的计算仅限于图像补丁被划分为非重叠局部窗口的局部区域。跨窗口注意力通过滑动非重叠窗口引入邻居之间的连接。swin-transformer 块的结构如图 2 所示,它由 MLP、Layer Norm、基于窗口的 MSA 和移位窗口 MSA 组成。在这里插入图片描述
swin-transformer块的计算过程表示如下:在这里插入图片描述
其中 W-MSA 和 SW-MSA 分别指局部窗口和全局移位窗口多头自注意力。xl−1 表示前一层的输出特征。然后,特征将被发送到窗口注意力 W-MSA。MLP 和注意力层之前都有一个layer norm,残差连接应用于这些模块。在每两个swin transformer 块之间,存在一个补丁合并操作,降低了特征映射的分辨率。补丁合并层通过逐步合并连续transformer层之间的连续相邻补丁来构建分层表示。

解码器:解码器生成一个可执行抓取配置,允许末端执行器移动到相应的位置。我们将平面抓取检测问题转换为像素级预测。三个抓取头并联安装在解码器的顶部,包括Q,θ和W。每个头部的输出是与输入视觉图像相同大小的热图。我们将抓取姿态估计视为一个回归问题,并使用我们的 Transformer 模型,通过最小化预测的抓取热图 ̃G (Q, W, Θ) 与真实值之间的距离来学习一个映射 F:I → ̃G,其中 I 是输入数据。损失函数的定义如下:
在这里插入图片描述
N 是样本大小的数量,Li 是对应的标签。
最终抓取位置是通过检索抓取质量热图具有最高抓取置信度的位置,定义为在这里插入图片描述
其中 Q 是抓取置信度图。然后,我们从角度和宽度热图中提取相应位置的预测角度θ和角度w。

在我们的抓取检测解码器中,我们还采用了 swin transformer块来降低计算复杂度。Swin注意力聚合多尺度特征并构建分层表示。跳过连接层合并在这些不同阶段的学习特征,以便进一步融合以产生更好的抓取姿势。与 U-net [19] 类似,跳过连接是通过将编码器第 i 层的特征直接连接到解码器中的第 i 层来实现的。在解码阶段,按照补丁扩展层,将连接的特征作为下一个注意块阶段的输入。同时,我们可以学习融合特征之间的关系,其中编码器中的特征可以用作查询和键,以与解码器中的对应特征进行交互以进行自注意力计算。

我们的像素级抓取表示的一个优点是只需要一次前向传播来获得全局视觉场景中的最佳抓取姿势,避免了生成多个抓取候选者并节省计算开销。

四、实验

在本节中,我们进行了广泛的实验来验证所提出的 TF-Grasp 方法的性能。我们在两个主流的数据集上验证了它的性能并且在真实机器人臂上对其做了评估。
本节的目标是回答以下问题:
1.基于transformer的抓取检测模型是否优于基于cnn的模型?
2.如果为真,是什么使得基于transformer的抓取检测模型优于其他模型。

A.数据集和实验设置

Cornell 抓取数据 [14] 是一个包含 885 张图像的多对象数据集。每个图像的分辨率为640 × 480。整个数据集相对较小,我们使用各种数据增强技术,如旋转、缩放和随机裁剪,以避免过拟合。然后,我们验证了 TF-Grasp 在 Jacquard 数据集 [21] 上的性能,该数据集是通过 CAD 模型在模拟器中生成。Jacquard 数据集相当大,包含超过 50 k 个对象类别的图像,有超过 100 万个带注释的抓取标签。
评估标准:角度小于三十度,iou(Jaccard index)大于0.25。

TF-Grasp以224 × 224图像作为输入,输出三个分辨率与输入相同的像素级映射。输入通过减去其平均值并除以标准偏差进行归一化。我们遵循常见的策略来训练抓取transformer抓取。编码器和解码器都包含四个 swinattention 块,每个块由 1, 2, 4, 8 个注意力头组成。窗口大小为7。在每个训练步骤中,从训练集中随机抽取一批样本,我们使用ground truth作为目标值来训练我们的神经网络。。。。

B.实验结果和分析

C.可视化分析

D.消融实验

E.真实世界物体的抓取

五、讨论和结果

在这项工作中,我们开发了一种新的视觉抓取架构。尽管CNN及其变体仍然是视觉机器人抓取的主要模型,但我们展示了transformer在抓取检测方面的强大潜力。与基于 CNN 的对应模型相比,基于transformer的抓取检测模型更好地捕获全局依赖关系并学习强大的特征表示。结果表明,我们提出的方法优于原始的基于 CNN 的模型。上下文可以通过注意力传播更好地表示。然而,目前的方法仅限于平行夹持器。未来的研究将集中于开发一种通用的基于变压器的抓取检测方法,用于其他类型的夹持器,如五指灵巧手。

六、总结

先把transformer弄懂,研究它编码器解码器

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/11774.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

剪绳子(math)-acwing

题目: AcWing 25. 剪绳子 - AcWing 代码 主要是处理末尾端几个2,其余都是3,这样相乘能最大,因为4可以分为2*2,3不能分,然后5也没有3*2大,6也没有3*3大。 总之2*2没有3*3大,所以6不…

Scrapy爬取heima论坛所有页面内容并保存到数据库中

前期准备: Scrapy入门_win10安装scrapy-CSDN博客 新建 Scrapy项目 scrapy startproject mySpider03 # 项目名为mySpider03 进入到spiders目录 cd mySpider03/mySpider03/spiders 创建爬虫 scrapy genspider heima bbs.itheima.com # 爬虫名为heima &#…

基于SpringBoot的垃圾分类回收系统+LW示例参考

1.项目介绍 系统角色:管理员、普通用户、回收员功能模块:管理员(用户管理、回收员管理、垃圾类型管理、商品分类管理、环保商城管理、上门回收管理、订单分配管理、订单管理、系统管理等)、回收员(订单分配、订单管理…

华为入围Linux 内核CVE 检视“五人团”,openEuler要再进阶?

背景:内核社区接管 Linux 社区漏洞发布 往年 Linux 内核漏洞发布存在来源不固定、覆盖不全面,有时发布无修复补丁的 CVE 从而形成 0-day 漏洞等问题,给 Linux 内核安全带来了不确定性,为了更规范化运作,2024 年 2 月 1…

JS爬虫实战之TikTok_Shop验证码

TikTok_Shop验证码逆向 逆向前准备思路1- 确认接口2- 参数确认3- 获取轨迹参数4- 构建请求5- 结果展示 结语 逆向前准备 首先我们得有TK Shop账号,否则是无法抓取到数据的。拥有账号后,我们直接进入登录。 TikTok Shop 登录页面 思路 逆向步骤一般分为…

同等学力申硕国考只考一门的专业有哪些?

同等学力申硕国考英语,英语不考听力,若进行考前有效辅导,英语单科通过率可以较大幅度提高。相对其他非全日制研究生和全日制研究生而言,考试科目少了,总分少,复习量也相对少,比较适合在职人员报…

烟火识别软件LiteAIServer视频智能分析平台支持烟雾检测算法

随着科技的不断发展,安防管理平台在企业和机构中的应用日益广泛。烟火识别软件LiteAIServer集成了视频监控、报警系统等多种安防功能,为用户提供了一站式解决方案。 烟雾检测是在安防已经落地的AI算法 ,主要应用于:厂区、森林、仓…

llamaIndex和langchain对比及优劣对比

一. LangChain vs LlamaIndex: 基本描述 LlamaIndex在搜索和检索任务方面表现出色。它是一个强大的数据索引和查询工具,非常适合需要高级搜索的项目。LlamaIndex能够处理大型数据集,从而实现快速准确的信息检索。 LangChain是一个模块化和灵活的工具集框…

免费体验OS和CAN配置|昂辉科技EasySAR Configurator demo推出

自2018年起,昂辉科技专注于汽车电子行业,深耕车载基础软件领域,已研发出符合AUTOSAR标准的EasySAR车载基础软件平台。该平台包含基础软件包和配置工具链,旨在赋能产业链与供应链,推动行业发展。 EasySAR配置工具支持…

Android 源码的下载与编译

Android 源码的下载与编译 本章节主要介绍安卓系统的编译以及编译产物,根据我自己的经验只总结个人觉得重要的部分。 有价值的博客: https://blog.csdn.net/wuye110/article/details/8463409 https://juejin.cn/post/7288166472131018786 值得一看的…

docker安装portainer

1、拉取镜像 docker pull portainer/portainer-ce:latest2、执行 docker run -d --restartalways --name portainer -p 9000:9000 -v /var/run/docker.sock:/var/run/docker.sock -v /data/portainer/data:/data -v /data/portainer/public:/public portainer/portain…

手写jdbc 工具类(封装思维,解决硬编码...)

目录 前言 手写jdbc 工具类 封装思维 对于封装思维的理解 举一个关于封装思维的例子 解决硬编码 什么是硬编码? 硬编码的例子: 解决办法 解法1 解法2 解法3 jdbc工具类总的代码如下 资源关闭的先后问题 解决办法: 总结 …

The First项目报告:抗 MEV 交易的CoW Protocol什么?

2023年,当UNIswap推出UniswapX 时,市场迎接它的不是赞叹,而是一片争议。UniswapX被指抄袭 CoWSwap 和 1inch。Curve 官方称 1inch 和 CoWSwap 早已改变游戏规则,UniswapX 非首创。CoWSwap 强调其 Intent Based Trading 的先驱地位…

微服务day06

MQ入门 同步处理业务: 异步处理: 将任务处理后交给MQ来进行分发处理。 MQ的相关知识 同步调用 同步调用的小结 异步调用 MQ技术选型 RabbitMQ 安装部署 其中包含几个概念: publisher:生产者,也就是发送消息的一方 …

C语言 | Leetcode C语言题解之第541题反转字符串II

题目&#xff1a; 题解&#xff1a; void swap(char* a, char* b) {char tmp *a;*a *b, *b tmp; }void reverse(char* l, char* r) {while (l < r) {swap(l, --r);} }int min(int a, int b) {return a < b ? a : b; }char* reverseStr(char* s, int k) {int n strl…

众创空间全民清债行动助力“三箭齐发”,共化地方债务危机

近日,中国财政领域迎来重大利好消息,政府“三箭齐发”策略出台,旨在高效化解地方债务问题,为经济稳健前行扫清障碍。而在这场化解债务的风暴中,众创空间全民清债行动以其独特的创新模式和卓越的服务能力,成为备受瞩目的助力者。历经15天的内测,众创空间全民清债行动于11月10日正…

Spring的XML配置:从“啊这...“到“啊,就这...“ --手写Spring第六篇了

这一篇让我想起来学习 Spring 的时&#xff0c;被 XML 支配的恐惧。明明是写Java&#xff0c;为啥要搞个XML呢&#xff1f;大佬们永远不知道&#xff0c;我认为最难的是 XML 头&#xff0c;但凡 Spring 用 JSON来做配置文件&#xff0c;Java 界都有可能再诞生一个扛把子。 <…

短剧小程序开发定制

短剧小程序的开发定做是一项结合了创意与技术的工作&#xff0c;它不仅能够为用户提供沉浸式的娱乐体验&#xff0c;还能为企业或个人创造新的商业机会。在开始开发之前&#xff0c;首先需要明确几个关键点&#xff1a; 需求分析&#xff1a;与客户深入沟通&#xff0c;了解他…

Step-by-step指南,带你飞越技术障碍!稳联技术Profinet转CanOpen网关连接步科电机!

嘿&#xff0c;宝子们&#xff01;今天我要给大家分享一个超好玩的工业自动化“大玩具”——通过稳联技术CanOpen转Profinet网关连接步科电机。 在工业自动化的奇妙世界里&#xff0c;不同协议的设备连接就像一场刺激的冒险游戏。而这个神奇的组合&#xff0c;简直就是打开冒险…

【9692】基于springcloud+vue的智慧养老平台

作者主页&#xff1a;Java码库 主营内容&#xff1a;SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app等设计与开发。 收藏点赞不迷路 关注作者有好处 文末获取免费源码 项目描述 困扰管理层的许多问题当中,智慧养老平台一定是养老平…