集智书童 | 用于时态动作检测的预测反馈 DETR !

本文来源公众号“集智书童”,仅用于学术分享,侵权删,干货满满。

原文链接:用于时态动作检测的预测反馈 DETR !

视频中的时间动作检测(TAD)是现实世界中的一个基本且具有挑战性的任务。得益于 Transformer 的独特优势,各种基于DETR的方法已在TAD中得到应用。

然而,最近的研究发现,DETR中自注意力层中的注意力衰减导致了其性能下降。本文在之前研究的基础上,针对DETR基础TAD方法中的交叉注意力层注意力衰减问题进行新的探讨。

此外,作者的研究结果发现,交叉注意力与预测之间存在与预测不同的模式,这表明了一个短路现象。为了解决这个问题,作者提出了一种新的框架,即预测反馈DETR(Pred-DETR),该框架利用预测来恢复注意力衰减并使交叉注意力与预测对齐。

具体而言,作者从预测的相互关系中设计出了新的预测反馈目标。

因此,Pred-DETR在缓解衰减并实现各种具有挑战性的基准测试结果(包括THUMOS14、ActivityNet-v1.3、HACS和FineAction等基于DETR的方法的最新性能)方面取得了良好的效果。

1 Introduction

随着社会的进步,视频媒体的使用越来越广泛,因此,寻找未剪辑视频中所需特定片段的效率方法的需求也在迅速增长。Temporal Action Detection(TAD)是一个基本任务,旨在识别视频中的特定动作并确定它们的时间边界。TAD主要通过两阶段的方法得到了提高。然而,最近的研究越来越多地关注基于DETR的端到端方法。

DETR [10]是一种最初在目标检测领域提出的框架,也是第一个使用集合预测的端到端检测框架。DETR方法还扩展到了视频领域,并应用于TAD 。在TAD中,每个 Query 用于预测视频中的一个动作及其对应的时间间隔。为了实现这一点,采用二分匹配来将每个 Query 与GT动作及其在未剪辑视频中的时间间隔对齐。这种方法的一个显著优点是排除了传统的启发式方法,如非极大值抑制(NMS)。

尽管标准注意力(简称为原始-DETR)的DETR在与变形DETR[16]在目标检测方面可以兼容,但在TAD的原始-DETR(即使最近采用了DAB-DETR[16]这样的结构)甚至表现更差。最近,问题的根源被Self-DETR[16]确定为自注意力(SA)中的注意力衰竭问题,如图1(e)所示,其中所有解码器 Query 都聚焦在几个 Query 上。注意力衰竭是注意力模块跳过的现象,目的是防止模型退化为秩1矩阵。Self-DETR利用交叉注意力(CA)图来恢复塌陷的SA。

然而,他们的解决方案依赖于CA的健壮性,否则它可能是不最佳的。作者发现CA不是健壮的,而更为糟糕,如图1所示。该图显示了CA解码器 Query 关注于少数编码器特征((图1中的(a))),并在几乎所有的 Query 中显示相同的模式。这是一个特别关键的问题,因为CA对于该任务至关重要,因为它在 Query 和视频特征之间架起了桥梁。这使作者得出解决CA塌陷并开发另一种自我反馈方法的结论。

图1还插入了(b)中的局部化预测和(f)中相应的交互与统一(IoU)映射作为 Query 的自我关系。在图中,注意力图清楚地显示出不同的模式,与它们的预测和自我关系无关。通常,作者理解为注意力图表示了模型关注的重点,因此暗示了为什么会产生这些结果。

因此,这种现象类似于一个捷径,模型依赖简单的线索,而不是有意义的表现。尽管存在塌陷的注意力,但模型仍可以生成多样且合理的结果,尽管所有的 Query 都关注相同的背景区域,如图1中的CA中所示。这是因为目标检测任务中的二元匹配通过惩罚重复结果来施加不同的预测。基于这个观察,作者建议将注意力图与相应的预测对齐。通过使用预测而不是塌陷的CA作为注意力指南,作者的目标是扩展模型,解决关注塌陷问题。

为此,作者提出一个新的框架,即预测反馈DETR(Pred-DETR),来解决DETR中整个注意力机制的塌陷问题。作者的方法首先将解码器 Query 之间的关系表示为DETR预测与时间间隔之间的IoU相似性映射。作者还把CA映射转化为解码器 Query 的自我关系。接下来,作者引入一个辅助目标,将CA和SA映射的自我关系与基于预测的IoU相似性映射对齐。此外,作者利用最近DETR机制的编码器预测来引导编码器SA和解码器CA。在包括THUMOS14,ActivityNet-v1.3,HACS和FineAction在内的各种具有挑战性的基准测试中,作者证明了所提出的方法显著减少了关注塌陷问题的程度。此外,激活的注意力导致了显著的性能改进,使其成为基于DETR方法的新颖最先进水平。

总之,作者的主要贡献如下:

  • 作者在TAD(Transformer-only Action Detection)的cross-attention中发现了注意力衰减问题。特别是,作者发现cross-attention的明显模式与预测不同,这意味着衰减现象是由于衰减引起的。

  • 作者提出了一种新的框架,叫做预测反馈DETR(Pred-DETR),它利用预测来减轻注意力衰减。作者为衰减的注意力模块设置一个辅助目标,使其与预测的IoU关系对齐。

  • 作者的广泛实验表明,Pred-DETR通过保持高关注度的多样性显著降低了注意力衰减的程度。此外,作者还验证了作者的模型在与DETR模型相比实现了新的最先进性能,这些模型是基于THUMOS14、ActivityNet-v1.3、HACS和FineAction的。

2 Related Work

2.1 Temporal Action Detection

动作检测(TAD)任务的目标是识别无剪辑视频中的动作时间段并将其分类为一类实例。在过去十年中,通过基础方法的研究和应用,TAD领域取得了显著的进展。受到目标检测中两阶段机制的成功启发,许多TAD方法采用了多阶段框架。

后续工作,点播学习被广泛应用于生成更灵活的 Proposal ,无需预先定义时间窗口。SSN[17]和TCN[19]引入了生成 Proposal 周围的扩展时间上下文,以提高排名性能。BSN[18]和BMN[19]将开始-结束对分组到不同的动作 Proposal 中,并对其进行最终局部化预测。BSN++[19]在BN的基础上指出,基于BSN的动作尺度存在不平衡问题。近日,ActionFormer[20]和TriDet[21]利用 Transformer 编码器作为多尺度 Backbone 网络,并BRN[18]解决了TAD的多尺度特征问题。

2.2 DETR

DETR [19] 是将目标检测视为直接的二元匹配预测问题,允许端到端检测无需任何人类启发式,例如置信度限制(NMS)。然而,DETR的需求是传统方法的10倍,因为二分匹配难以优化。为此问题,变形DETR [19]引入了稀疏注意力,通过学习指定关注的位置只关注一部分元素。基于DETR的后续模型 [19, 18]进一步通过显式编码边界信息提升了 Query 表示,这有效地帮助了训练的稳定性。

在TAD中,基于DETR的方法也被部署为DETR已达到了新的目标检测最先进性能。RTD-Net [18]识别了DETR中的密集注意力的问题,该问题表现出近似均匀分布,使得自注意力层像过度平滑一样发挥作用。TadTR [18]设计的根据变形DETR [19]的启发式设计的时序变形注意力。RecAct [19]提出了一个新的关系匹配来强制低重叠和高特征相似度的 Query 之间的高相关性。此外,LTP [18]提出了一种专为DETR设计的前向训练策略。

最近,自适应DETR [18]揭示了TAD中DETR性能下降的问题,即自注意力中的注意力衰竭,并提出了自反馈利用交叉注意力映射的引导来利用。虽然它明显降低了注意力衰竭的程度,但最佳性能取决于交叉注意力的假设。然而,作者发现交叉注意力已经崩溃,因此引入预测引导反馈,根据预测关系激活交叉注意力和自注意力。

3 Our Approach

本节介绍了作者提出的Pred-DETR方法中的预测反馈机制。具体来说,作者首先详细阐述了预备知识,讨论了注意力消融和预测。然后,作者介绍了预测反馈机制的解释,并描绘了整个框架,如图2所示。此外,作者还通过最近提出的DETR架构,将预测反馈机制扩展到编码器,仅用于训练。最后,作者总结了Pred-DETR的整体目标。

3.1 Preliminary

DETR采用了 Transformer (transformer)架构,主要由编码器(encoder)和解码器(decoder)两个部分组成。首先,编码器通过相似度计算(SA)捕捉输入特征之间的全局关系。

另一方面,解码器在目标 Query (object queries)和编码器特征(encoder features)之间执行交叉注意力(cross-attention)操作。这里目标 Query 是可学习嵌入向量(learnable embedding vectors) ,类似于 Anchor 点(anchors)的位置信息。这种机制确保每个 Query 都关注到编码器处理的最相关输入特征部分。

注意崩溃(Attention Collapse)。 注意崩溃是一种现象,其中注意力矩阵成为秩-1矩阵,以跳过注意力模块,从而防止学习[13]的退化。崩溃的注意力输出所有 Query 的均匀值,导致输入通过残差连接不需要额外的表示来传递。在本论文中,作者首次发现了 CA 的崩溃现象。这个问题使人们对 CA是可靠性的假设产生疑问。因此,需要整个注意力模块来完成崩溃的完全补救措施。

来自预测的反馈。 DETR 是最先实现端到端检测机制的作品,其中没有 Anchor 框或非极大值抑制(NMS)。由于不存在预定义的预测和真实值之间的匹配,因此它使用可学习的 Query 和二分匹配来为 Query 分配检测目标。由于匹配是一一映射,因此 DETR 预测结果将是多样的,因为当两个 Query 产生类似的局部定位结果时,一个 Query 将得到负损失。从这种特性的观点出发,预测的反馈可以激活崩溃注意力模块。

讨论: 在初始训练阶段,模型生成欠训练的预测。人们可能担心早期的反馈会影响模型的学习。然而,在前几轮迭代中,TAD的目标主要是优化反馈,确保欠训练的反馈不会破坏训练。此外,需要注意的是,由预测得出的指导并不构成注意力最佳关系。反馈充当规范器,帮助注意力图保持在预测附近,并维持与主要目标之间的平衡。同时,当预测反馈缓解崩溃时,CA的健全性得到恢复。这使得先前的 Self-DETR 工作的完整功能得到恢复。实验结果表明,恢复的 CA 显著提升了其性能。

3.2 Objectives

4 Experiments

4.1 Datasets

在本文中,作者使用了四个时间动作检测的挑战性基准:THUMOS14 江 et al. (2014),ActivityNet-v1.3 Fabian Caba Heilbron 和 Niebles (2015),HACS Zhao et al. (2019) 和 FineAction Liu et al. (2022)。

THUMOS14 分别有200 和 213 个视频用于训练集和验证集。该数据集包含与体育相关的20种动作类别。

ActivityNet-v1.3 包含 19,994 个视频,共200种动作类别。其中,10024、4926 和 5044 个视频分别用于训练、验证和测试。

HACS 中包含37613 和5981个视频,分别用于训练和验证,共200个动作类别,与ActivityNet-v1.3共享。

FineAction 包含每日事件,共计106个类别和16732个视频。THUMOS14 和FineAction 包含许多短暂的动作,而ActivityNet-v1.3 和HACS中的大多数视频则具有较长的动作。

4.2 Implementation Details

架构 作者使用了在Kinetics上的I3D Carreira和Zisserman于2017年预训练并于THUMOS14和ActivityNet-v1.3上使用。此外,作者分别采用SlowFast Feichtenhofer等人(2019)和Wang等人(2023)的VideoMAEv2-g以及在Deformable-DETR上的DAB-DETR的时序版本(如Self-DETR)。

用于TAD的增强DAB-DETR 此外,作者在DAB-DETR上引入了先进的技巧,包括保持匹配Liu等人(2023)、混合匹配Jia等人(2023)以及来自Deformable-DETR的两阶段机制。保持匹配利用预测与实际之间的IoU值作为类概率的目标值。

这与TadTR中的动作性回归密切相关。请注意,作者并未使用编码器的预测作为初始解码器 Query 。作者发现保持匹配显著提高了性能,这与TadTR的结果相符。然而,两阶段机制略微改进了它,因为它是因预测反馈而引入的。作者还报告了在补充材料中每个组成部分带来的好处的研究。

4.3 Main Results

与中国最先进的算法相比较。表格. 1显示了在THUMOS14和ActivityNet-v1.3上的比较结果。此外,表格. 2和表格. 3显示了在HACS和FineAction上的比较结果。Pred-DETR在多个基准测试中均优于基于DETR的方法。

第一部分由“标准方法”标识,包含非DETR方法,第二部分包括基于DETR的模型。此外,在基于DETR的模型中,RTD-Net,Self-DETR和作者的方法基于标准注意力,而TadTR和ReAct基于变形注意力。作者也指出了基础特征,称为“Feats”。大多数方法利用了TSN Wang等人(2016)或I3D特征,而一些方法也采纳了TSP Alwassel等人(2021)的特征。

在表格中,作者的模型在所有基准测试上均优于所有DETR基组模型。这表明,在注意力坍塌问题得到缓解时,原DETR架构可以在TAD中与变形DETR架构具有可比性或优越性,这与目标检测Lin等人(2023)的观察相吻合。更值得注意的是,Pred-DETR在包含非DETR的方法的ActivityNet-v1.3上表现最好。DETR基组方法在ActivityNet和HACS上的表现优于THUMOS14和FineAction上的表现。这可能是因为ActivityNet和HACS主要包含长时间动作,而THUMOS14和FineAction包含许多短实例。精确预测短动作需要高时间分辨率,而DETR尚未能够处理such a long sequence,因为其 Query 架构。尽管如此,最近的一些DETR模型包括作者的模型在处理短长度序列时超过了处理短长度序列的除了ActionFormer和TriDet的非DETR模型显示出优越的性能。

多样性是在ActivityNet-v1.3上的测试集上测量的,包括所有测试样本。当模型深度加深时, Baseline 的多样性接近0。然而,Pred-DETR的多样性并未下降,甚至有所增加。从这些结果来看,预测反馈有效地缓解了塌陷问题。

图5显示了编码器和解码器中的自注意力和交叉注意力的可视化。如图所示,基准DETR在所有注意模块上都出现了注意崩塌的现象。然而,作者的模型没有出现崩塌,展示出表达能力。

预测反馈目标。 在反馈中的自注意力目标方面,作者可以采用自注意力中与预测相交汇的建议。上表5显示了使用自注意力的结果。如果不使用交叉注意力预测反馈,作者可以看到反馈(用表中的'Pred Relation'表示)的性能优越于与交叉注意力(从CA)反馈。此外,当引入作者的交叉注意力预测反馈时,性能提升变得更大,因为交叉注意力的注意崩塌现象显著缓解了。

在作者的交叉注意力(cross-attention)预测反馈系统中,作者提出了利用交叉注意力的间接关系。也许你会认为一个直接的方法就是将真实值或预测区间与交叉注意力图进行匹配。但是,作者声称这种方式显著损害了用于交叉注意力的表示的多样性,主要是因為作者并不确切知道交叉注意力的应该关注的点。表5的底部展示了在ActivityNet-v1.3上的三种目标的结果。真实值或预测区间的目标(真实值称为'Ground-Truth',预测区间称为'Prediction Intervals')性能应符合预期地下降。然而,利用预测关系(Prediction Relation)的间接方法显著地提高了性能。

5 Conclusion

在本文中,作者发现在TAD的交叉注意力存在注意力消失。作者发现模型在预测上呈现出明显不同于预测的模式,这是一种由注意力消失引发的自捷径现象。为此,作者提出了预测反馈DETR(Pred-DETR)来将注意力与预测对齐。通过提供具有预测引导的辅助目标,预测反馈显著缓解了注意力消失的程度。作者的广泛实验证实Pred-DETR在THUMOS14,ActivityNet-v1.3,HACS和FineAction上的DETR模型超越了最先进的表现。

6 参考论文

[1].Prediction-Feedback DETR for Temporal Action Detection.

下载地址:2408.16729v2 (arxiv.org)

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1556930.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Chrome浏览器调用ActiveX控件--allWebOffice控件

背景 allWebOffice控件能够实现在浏览器窗口中在线操作文档的应用(阅读、编辑、保存等),支持编辑文档时保留修改痕迹,支持书签位置内容动态填充,支持公文套红,支持文档保护控制等诸多办公功能,本…

国庆期间的问题,如何在老家访问杭州办公室的网络呢

背景:国庆期间的问题,如何在老家访问杭州办公室的网络呢 实现方案:异地组网 实现语言:Java 环境:三个网络,一台拥有公网IP的服务器、一台杭州本地机房内服务器、你老家所在网络中的一台电脑(…

Linux中的网络指令:ping、netstat、watch、pidof、xargs

目录 Ping指令 netstat指令 watch指令 pidof指令 xargs指令 Ping指令 功能:检测两台主机间的网络连通性 语法:ping [选项] 目标主机的IP地址 (192.168.1.1)或域名(google.com) 常见选项&#xff1a…

鸿蒙next开启地图服务

一般手机软件有的都会有开启地图功能,这里说一下怎么开启地图服务 1、 首先你需要配置一些东西,在华为的agc平台上,下边链接就是详细的教程 https://developer.huawei.com/consumer/cn/doc/harmonyos-guides-V5/map-config-agc-V5 我说一下你…

分治算法(5)_归并排序_排序数组

个人主页:C忠实粉丝 欢迎 点赞👍 收藏✨ 留言✉ 加关注💓本文由 C忠实粉丝 原创 分治算法(5)_归并排序_排序数组 收录于专栏【经典算法练习】 本专栏旨在分享学习算法的一点学习笔记,欢迎大家在评论区交流讨论💌 目录 …

如何在各大地图平台上标注店铺定位?

随着互联网的高度普及,地图导航已成为人们日常出行和寻找服务的重要工具。对于商家而言,将自己的店铺定位标注在各大地图平台上,不仅能方便顾客一键导航抵达店铺进行消费,还能提高店铺的线上曝光率,从而吸引更多的潜在…

Chrome浏览器调用ActiveX控件--allWebOffice控件功能介绍

allWebOffice控件概述 allWebOffice控件能够实现在浏览器窗口中在线操作文档的应用(阅读、编辑、保存等),支持编辑文档时保留修改痕迹,支持书签位置内容动态填充,支持公文套红,支持文档保护控制等诸多办公功…

鸿蒙开发之ArkUI 界面篇 十九 Flex组件的特点

其语法格式是: Flex(参数对象){ 字组件1, 字组件2, 字组件3, 字组件4 } 这里你会发现,其实和Row容器,Colum容器的语法格式差不多,核心的关键是Colum、Row是不支持换行,实现FlexInterface接口,对外提供的属性是F…

Cesium的一些神奇概念及技术流程(1)

近期要深度研究Cesium。关于Cesium的用法、渲染流程等方面我看很多人都写过。我就写写其中一些可能平时用不到但是比较有趣的内容。因为边研究边写,所以会陆续出几集,然后合并在一起,欢迎大家跟踪。 我的这些文章不打算把一些基本概念展开解…

【判断推理】逻辑基础

1.1 命题 用语言、符号或者式子表达的,可以判断真假的陈述句称为命题,一般写为 若p,则q 真命题:判断为真的语句假命题:判断为假的语句 eg1:小张是中国人(若是小张,则是中国人&#…

【操作系统考研】2进程管理(1)

在翻看操作系统知识框架的时候,对一些概念的理解还比较模糊,现在我来理清他们的关系。 操作系统、处理器、进程、线程、内存、存储器、设备、文件的关系 咱们可以把计算机系统想象成一个大工厂,来理解这些概念之间的关系。 操作系统&#xf…

Error:WPF项目中使用oxyplot,错误提示命名空间中不存在“Plot”名称

在OxyPlot中&#xff0c;<oxy:PlotView>和<oxy:Plot>都是用来显示图表的控件&#xff0c;在WPF项目中使用oxyplot之前&#xff0c;先通过NuGet安装依赖包&#xff1a;OxyPlot.Wpf。 <oxy:PlotView>和<oxy:Plot>使用示例&#xff1a; <oxy:PlotVie…

使用Markdown Here插件生成邮件样式

使用Markdown Here插件生成邮件样式 通常大学生们都有给老师、助教使用邮箱发送作业的情景&#xff0c;怎样让自己发送的邮件美观呢&#xff0c;我们可以使用Markdown Here插件美化 以下为结果展示 Markdown Here 插件 官网地址 html代码 <font size"7", face…

复杂度分析复习(C语言版)

一.算法复杂度 算法在编写成可执行程序以后&#xff0c;运行时需要耗费时间资源和&#xff08;内存&#xff09;资源。因此衡量一个算法的好坏&#xff0c;一般是从时间、空间两个维度来衡量的&#xff0c;即时间复杂度和空间复杂度。 现如今&#xff0c;计算机内存越来越大&am…

数学公式编辑器免费版下载,mathtype和latex哪个好用

选择适合自己的公式编辑器需要考虑多个因素。首先&#xff0c;您需要确定编辑器支持的功能和格式是否符合您的需求&#xff0c;例如是否可以插入图片、导出各种文件格式等。其次&#xff0c;您可以考虑编辑器的易用性和界面设计是否符合您的个人喜好。另外&#xff0c;您还可以…

基于LORA的一主多从监测系统_框架搭建

第一节、框架搭建 打开CubeMAX&#xff0c;选择好芯片&#xff0c;进行基础配置 第一步、先配置时钟源 第二步、配置SYS选项 配置debug口以及计数器源&#xff0c;我这里选择TIM1 第三步、选择I2C接口 配置如下即可&#xff0c;默认配置不用改 第四步、串口选择 我们这里使…

传奇服务端快捷助手

定位传奇各目录&#xff0c;一键打开各配置文件。<br>收纳引擎、端口配置检查&#xff08;批量&#xff09;、路径配置、文本搜索、文件同步、一键重载&#xff08;跨桌面&#xff09;、命令管理 参考资料 传奇服务端快捷助手2024-06-20 - 工具软件程序 - 51开发者联盟 -…

51单片机的自动制冷系统【proteus仿真+程序+报告+原理图+演示视频】

1、主要功能 该系统由AT89C51/STC89C52单片机LCD1602显示模块温度传感器继电器LED、按键和蜂鸣器等模块构成。适用于车载便携式自动制冷系统、冰箱制冷、温度控制等相似项目。 可实现功能: 1、LCD1602实时显示当前温度 2、温度传感器DS18B20采集温度 3、按键可设置温度的阈…

JS 入门

文章目录 JS 入门一、JS 概述1、JS 特点2、JS 组成3、JS 初体验4、HTML引入JS 二、JS 基础语法1、变量声明2、基本数据类型3、引用数据类型1&#xff09;数组2&#xff09;对象3&#xff09;函数4&#xff09;null 4、运算符5、条件判断6、循环语句 三、JS 函数0、JS 函数特点1…

【unity进阶知识9】序列化字典,场景,vector,color,Quaternion

文章目录 前言一、可序列化字典类普通字典简单的使用可序列化字典简单的使用 二、序列化场景三、序列化vector四、序列化color五、序列化旋转Quaternion完结 前言 自定义序列化的主要原因&#xff1a; 可读性&#xff1a;使数据结构更清晰&#xff0c;便于理解和维护。优化 I…