【论文速看】DL最新进展20240927-目标检测、Transformer

目录

    • 【目标检测】
    • 【Transformer】

【目标检测】

[2024小目标检测] A DeNoising FPN With Transformer R-CNN for Tiny Object Detection

论文链接:https://arxiv.org/abs/2406.05755

代码链接:https://github.com/hoiliu-0801/DNTR

尽管计算机视觉领域取得了显著进展,但精确检测微小物体仍然是一个重大挑战,这主要是因为这些物体在图像数据中的像素表示非常微小。这一挑战在地球科学和遥感领域尤为突出,高保真地检测微小物体可以促进从城市规划到环境监测的各种应用。文中提出了一种新的框架,即DeNoising FPN with Trans R-CNN (DNTR),以提升微小物体检测的性能。DNTR由一个易于插入的设计模块DeNoising FPN (DN-FPN)和一个高效的基于Transformer的检测器Trans R-CNN组成。具体来说,特征金字塔网络中的特征融合对于检测多尺度对象非常重要。然而,由于不同尺度特征之间缺乏正则化,融合过程中可能会产生噪声特征。因此,引入了DN-FPN模块,利用对比学习来抑制FPN自上而下路径中每个层级特征的噪声。其次,基于双阶段框架,用新颖的Trans R-CNN检测器替代了过时的R-CNN检测器,以自注意力机制聚焦于微小物体的表示。实验结果表明,DNTR在AI-TOD数据集上的APvt至少比基线提高了17.4%,在VisDrone数据集上的AP至少提高了9.6%。

在这里插入图片描述


[ICLR 2022] FP-DETR: DETECTION TRANSFORMER ADVANCED BY FULLY PRE-TRAINING

论文链接:https://openreview.net/pdf?id=yjMQuLLcGWK

代码链接:https://github.com/encounter1997/FP-DETR

大规模预训练已被证明在下游任务的视觉表示学习中是有效的,尤其是在提高鲁棒性和泛化能力方面。然而,最近开发的检测转换器(detection transformers)只在其主干网络上进行预训练,而关键的组件,即12层转换器,却是从头开始训练的,这阻碍了模型获得上述好处。这种分离的训练范式主要是由于上游和下游任务之间的差异造成的。为了缓解这个问题,文中提出了FP-DETR,它对仅编码器的转换器进行全面预训练,并通过任务适配器(task adapter)对其进行平滑微调以用于目标检测。受到自然语言处理中文本提示(textual prompts)成功的启发,将查询位置嵌入视为视觉提示,帮助模型关注目标区域(提示)并识别对象。为此,提出了任务适配器,该适配器利用自注意力来建模对象查询嵌入之间的上下文关系。在具有挑战性的COCO数据集上的实验表明,FP-DETR实现了有竞争力的性能。此外,与最先进的检测转换器相比,它在抵御常见干扰和对小型数据集的泛化方面表现更好。

在这里插入图片描述


【Transformer】

[ICML 2024] SLAB: Efficient Transformers with Simplified Linear Attention and Progressive Re-parameterized Batch Normalization

论文链接:https://arxiv.org/abs/2405.11582

代码链接:https://github.com/xinghaochen/SLAB

Transformers 已成为自然语言和计算机视觉任务的基础架构。然而,高计算成本使其在资源受限的设备上部署变得相当具有挑战性。本文研究了高效 Transformer 的计算瓶颈模块,即归一化层和注意力模块。LayerNorm 通常用于 Transformer 架构中,但由于推理期间的统计计算,其计算效率并不友好。然而,用更高效的 BatchNorm 替换 Transformer 中的 LayerNorm 往往会导致性能下降和训练崩溃。为了解决这个问题,文中提出了一种名为 PRepBN 的新方法,以在训练过程中逐步用重参数化的 BatchNorm 替换 LayerNorm。此外,还提出了一个简化的线性注意力(SLA)模块,该模块简单但有效,能够实现强大的性能。广泛的图像分类和目标检测实验证明了提出方法的有效性。例如,SLAB-Swin 在 ImageNet-1K 上的 top-1 准确率达到了 83.6%,延迟为 16.2ms,比 Flatten-Swin 减少了 2.4ms,并且准确率提高了 0.1%。还评估了该方法在语言建模任务中的表现,并获得了相当的性能。

在这里插入图片描述


[CVPR 2024] ViTamin: Designing Scalable Vision Models in the Vision-Language Era

论文链接:https://arxiv.org/abs/2404.02132

代码链接:https://github.com/Beckschen/ViTamin

近期在视觉-语言模型(VLMs)方面的突破为视觉社区开启了新的篇章。与基于 ImageNet 预训练的模型相比,VLMs 提供了更强且更具泛化性的特征嵌入,这归功于其在大规模互联网图像-文本对上进行的训练。然而,尽管 VLMs 取得了令人惊叹的成就,传统的视觉变换器(ViTs)仍然是图像编码的默认选择。尽管纯变换器在文本编码领域证明了其有效性,但在图像编码方面是否同样适用仍然存疑,尤其是考虑到在 ImageNet 基准测试中提出了各种类型的网络,遗憾的是这些网络在 VLMs 中很少被研究。由于数据/模型规模较小,ImageNet 上的原始模型设计结论可能受到限制和偏见。本文旨在构建一个在对比语言-图像预训练(CLIP)框架下的视觉模型评估协议。文中提供了一种全面的方法来评估不同的视觉模型,涵盖它们的零样本性能以及在模型和训练数据大小方面的可扩展性。为此,作者引入了 ViTamin,一种专为 VLMs 量身定制的新视觉模型。在使用相同的公开可用 DataComp-1B 数据集和相同的 OpenCLIP 训练方案时,ViTamin-L 的 ImageNet 零样本准确率显著优于 ViT-L,提高了 2.0%。ViTamin-L 在包括分类、检索、开放词汇检测和分割在内的 60 个多样化基准测试中呈现了有希望的结果,并适用于大型多模态模型。当进一步扩展模型规模时, ViTamin-XL 仅有 436M 参数,达到了 82.9% 的 ImageNet 零样本准确率,超过了拥有十倍更多参数(4.4B)的 EVA-E 所达到的 82.0%。

在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1548426.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

笔记整理—linux进程部分(1)进程终止函数注册、进程环境、进程虚拟地址

对于mian()函数而言,执行前也需要先执行一段引导代码才会去执行main()函数,该部分的代码包含构建c语言的运行环境等配置,如清理bss段等。 在使用gcc去编译程序的时候,使用gcc -v xxx.c可见链接过程。在编译完成后可见xxx.out文件。…

数据结构——计数、桶、基数排序

目录 引言 计数排序 1.算法思想 2.算法步骤 3.代码实现 4.复杂度分析 桶排序 1.算法思想 2.算法步骤 3.代码实现 4.复杂度分析 基数排序 1.算法思想 2.算法步骤 3.代码实现 4.复杂度分析 排序算法的稳定性 1.稳定性的概念 2.各个排序算法的稳定性 结束语 引…

NVLM多模态 LLM 在图像和语言任务中的表现优于 GPT-4o

论文地址:https://arxiv.org/pdf/2409.11402 背景 传统的多模态 LLM 有两种主要方法:纯解码器架构(如 LLaVA)和基于交叉注意力的架构(如 Flamingo)。混合架构,既提高了训练效率,又增…

[CKA]CKA的购买和注册考试券

CKA的购买和注册考试券 一、购买CKA 1、注册 LF开源软件学园 账号 LF开源软件学园:https://training.linuxfoundation.cn/register 2、个人中心进行实名认证 3、按需求进行购买 4、在考试中心–我的订单 中查看购买的订单 我是在"黑色星期五"打折买的…

LLM大模型书籍:专补大模型短板的RAG入门与实战书来了!

文末赠书 RAG自2020年由Facebook AI Research推出后,一下子就窜红了。 毕竟,它是真的帮了大忙,在解决大语言模型的“幻觉”问题上起到了关键作用。 如今,Google、AWS、IBM、微软、NVIDIA等科技巨头都在支持RAG应用的开发。微软…

中国新媒体联盟与中运律师事务所 建立战略合作伙伴关系

2024年9月27日,中国新媒体联盟与中运律师事务所举行战略合作协议签字仪式。中国新媒体联盟主任兼中国社会新闻网主编、中法新闻法制网运营中心主任左新发,中运律师事务所高级顾问刘学伟代表双方单位签字。 中国新媒体联盟是由央视微电影中文频道联合多家…

你的下一台手机会是眼镜吗?RTE 大会与你一同寻找下一代计算平台丨「空间计算和新硬件」论坛报名

周四 Meta 刚公布新一代 AR 眼镜 Orion 后,Perplexity 的 CEO 发了一条状态:「如果你还在做软件,请转型硬件。」 一家估值 30 亿美元的 AI 软件公司 CEO 说出这样的言论,既有有见到「最强 AR 眼镜」Orion 后的激动情绪&#xff0c…

如何组织一场考试并筛选未参加答题的考生?

🙋频繁有小伙伴咨询:我组织了一场答题活动,导出考试成绩时只有参加了答题的人,但我想要找到哪些人没答题 此前我们会建议小伙伴逐人排查,但这建议被反复吐槽🤦 确实,如果只有十几个人逐人排查还…

鸿蒙开发(NEXT/API 12)【硬件(Pen Kit)】手写笔服务

Pen Kit(手写笔服务)是华为提供的一套手写套件,提供笔刷效果、笔迹编辑、报点预测、一笔成形和全局取色的功能。手写笔服务可以为产品带来优质手写体验,为您创造更多的手写应用场景。 目前Pen Kit提供了四种能力:手写…

银行大模型,走到哪了?

频道说 透过近期披露的上市银行中报,窥探银行业大模型最新进展。 大模型浪潮依然汹涌澎湃。 9月12日,OpenAI全新发布o1模型,在复杂推理任务取得重大进步,代表了人工智能能力的新水平,被视为AI时代的又一个里程碑。 …

Bigemap Pro首发(一款真正全面替代Arcgis的国产基础软件)

Bigemap Pro是一款功能强大的计算机数据要素辅助设计(Computer-Aided Data Elements Design CADED)软件,由成都比格图数据处理有限公司研发设计,主要应用在数据要素设计领域,为各行业提供安全可靠高效易用的数据要素设计类国产化基础软件。Bi…

公交换乘C++

题目: 样例解释: 样例#1: 第一条记录,在第 3 分钟花费 10 元乘坐地铁。 第二条记录,在第 46 分钟乘坐公交车,可以使用第一条记录中乘坐地铁获得的优惠票,因此没有花费。 第三条记录,…

OpenCV与AI深度学习 | 实战 | 使用OpenCV和Streamlit搭建虚拟化妆应用程序(附源码)

本文来源公众号“OpenCV与AI深度学习”,仅用于学术分享,侵权删,干货满满。 原文链接:实战 | 使用OpenCV和Streamlit搭建虚拟化妆应用程序(附源码) 现看看demo演示。 本文将介绍如何使用Streamlit和OpenCV…

【GUI设计】基于Matlab的图像去噪GUI系统(8),matlab实现

博主简介: 如需获取设计的完整源代码或者有matlab图像代码项目需求/合作,可联系主页个人简介提供的联系方式或者文末的二维码。 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 本次案例是基于Matlab的图像去噪GUI系统&am…

Android界面控件概述

节选自《Android应用开发项目式教程》,机械工业出版社,2024年7月出版 做最简单的安卓入门教程,手把手视频、代码、答疑全配齐 控件是Android界面的重要组成单元,Android应用主要通过控件与用户交互,Android提供了非常…

PPT 快捷键使用、技巧

前言: 本文操作是以office 2021为基础的,仅供参考;不同版本office 的 ppt 快捷键 以及对应功能会有差异,需要实践出真知。 shift 移动 水平/垂直 移动 ; shift 放大/缩小 等比例放大 缩小 ; 正圆 正…

AOP-代理实现

三种代理实现 1 JDK动态代理实现-基于接口代理 2 CGLIB动态代理实现-基于类代理 3 AspectJ 适配实现 为什么Proxy.newProxyInstance 会生成新的字节码? 创建代理类: Proxy.newProxyInstance 首先会检查缓存中是否有已存在的代理类字节码。 如果没有&…

Pencils Protocol 即将登录各大 CEX,依旧看好 $DAPP

近期,Scroll生态头部DeFi协议Pencils Protocol迎来了系列重磅市场进展。自9月18日开始,$DAPP通证分别在Tonkensoft、Bounce以及Coresky等平台陆续开启了IDO,并且在短期内售罄。同时在通证售卖完成后,DAPP 通证又在9月27日陆续登录…

​极狐阿尔法 S5安全至上,北汽极狐打造移动防护堡垒

在新能源汽车的广阔舞台上,北汽极狐以其卓越的品质和创新的技术,不断书写着辉煌篇章。其中,极狐阿尔法 S5更是以其强大的性能、豪华的配置和亲民的价格,成为了众多消费者关注的焦点。 北汽极狐的品质追求 北汽极狐一直以来都将品…