【论文速看】DL最新进展20240922-长尾学习、目标检测

目录

    • 【长尾学习】
    • 【目标检测】

【长尾学习】

【PAMI2024】Probabilistic Contrastive Learning for Long-Tailed Visual Recognition

论文链接:https://arxiv.org/pdf/2403.06726

代码链接:https://github.com/LeapLabTHU/ProCo

长尾分布经常出现在现实世界的数据中,其中大量少数类别只包含有限的样本。这种不平衡问题严重损害了标准监督学习算法的性能,因为这些算法主要是为平衡训练集设计的。最近的研究表明,监督对比学习在缓解数据不平衡方面显示出有希望的潜力。然而,监督对比学习的性能受到一个固有挑战的困扰:它需要足够大的批量训练数据来构建覆盖所有类别的对比对,但在类不平衡数据的背景下,这个要求很难满足。为了克服这个障碍,作者提出了一种新颖的概率对比(ProCo)学习算法,该算法估计每个类别样本在特征空间中的数据分布,并据此采样对比对。实际上,使用小批量中的特征来估计所有类别的分布,特别是对于不平衡数据,是不可行的。关键想法是引入一个合理而的假设,即对比学习中的归一化特征遵循单位空间上von Mises-Fisher(vMF)分布的混合,这带来了双重好处。首先,分布参数可以使用仅第一个样本矩来估计,这可以在不同的批次中高效地在线计算。其次,基于估算的分布,vMF分布允许我们采样无限数量的对比对,并推导出期望对比损失的封闭形式以进行高效优化。除了长尾问题外,ProCo可以直接应用于半监督学习,通过为未标记数据生成伪标签,这些伪标签随后可用于逆向估计样本的分布。理论分析了ProCo的错误界限。从经验上看,广泛的实验结果在监督/半监督视觉识别和物体检测任务上表明,ProCo在不同数据集上一致优于现有方法。


[AAAI2024]Decoupled Contrastive Learning for Long-Tailed Recognition

研究机构:北京大学

论文链接:https://arxiv.org/abs/2403.06151

代码链接:https://github.com/SY-Xuan/DSCL

有监督对比损失 (SCL) 在视觉表示学习中很受欢迎。给定一张锚点图像,SCL 会拉近两种类型的正样本,即其增强样本和同一类中的其他图像,同时推开负样本以优化学习到的嵌入。在长尾识别场景中,每个类别的样本数量不平衡,将两种类型的正样本同等对待会导致类别内距离的优化偏差。此外,负样本之间的相似关系也被 SCL 所忽略,但这些关系也提供了有意义的语义线索。为了提升长尾识别的性能,本文通过解耦训练目标来解决 SCL 的两个问题。具体来说,它将 SCL 中的两种正样本解耦,并针对不同目标优化它们的关系,以减轻不平衡数据集的影响。进一步提出了基于补丁的自我蒸馏,以从头部类别向尾部类别传递知识,缓解尾部类别的欠表达问题。它使用基于补丁的特征来挖掘不同实例间的共享视觉模式,并利用自我蒸馏过程传递这些知识。在不同长尾分类基准上的实验证明了所提方法的优越性。例如,它在 ImageNet-LT 数据集上达到了 57.7% 的 top-1 准确率。结合基于集成的方法,性能可以进一步提升至 59.7%,这显著优于许多近期的工作。


【目标检测】

RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer

研究机构:百度和北京大学

技术报告链接:https://arxiv.org/abs/2407.17140

代码链接:https://github.com/lyuwenyu/RT-DETR

这份报告介绍了 RT-DETRv2,这是对实时检测Transformer (RT-DETR) 的改进版本。RT-DETRv2 基于先前的尖端实时检测器 RT-DETR,并提供了一组灵活性和实用性的优化选项,同时还优化了训练策略以实现性能提升。为了提高灵活性,建议在可变形注意力中为不同尺度的特征设置不同的采样点数量,以实现解码器的选择性多尺度特征提取。为了增强实用性,提出了一种可选的离散采样操作符,用以替代 RT-DETR 特有的 grid_sample 操作符(与 YOLOs 相比)。这消除了通常与 DETRs 相关的部署限制。对于训练策略,提出了动态数据增强和适应尺度的超参数定制,以提高性能而不会损失速度。


RT-DETRv3: Real-time End-to-End Object Detection with Hierarchical Dense Positive Supervision

研究机构:百度

论文链接:https://arxiv.org/abs/2409.08475

代码链接:代码将很快发布

RT-DETR 是第一个实时端到端的基于Transformer的目标检测器。它的高效性源于框架设计和匈牙利匹配。然而,与YOLO系列等密集监督检测器相比,匈牙利匹配提供的监督稀疏得多,导致模型训练不足,难以达到最佳效果。为了解决这些问题,作者提出了一种基于 RT-DETR 的分层密集正监督方法,名为 RT-DETRv3。首先,引入了一个基于CNN的辅助分支,提供密集监督,与原始解码器协作,以增强编码器特征表示。其次,为了解决解码器训练不足的问题,提出了一种涉及自注意力扰动的新学习策略。该策略通过在多个查询组之间多样化标签分配,丰富了正样本的监督信息。此外,引入了一个共享权重的解码器分支用于密集正监督,以确保每个真实值匹配更多高质量的查询。所有上述模块仅用于训练。广泛的实验证明所提方法在 COCO val2017 上的有效性。RT-DETRv3 显著优于现有的实时检测器,包括 RT-DETR 系列和 YOLO 系列。例如,RT-DETRv3-R18 达到了48.1%的 AP(+1.6%/+1.4%),相比 RT-DETR-R18/RT-DETRv2-R18,同时保持相同的延迟。同时,它只需要一半的epochs就能达到相当的性能。此外,RT-DETRv3-R101 可以达到54.6%的AP,超过了YOLOv10-X。


FA-YOLO: Research On Efficient Feature Selection YOLO Improved Algorithm Based On FMDS and AGMF Modules

研究机构:中国农业大学

论文链接:https://arxiv.org/pdf/2408.16313

代码链接:【无】

YOLO系列模型已成为目标检测领域的主要方法之一。许多研究通过修改其架构、提高数据质量和开发新的损失函数来改进这些基线模型。然而,当前模型在处理特征图时仍存在不足,例如忽视了跨尺度特征的融合以及静态融合方法缺乏动态特征调整的能力。为了解决这些问题,本文引入了一种高效的细粒度多尺度动态选择模块(FMDS模块),该模块对细粒度多尺度特征图应用了更有效的动态特征选择和融合方法,显著提升了复杂环境中小、中、大尺寸目标的检测精度。此外,本文还提出了一种自适应门控多分支聚焦融合模块(AGMF模块),该模块利用多个并行分支对门控单元分支、FMDS模块分支和TripletAttention分支捕获的各种特征进行互补融合。这种方法进一步增强了特征融合的全面性、多样性和完整性。本文将FMDS模块和AGMF模块集成到Yolov9中,开发出一种名为FA-YOLO的新型目标检测模型。大量实验结果表明,在相同的实验条件下,FA-YOLO在PASCAL VOC 2007数据集上的mAP(平均精度)达到了66.1%,比YOLOv9的65.1%提高了1.0%。同时,FA-YOLO对小、中、大目标的检测精度分别为44.1%、54.6%和70.8%,相较于YOLOv9的42.1%、51.5%和69.9%分别提升了2.0%、3.1%和0.9%。


[ICPR 2024] DS MYOLO: A Reliable Object Detector Based on SSMs for Driving Scenarios

研究机构:上海理工大学

论文链接:http://arxiv.org/abs/2409.01093

代码链接:【无】

准确的实时目标检测提高了高级驾驶辅助系统的安全性,使其成为驾驶场景中不可或缺的组成部分。随着深度学习技术的迅速发展,基于CNN的YOLO实时目标检测器受到了广泛关注。然而,CNN的局部焦点导致了性能瓶颈。为了进一步提高检测器的性能,研究人员引入了基于Transformer的自注意力机制来利用全局感受野,但其二次复杂度带来了巨大的计算成本。最近,Mamba凭借其线性复杂度和全局选择性扫描取得了显著进展。受Mamba出色表现的启发,我们提出了一种新的目标检测器:DS MY OLO。该检测器通过简化的选择扫描融合块(SimVSS Block)捕获全局特征信息,并有效地集成网络的深层特征。此外,我们还引入了一种高效的通道注意力卷积(ECAConv),在保持低计算复杂度的同时增强了跨通道特征互动。在CCTSDB 2021和VLD-45驾驶场景数据集上的广泛实验表明,DS MYOLO表现出显著的潜力和竞争优势,在类似规模的YOLO系列实时目标检测器中具有竞争力。


[2024火灾和火焰检测]EFA-YOLO: An Efficient Feature Attention Model for Fire and Flame Detection

研究机构:山东建筑大学

论文链接:https://arxiv.org/pdf/2409.12635

代码链接:【无】

作为一种突发性强、破坏性大的自然灾害,火灾长期以来对人类社会和生态环境构成了重大威胁。近年来,随着智慧城市和物联网(IoT)技术的迅速发展,基于深度学习的火情检测系统逐渐成为应对火灾隐患的关键手段。然而,现有的火情检测模型在复杂背景下的检测精度和实时性能方面仍面临许多挑战。为了解决这些问题,作者提出了两个关键模块:EAConv(高效注意力卷积)EADown(高效注意力降采样)。EAConv模块通过结合高效的注意机制与深度可分离卷积显著提高了特征提取效率,而EADown模块则通过结合空间和通道注意力机制与池化操作增强了特征降采样的准确性和效率。基于这两个模块,设计了一种高效且轻量级的火焰检测模型,EFA-YOLO(高效特征注意力YOLO)。实验结果显示,EFA-YOLO的模型参数数量仅为1.4M,GFLOPs为4.6,CPU上每张图像的推理时间仅为22.19毫秒。与现有的主流模型(例如YOLOv5、YOLOv8、YOLOv9和YOLOv10)相比,EFA-YOLO在检测精度(mAP)和推理速度上表现出显著提升,模型参数量减少了94.6%,推理速度提升了88倍。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1542183.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Redis数据结构之set

一.set集合特性 集合类型也是保存多个字符串类型的元素的,但和list列表不一样,集合中的元素是无序的,而且元素不能够重复,不仅支持增删查改,还支持交集并集等操作 二.相关命令 1.sadd sadd key members…… 咱们把…

华为HarmonyOS地图服务 9 - 如何在地图上绘制多边形?

场景介绍 本章节将向您介绍如何在地图上绘制多边形。 接口说明 添加多边形功能主要由MapPolygonOptions、addPolygon和MapPolygon提供,更多接口及使用方法请参见接口文档。 接口名 描述 MapPolygonOptions 用于描述MapPolygon属性。 addPolygon(options: mapC…

SOMEIP_ETS_122: SD_Interface_Version

测试目的: 验证DUT能够以正确的格式响应接口版本获取请求。 描述 本测试用例旨在确保DUT能够正确地返回其接口版本信息,这是SOME/IP协议中用于确定服务兼容性的关键信息。 测试拓扑: 具体步骤: TESTER:触发接口版…

高密原型验证系统解决方案(上篇)

0 引言 随着当今 SoC 设计规模的快速膨胀,仅仅靠几 颗当代最先进的 FPGA 已经无法满足原型验证的需求。简单的增加系统的容量,会遇到系统时钟复位同 步,设计分割以及高速接口和先进 Memory控制器 IP 验证等多重困难。此时,一个商用…

Contact Form 7最新5.9.8版错误修复方案

最近有多位用户反应Contact Form 7最新5.9.8版的管理页面有错误如下图所示 具体错误文件的路径为wp-content\plugins\contact-form-7\admin\includes\welcome-panel.php on line 153 找到welcome-panel.php这个文件编辑它,将如下图选中的部分删除 删除以后&#xf…

AUTOSAR入门篇

AUTOSAR简介 AUTomotive Open System ARchitecture 汽车开放系统结构 AUTOSAR背景 随着车载控制系统日益先进和复杂化,每辆汽车投入的软件开发工数(时间及人力)2010年将达到2002年的5-10倍。汽车电子系统设计复杂化造成的可靠性隐患导致汽车因安全隐患被“招回”的现象频繁…

洪涝洪水滑坡灾害数据集 灾害 2300张 带标注 voc yolo

洪涝洪水滑坡灾害数据集 灾害 2300张 带标注 voc yolo 洪涝洪水滑坡灾害数据集 数据集描述 该数据集是一个专门用于检测和识别洪涝、洪水和滑坡等自然灾害的数据集,旨在帮助研究人员和开发者训练和评估基于深度学习的目标检测模型。数据集涵盖了两种常见的自然灾害…

Java—SPI 机制详解

参考文章 Java常用机制 - SPI机制详解 | Java 全栈知识体系包含: Java 基础, Java 部分源码, JVM, Spring, Spring Boot, Spring Cloud, 数据库原理, MySQL, ElasticSearch, MongoDB, Docker, k8s, CI&CD, Linux, DevOps, 分布式, 中间件, 开发工具, Git, IDE, 源码阅读&a…

力扣之183.从不订购的客户

1. 183.从不订购的客户 1.1 题干 Customers 表: -------------------- | Column Name | Type | -------------------- | id | int | | name | varchar | -------------------- 在 SQL 中,id 是该表的主键。 该表的每一行都表示客户的 ID 和名称。 Ord…

有关shell指令练习2

写一个shell脚本,将以下内容放到脚本中 在家目录下创建目录文件,dir dir下创建dir1和dir2 把当前目录下的所有文件拷贝到dir1中, 把当前目录下的所有脚本文件拷贝到dir2中 把dir2打包并压缩为dir2.tar.xz 再把dir2.tar.xz移动到dir1中 …

MATLAB基于传统方法的车道线检测实现

MATLAB基于传统方法的车道线检测实现 本文实现的是基于传统方法的车道线检测,所谓传统方法就是没有涉及到深度学习算法,基于直观的手段和数学知识来实现,后期会实现基于深度学习的车道线检测方法。 实现步骤: Canny边缘检测手动…

html 几行的空间分成3个区域

1.代码 <!DOCTYPE html> <html lang"en"> <head> <meta charset"UTF-8"> <meta name"viewport" content"widthdevice-width, initial-scale1.0"> <title>三个区域示例</title> …

SpringBoot+Vue考试系统免费分享

源码说明&#xff1a; 这是一个开源的SpringBoot与Vue开发的在线考试系统。经过站长测试&#xff0c;系统稳定可用&#xff0c;允许重复考试。 环境&#xff1a; 需要安装的环境包括Node.js v14.21.3、JDK8、Maven以及MySQL 5.7。 前端部署教程&#xff1a; 执行 npm inst…

掌控历史:如何通过Git版本管理工具提升你的开发效率

先一览全局: git目录 一.打开git二.git bash的基础命令三.配置git四.仓库搭建五.文件操作和状态六.忽略文件七.gitee的使用1.添加公钥2.创建仓库 八.vs中使用git九.git分支常用命令十.文件差异比较十一.文件回溯和推进十二.合并冲突和消除十三.合并/压缩提交十四.远程仓库推拉十…

新160个crackme - 062-syllogism-crackme1

运行分析 需要破解Name和Serial PE分析 C程序&#xff0c;32位&#xff0c;无壳 静态分析&动态调试 ida找到成功弹窗字符串&#xff0c;双击进入函数 分析关键函数&#xff0c;还需要分析sub_401368函数 分析sub_401368函数&#xff0c;发现是将Name第一位替换为空格&#…

带你0到1之QT编程:十六、三种框架自带Dialog,助你在开发一臂之力

此为QT编程的第十六谈&#xff01;关注我&#xff0c;带你快速学习QT编程的学习路线&#xff01; 每一篇的技术点都是很很重要&#xff01;很重要&#xff01;很重要&#xff01;但不冗余&#xff01; 我们通常采取总-分-总和生活化的讲解方式来阐述一个知识点&#xff01; …

信息安全工程师(12)网络攻击概述

前言 网络攻击&#xff08;Cyber Attacks&#xff0c;也称赛博攻击&#xff09;是指针对计算机信息系统、基础设施、计算机网络或个人计算机设备的任何类型的进攻动作。这些攻击旨在破坏、揭露、修改、使软件或服务失去功能&#xff0c;或在未经授权的情况下偷取或访问计算机数…

消息中间件---Kafka

一、什么是Kafka&#xff1f; Kafka是一个分布式流处理平台,类似于消息队列或企业消息传递系统&#xff1b; 流处理事什么呢&#xff1f; 流处理就是数据处理工作流&#xff0c;本质上是一种计算机编程范例。流处理是对接收到的新数据事件的连续处理。‌它涉及对从生产者到消…

spring boot(学习笔记第二十课) vue + spring boot前后端分离项目练习

spring boot(学习笔记第二十课) vue spring boot前后端分离项目练习 学习内容&#xff1a; 后端程序构建前端程序构建 1. 后端程序构建 前后端分离结构 前后端就是前端程序和后端程序独立搭建&#xff0c;通过Restful API进行交互&#xff0c;进行松耦合的设计。后端程序构建…

WebGL入门(一)绘制一个点

源码&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title><scr…