yolov10算法原理

文章目录

  • 1. 模型效果
  • 2. 模型特点
    • 2.1 无NMS训练的一致性双重分配策略 (Consistent Dual Assignments for NMS-free Training)
      • 双重标签分配 (Dual Label Assignments)
      • 一致匹配度量(Consistent Match. Metric)
      • 一对一分配在一对多结果中的频率
    • 2.2. 效率-准确性驱动的YOLO模型设计策略
      • 准确性驱动模型设计
      • 效率驱动模型设计
  • 3. 参考文章

论文链接:https://arxiv.org/abs/2405.14458
代码链接:https://github.com/THU-MIG/yolov1

1. 模型效果

在这里插入图片描述
针对YOLO模型,在后处理方面,提出了一致性双重分配策略用于NMS训练,从而实现高效的端到端检测。模型架构方面,引入了全面的效率-准确性驱动模型设计策略,改善了性能和效率。

2. 模型特点

2.1 无NMS训练的一致性双重分配策略 (Consistent Dual Assignments for NMS-free Training)

在这里插入图片描述
(a) Consistent dual assignments for NMS-free training (b) Frequence of one-to-one assignments in Top-1/5/10 of one-to-many results for YOLOv8-s which employs 𝛼𝑜⁢2⁢𝑜=0.5 and 𝛽𝑜⁢2⁢𝑜=0.6 by default . For consistency, 𝛼𝑜⁢2⁢𝑜=0.5 and 𝛽𝑜⁢2⁢𝑜=0.6. For inconsistency, 𝛼𝑜⁢2⁢𝑜=0.5 and 𝛽𝑜⁢2⁢𝑜=2

双重标签分配 (Dual Label Assignments)

双重标签分配是YOLOv10中提出的一种NMS-free训练策略, 旨在兼顾one-to-many分配的丰富监督信号和one-to-one分配的高效率:

  1. 引入双头结构, 包含一个one-to-many head和一个one-to-one head。这两个head结构相同,
    使用相同的损失函数, 但one-to-many head进行一对多标签分配, one-to-one head进行一对一标签分配。
  2. 训练时, 两个head同时优化, 让backbone和neck享受到one-to-many分配带来的丰富监督信号。
  3. 推理时, 舍弃one-to-many head, 仅使用one-to-one head进行预测。这样既不需要使用NMS后处理, 也不会带来额外的推理开销。
  4. 在one-to-one匹配中, 使用top-1选择, 即为每个gt选择一个最佳正样本, 其性能与使用Hungarian算法相当, 但节省了训练时间。

一致匹配度量(Consistent Match. Metric)

YOLOv10在两个分支中使用统一的matching metric来衡量预测框和GT间的匹配程度,公式为:
在这里插入图片描述
其中s表示空间因子, 即预测框的中心是否落在GT内部; p是分类置信度; b’和b分别是预测框和GT的坐标; α和β是平衡分类和回归任务的超参数。两个分支的α和β记为αA、βA和αB、βB。
为了让B的监督信息与A更加一致, 作者提出令αB = r·αA, βB = r·βA, 即B的超参数是A的r倍。通过数学推导, 可以证明当r=1时, 即αB=αA且βB=βA, 能够最小化A和B在理论上的监督差异。此时B选出的最佳正样本也同时是A的最佳正样本, 两个分支以一种更加协调的方式优化。

一对一分配在一对多结果中的频率

柱状图 (b) 展示了一对一分配在YOLOv8-S中的Top-1/5/10结果中的频率。

蓝色(Inconsistent):表示不一致的情况。
橙色(Consistent):表示一致的情况。

实验设置:
默认参数:对于一对多头(One-to-many head),𝛼𝑜⁢2⁢𝑜=0.5和 𝛽𝑜⁢2⁢𝑜=0.6
一致性参数:对于一对一头(One-to-one head),𝛼𝑜⁢2⁢𝑜=0.5和 𝛽𝑜⁢2⁢𝑜=0.6
非一致性参数:𝛼𝑜⁢2⁢𝑜=0.5和 𝛽𝑜⁢2⁢𝑜=2

从图中可以看出,采用一致性匹配度量的YOLOv8-S在Top-5和Top-10结果中具有更高的一致性频率。

引入Consistent matching metric的原因总结如下:

  1. 缩小Dual Label Assignments中两个分支的理论监督差异, 使其学习目标更加一致。
  2. 通过控制超参数的关系, 让两个分支以更加协调的方式优化, 使one-to-one分支的预测结果更加优质。
  3. 在实验中验证, Consistent matching metric能够显著提升one-to-one分支的性能, 缩小其与one-to-many分支的差距。
  4. 无需针对one-to-one分支额外调参, 大大简化了训练流程。

2.2. 效率-准确性驱动的YOLO模型设计策略

除了后处理,YOLO模型的架构设计对效率-准确性权衡也提出了巨大挑战。尽管之前的研究探索了多种设计策略,但对YOLO各个组件进行全面检查仍然不足。因此,YOLO模型架构表现出明显的计算冗余和受限的能力,阻碍了其在效率和性能方面的潜力。这里,我们旨在从效率和准确性两个方面对YOLO模型进行全面的设计。

在这里插入图片描述

图表 (a) 展示了YOLOv8不同模型(N、S、M、L、X)在各个阶段的内在秩值。每个阶段在骨干网络(backbone)和颈部(neck)中按模型前向过程的顺序编号。
Y轴:表示归一化的数值秩值 r/Co,阈值默认设置为λmax/2 ,其中Co 表示输出通道数,λmax是最大奇异值。
X轴:表示模型的不同阶段,从Stage 1到Stage 8。
观察:可以看到深层阶段和大模型表现出较低的内在秩值。这表明这些阶段和模型可能存在更多的计算冗余。

图 (b) 紧凑反向瓶颈模块(CIB, Compact Inverted Bottleneck),结构说明:
1×1卷积:用于特征的通道转换。
3×3深度卷积(DW):用于特征的空间转换。
CIB模块:通过多层卷积和非线性激活函数进行特征提取和转换。
N个堆叠的CIB模块:可以通过重复堆叠实现更深层次的特征提取。
特点:CIB可以用于替换YOLOv8中内在秩较低阶段的基本模块, 在保持性能的同时降低计算开销。

图 (c`) 部分自注意力模块(PSA),结构说明:
1×1卷积:用于特征的通道转换和分割(split)。
多头自注意力模块(MHSA):用于全局特征建模。
前馈网络(FFN):用于特征变换。
N_psa个堆叠的PSA模块:通过重复堆叠实现更强的特征建模能力。
将特征在channel维度均匀分成两部分, 一部分送入多头自注意力(MHSA)和前馈网络(FFN), 与另一部分concat后用1x1卷积融合。PSA只放在最后一个stage, 在引入全局建模能力的同时控制了计算量。

准确性驱动模型设计

  1. 大核卷积
    采用大核深度卷积是扩大感受野和增强模型能力的有效方式。然而,简单地在所有阶段采用大核卷积可能会对用于检测小物体的浅层特征造成污染,同时在高分辨率阶段引入显著的I/O开销和延迟。因此,我们建议在CIB的深层阶段中使用大核深度卷积。具体来说,我们将CIB中第二个3×3深度可分离卷积的核尺寸增大到7×7。此外,我们采用结构重新参数化技术,在不增加推理开销的情况下添加另一个3×3深度可分离卷积分支,以缓解优化问题。此外,随着模型规模的增加,其感受野自然扩展,使用大核卷积的好处会减小。因此,我们仅在小规模模型中采用大核卷积。

  2. 部分自注意力(PSA)
    自注意力由于其出色的全局建模能力在各种视觉任务中得到了广泛应用。然而,它具有较高的计算复杂度和内存占用。为了解决这个问题,鉴于注意力头冗余的普遍性,论文提出了一种高效的部分自注意力模块设计。 旨在以较低的计算开销捕获全局依赖关系, 提升模型的特征表示能力。

效率驱动模型设计

YOLO的组件包括起始层、下采样层、具有基本构建块的各阶段以及头部。由于起始层的计算成本较低,因此我们主要针对其他三个部分进行效率驱动的模型设计。

  1. 轻量级分类头
    在YOLO中,分类头和回归头通常共享相同的架构。然而 ,它们在计算开销上存在显著差异。例如,在YOLOv8-S中,分类头的FLOPs和参数数量分别是回归头的2.5倍和2.4倍。然而,通过分析分类错误和回归错误对性能的影响,我们发现回归头对YOLO性能的影响更大。因此,我们可以减少分类头的开销而不会显著影响性能。因此,我们采用了轻量级架构的分类头,它由两个3×3的深度可分离卷积和一个1×1卷积组成。

  2. SCDown
    Spatial-channel decoupled downsampling (空间-通道解耦下采样)是YOLOv10中提出的一种提高下采样效率的方法。
    采用depthwise卷积进行spatial mixing, pointwise卷积进行channel mixing, 是一种计算高效的模块。即首先利用点卷积调节通道维度,然后利用深度可分离卷积进行空间下采样。
    Spatial-channel decoupled downsampling是YOLOv10中提出的一种提高下采样效率的方法。
    采用depthwise卷积进行spatial mixing, pointwise卷积进行channel mixing, 是一种计算高效的模块。即首先利用点卷积调节通道维度,然后利用深度可分离卷积进行空间下采样。

  3. 基于秩的模块设计
    内在秩(Intrinsic Rank)是评估卷积层冗余度的一个指标, 它反映了卷积核张量的有效维度。作者提出了一种秩引导的模块替换策略(Rank-guided Block Design)。即针对内在秩较低的阶段, 将原有的基础模块替换为更加轻量化的CIB模块。总的来说, 内在秩度量了卷积层的信息冗余程度, 是一个简洁而有效的指标。

总结:yolov10是在yolov8的基础上做了改进,如下图第5步SC-Down、第8步C2f-CIB、第10步PSA、第23步预测头部等。


在这里插入图片描述
在这里插入图片描述

模型对比图
(图片来自B站白老师人工智能学堂)

3. 参考文章

  1. 【YOLO系列】YOLOv10论文超详细解读(翻译 +学习笔记)

  2. YOLOv10 正式发布!原理、部署、应用一站式齐全

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1544889.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

电场(electric-field)

图中: Q 产生电场的正电荷(可正可负,这里用正举例)q 试验电荷,正电荷(习惯上用正电荷)p 试验电荷所在的位置(即要测的电场强度的位置)r 为电荷间的距离 r ^ \widehat{r}…

[js逆向学习] fastmoss电商网站——店铺排名

逆向目标 网站:https://www.fastmoss.com/shop-marketing/tiktok接口:https://www.fastmoss.com/api/shop/shopList/参数:fm-sign 逆向分析 我们今天要分析的是店铺排名,先分析网络请求,找到目标接口 按照上图操作…

怎样批量对比两个数据库的表差异??

🏆本文收录于《CSDN问答解惑-专业版》专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收…

38.重复的子字符串

方法1: class Solution {public boolean repeatedSubstringPattern(String s) {if (s.equals("")) return false;String s2(ss).substring(1,(ss).length()-1);//去掉首尾字符return s2.contains(s);//判断是否包含s} } class Solution(object):def rep…

spring boot项目对接人大金仓

先确认一下依赖 第一 是否引入了mybatis-plus多数据源&#xff0c;如果引入了请将版本保持在3.5.0以上 <dependency><groupId>com.baomidou</groupId><artifactId>dynamic-datasource-spring-boot-starter</artifactId><version>${dynam…

接触器和复合开关的具体应用区别

接触器和复合开关在电力系统中都有各自的应用&#xff0c;但它们的功能和用途有所不同&#xff1a; 一、接触器 1、应用&#xff1a; 电动机控制&#xff1a;接触器常用于控制电动机的启停&#xff0c;能够承载电动机的启动电流。 自动控制系统&#xff1a;在自动化控制系统…

2-102基于matlab的蒙特卡洛仿真

基于matlab的蒙特卡洛仿真&#xff0c;对64QAM和BPSK进行蒙特卡洛仿真&#xff0c;并绘出误码率曲线。程序已调通&#xff0c;可直接运行。 下载源程序请点链接&#xff1a; 2-102基于matlab的蒙特卡洛仿真

【FPGA必知必会】(二)7系列的配置(一)

配置概述 7系列FPGA是通过将bitstream下载到内存中来实现配置的。 既可以通过外部非易失性存储器加载&#xff0c;也可以通过微处理器、DSP处理器、微控制器、PC或者板级测试仪进行加载。 有两种通用的配置路径&#xff0c;一种是串行数据路径&#xff0c;用于减少对器件引脚…

数据丢失不再怕!四款神器助你找回一切

哈喽&#xff0c;大家好&#xff01;今天咱们来聊聊数据恢复工具&#xff1b;在数字化的时代&#xff0c;数据丢失可是个让人头疼的问题&#xff1b;不过别担心&#xff0c;有了这些数据恢复工具&#xff0c;再也不用担心数据不见&#xff1b;下面我给大家推荐五款非常好用的数…

【systemctl start jenkins】启动报错问题解决

问题说明&#xff0c;最终是在jenkins.service中配置JAVA_HOME解决的&#xff0c;但是我的服务器环境中确定已经配置好了Java环境变量&#xff0c;并且java -version也能正常打印信息&#xff0c;不清楚为什么jenkins.service无法读取配置 1.环境配置说明 服务器&#xff1a;…

如何确定SAP 某些凭证或者单号的号码编码范围的 OBJECT 是什么?

在SAP的运维或者项目实施中&#xff0c;有时会如何确定SAP 某些凭证或者单号的号码 OBJECT 是什么&#xff1f; 一般一下常用的可以通过事务代码 例如&#xff1a; XDN1 Create Number Ranges for Customer Accounts&#xff0c;定义客户编码FBN1查看维护会计凭证号范围 我…

破解 oklink 网站加密数据(升级版)

大家好!我是炒青椒不放辣,关注我,收看每期的编程干货。 逆向是爬虫工程师进阶必备技能,当我们遇到一个问题时可能会有多种解决途径,而如何做出最高效的抉择又需要经验的积累。本期文章将以实战的方式,带你详细地分析并破解 oklink 网站加密数据 特别声明:本篇文章仅供学…

屏幕演示工具 | 水豚鼠标助手 v1.0.7

水豚鼠标助手是一款功能强大的屏幕演示工具&#xff0c;专为Windows 10及以上系统设计。这款软件提供了多种实用功能&#xff0c;旨在增强用户的屏幕演示体验&#xff0c;特别适合教师、讲师和需要进行屏幕演示的用户。鼠标换肤&#xff1a;软件提供多种鼠标光标样式&#xff0…

深兰科技陈海波应邀出席2024长三角论坛暨虹桥人才创新发展大会

近日&#xff0c;以“人才引领 联动共融——国际化创新与长三角协同”为主题的“2024长三角人才发展论坛暨虹桥人才创新发展大会”在上海国际会议中心隆重举行。上海市委常委、组织部部长、市委人才办主任张为应邀出席并做大会致辞。 深兰科技创始人、董事长陈海波作为特邀企业…

跑lvs出现soft connect怎么处理?

首先&#xff0c;我们先了解一下什么是soft connect。简而言之&#xff0c;就是工具会将所有连接在psub上的信号认作soft connect&#xff08;也就是short&#xff09;。如图1所示&#xff0c;VSS和AVSS都接到了p上&#xff0c;它们通过psub便有了soft connect。 如果有soft co…

SQLServer运维实用的几个脚本

目录 1、查询出最近所有耗时最大的SQL语句 2、查询数据库每个数据表存储占用 3、当前正在执行的最耗时的前10个SQL语句 4、SQLServer查看锁表和解锁 5、快速清理数据库日志文件 1、查询出最近所有耗时最大的SQL语句 返回的是未关联任何特定对象的最耗费资源的查询信息,包…

剖解相交链表

相交链表 思路&#xff1a;我们计算A和B链表的长度&#xff0c;求出他们的差值&#xff08;len&#xff09;&#xff0c;让链表长的先多走len步&#xff0c;最后在A,B链表一起向后走&#xff0c;即可相逢于相交节点 实现代码如下&#xff1a; public class Solution {public …

string 的介绍及使用

一.string类介绍 C语言中&#xff0c;字符串是以’\0’结尾的一些字符的集合&#xff0c;为了操作方便&#xff0c;C标准库中提供了一些str系列的库函数&#xff0c;但是这些库函数与字符串是分离开的&#xff0c;不太符合OOP的思想&#xff0c;而且底层空间需要用户自己管理&a…

服务设计原则介绍

在Java或任何软件开发中&#xff0c;设计服务时遵循一些核心原则是非常重要的&#xff0c;这些原则不仅有助于构建高质量、可维护的软件系统&#xff0c;还能提高系统的可扩展性和可重用性。以下是一些关键的服务设计原则&#xff1a; 单一职责原则&#xff08;SingleResponsib…

个人量化成功之路-----获取实时OHLC的数据

昨天有一个客户说自己之前交易主要看OHLC线&#xff0c;想问量化软件如何实现获取实时一分钟OHLC的数据并生产图像。 有朋友可能不熟悉OHLC这个名字哈&#xff0c;其实跟K线/蜡烛图的数据是一样的&#xff0c;和蜡烛图的区别只是表现形式的不一致。 O为open、开盘价&#xff…