探索Ultralytics YOLO11在视觉任务上的应用

前言

在人工智能持续发展的当下,有一点是确凿无疑的:模型正变得愈发优秀、快捷和智能。就在人们以为YOLO系列已登峰造极之时,Ultralytics推出了最新升级版——YOLO11。需要注意的是,这里不是YOLOv11,他们简化了命名方式,去掉了“v”。这一改变就如同YOLO既做了形象上的精简,又实现了性能的提升。

而在这个简洁的名称背后,是性能的巨大飞跃。YOLO11通过大幅削减参数,实现了更快的处理速度和更高的效率。它在COCO数据集上的平均精度均值(mAP)得分超越了YOLOv8,并且所使用的参数减少了22%,这使得它在保证性能的同时,计算负担更轻。

那么,YOLO11和它的前代版本究竟有何差异呢?让我们深入探究其架构,了解这个模型是怎样从仅仅追求速度转变为超级高效的,从而使其成为实时目标检测领域的佼佼者。
在这里插入图片描述

YOLO11 架构

  1. 骨干网络(Backbone Network)
    • YOLO11的骨干网络堪称模型的核心“大脑”。它采用先进的神经网络架构,例如EfficientNet或CSPNet,用于捕捉图像中的关键细节。这就好比一个人在审视一个场景时,能够敏锐地捕捉到各种重要线索,无论是物体的纹理还是形状等,进而帮助模型更为清晰地“洞察”图像。这种优化极大地提升了YOLO11识别物体的能力,即便处于复杂混乱的环境中,它也能表现出色。
  2. 颈部(Neck)
    • YOLO11的颈部起着连接“大脑”(骨干网络)与系统其他部分的关键作用,它负责收集并整合图像不同区域的信息。这类似于我们在观察环境时,既能关注到近处的物体,也能留意到远处的物体。颈部的作用使得模型能够检测出不同大小的物体,无论是像街道标志这类较小的物体,还是像公共汽车那样的大型物体,它都能准确识别。
  3. 检测头部(Detection Head)
    • 检测头部是YOLO11理解图像的关键部位,它能够识别图像中存在哪些物体、它们的位置在哪里,甚至还能捕捉到它们的一些具体细节,比如身体关节或者物体边缘等信息。正是这一处理过程使得YOLO11具有极快的检测速度。而且,这个版本在这方面有特别的改进,使其在发现小物体方面表现更为出色,而这在以往的版本中可能是容易被遗漏的。
  4. 锚框(Anchor Boxes)
    • 锚框类似于模板,其作用是协助模型识别不同大小和形状的物体。YOLO11对这些模板进行了改进,使其能够更好地适配所检测的物体,从而提高了对常见以及不寻常形状物体识别的准确性。
  5. 损失函数(Loss Functions)
    • 损失函数犹如YOLO11的“教练”,它引导模型从错误中学习。这些函数会指导模型关注那些它处理起来较为困难的领域,比如检测稀有物体或者精确确定物体的位置等。随着YOLO11不断在图像上进行“训练”,它在识别困难物体方面的能力会逐渐提升。

YOLO11 的新特

以下是对YOLO11突出特性的详细阐述:

  1. 增强的特征提取:在复杂环境下实现更优检测

    • YOLO11经过精心设计,具备捕捉图像中复杂模式的能力,这使得它在面临光线不佳或场景杂乱等具有挑战性的情况时,依然能够出色地识别物体。
  2. 更少参数,更高mAP:高效且精准

    • YOLO11实现了更高的平均精度均值(mAP),这是衡量其检测物体效果的关键指标。与此同时,它所使用的参数相较于YOLOv8减少了22%。简而言之,它在保持准确性的前提下,实现了更快的速度和更高的效率。
  3. 更快的处理速度:实时应用的理想之选

    • YOLO11的处理速度比YOLOv10快2%,这一优势使其成为自动驾驶、机器人以及实时视频分析等对实时性要求较高的应用的绝佳选择。
  4. 资源效率:以少胜多的能力

    • 尽管需要处理更为复杂的任务,但YOLO11致力于使用更少的计算资源。这一特性使其非常适合大规模项目以及处理能力有限的系统。
  5. 改进的训练过程:灵活适应各类任务

    • YOLO11的训练过程更为精简,从而能够更高效地适应各种不同的任务。无论是在小型数据集上开展工作,还是面对大型项目,YOLO11都能够根据问题的规模进行相应的调整。
  6. 跨部署的灵活性:适应多种环境

    • YOLO11被设计为能够在云服务器以及边缘设备(如智能手机或物联网设备)上高效运行。这种灵活性使其非常适用于需要在不同环境中工作的应用程序。
  7. 适用于多种应用的多功能性:广泛的应用领域

    • 从自动驾驶、医疗成像,到智能零售以及工业自动化,YOLO11的多功能性使其能够应用于众多领域,从而成为解决计算机视觉难题的有效方案。

实施

  1. 检测:
conda create --name yolo11 python==3.10
conda activate yolo11
pip install ultralytics
from ultralytics import YOLOfrom PIL import Imageimport requestsmodel = YOLO('yolo11n.pt')image = Image.open("/content/DOG.png")result = model.predict(image, conf=0.25)[0]

CLI 命令:

  yolo task = detect mode=predict model=yolo11n.pt conf=0.25 source="/content/DOG.png" save=True

在这里插入图片描述
在这里插入图片描述

  1. 实例分割:
   from ultralytics import YOLOmodel = YOLO("yolo11n-seg.pt")seg_results = model("/content/yogapose.jpg")seg_results[0].show()

在这里插入图片描述

  1. 姿态:
   from ultralytics import YOLOmodel = YOLO("yolo11n-pose.pt")pose_results = model("/content/yogapose.jpg")pose_results[0].show()

在这里插入图片描述

  1. 分类:
from ultralytics import YOLO
model = YOLO("yolo11n-cls.pt")
classi_results = model("/content/cocoimage1.jpg")
classi_results[0].show()

在这里插入图片描述

  1. 旋转目标检测:
   from ultralytics import YOLOmodel = YOLO("yolo11n-obb.pt")obb_results = model("/content/vecteezy_busy-traffic-on-the-highway_6434705.mp4", save=True)

进一步改善:

YOLO11虽然带来了显著的进步,但重要的是要认识到需要进一步增强或特定于任务的微调的领域:

  1. 对象分类的微调改进
    尽管 YOLO11在许多一般任务中表现出优越的性能,但是当针对特定任务进行微调时,它的对象分类能力可以进一步提高。例如,在医学成像或工业检查等专业领域,调整模型以关注利基数据集可以显著提高其准确与精密。

例如: 在医疗保健领域,微调 YOLO11以识别医学扫描中的特定异常,比如疾病的早期征兆,可以产生更精确的分类,以适应该领域。

  1. 定向目标检测: 航拍或网格视图
    YOLO11在空中或网格视图等场景中表现出色,在这些场景中,物体通常以特定的方式定向,例如在卫星地图或无人机镜头中。然而,在更为传统的日常视频传输(如监控或交通摄像头)中,由于对特定角度和方向进行了优化,它的效率可能会降低。这意味着,虽然它在某些特定的应用程序中具有很强的能力,但在处理典型的现实视频中看到的对象的不同方向时,它可能不那么有效。

例如: 在一个有标准安全摄像头的零售环境中,YOLO11可能需要额外的调整来处理不同的对象透视图。

结论

YOLO11代表了实时目标检测的一个重大飞跃,以更快的处理速度、更少的参数和更高的精确度推动了边界。它的多功能性使它能够胜任广泛的计算机视觉任务,从自动驾驶到工业自动化。然而,与任何尖端技术一样,任务特定的微调对于在专门应用程序中充分发挥其潜力至关重要。虽然它在像空中目标检测这样的场景中大行其道,但它在传统视频中的表现可能需要额外的优化。

最终,YOLO11的轻量级架构、增强的速度和灵活性使其成为跨不同行业的开发人员和研究人员的强大工具。随着计算机视觉的不断发展,YOLO11为实时检测和分类提供了一个新的基准。

原文地址:https://medium.com/@nandinilreddy/exploring-yolo11-faster-smarter-and-more-efficient-f4243d910d1e

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1557911.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

如何绘制短剧产业链图谱?短剧产业前景如何?

绘制短剧产业链图谱是一个涉及多个环节的复杂过程。我们首先需要确定产业链的主要环节,包括内容创作、制作、发行、宣传和观众。每个环节都由不同的参与者组成,如编剧、导演、演员、制作公司、版权销售商、在线平台、电视台、广告公司和消费者等&#xf…

51.哀家要长脑子了!

1.P1003 [NOIP2011 提高组] 铺地毯​​​​​​ 重复 模拟 要求覆盖在最上面的地毯编号,用四个数组abgk分别记录地毯起点的左下角横纵坐标,地毯的长度宽度,输入的坐标x y 当它满足大于等于左下角坐标 并且 小于等于 地毯左下角横纵坐标的时候…

Authentication Lab | IP Based Auth Bypass

关注这个靶场的其它相关笔记:Authentication Lab —— 靶场笔记合集-CSDN博客 0x01:IP Based Auth Bypass 前情提要 有些开发人员为了图方便,会给站点设置一个 IP 白名单,如果访问站点的用户的 IP 在白名单内,则允许访…

使用sponge+dtm快速搭建一个高性能的电商系统,秒杀抢购和订单架构的设计与实现

本文将展示如何使用 Sponge 框架快速创建一个简易版高性能电商系统,主要实现秒杀抢购和订单功能,并通过分布式事务管理器 DTM 来确保数据一致性。电商系统的架构图如下: 这是源码示例eshop,目录下包括了两个一样的代码示例&#x…

前端反接保护:实用方案解析与探讨

前端反接保护通常采用肖特基二极管方案或PMOS/NMOS方案,本文另外介绍一种理想二极管方案。 1、肖特基二极管方案 由于肖特基二极管具有正向导通电压,只能用于小电流场合,甚至于直接使用普通的整流二极管。比如1A电流,设D1的正向…

【含文档】基于Springboot+Android的环境保护生活App(含源码+数据库+lw)

1.开发环境 开发系统:Windows10/11 架构模式:MVC/前后端分离 JDK版本: Java JDK1.8 开发工具:IDEA 数据库版本: mysql5.7或8.0 数据库可视化工具: navicat 服务器: SpringBoot自带 apache tomcat 主要技术: Java,Springboot,mybatis,mysql,vue 2.视频演示地址 3.功能 系统定…

网络编程(15)——服务器如何主动退出

十五、day15 服务器主动退出一直是服务器设计必须考虑的一个方向,旨在能通过捕获信号使服务器安全退出。我们可以通过asio提供的信号机制绑定回调函数即可实现优雅退出。 之前服务器的主函数如下 #include "CSession.h" #include "CServer.h"…

电影《749局》路演 苗苗演绎超能力少女分享幕后故事

近日,国庆档科幻电影《749局》正在热映中,各主创们以及导演正在积极路演中,截至目前,主演苗苗已到过宁波、杭州、武汉、长沙等城市,在现场与观众热情互动,讲述电影拍摄背后的故事与感受。根据猫眼专业版数据…

Word转PDF的转换方法有哪些?这7个效率技巧,不知道就亏大了!

Word转PDF怎么转?我们在日常工作生活中,经常会用到word文档。如果是编写报告、做会议记录、制定文案等内容,一般都会选择创建word文档。但是如果需要发送给同事、客户或合作伙伴协作时,pdf格式会更加方便。 那么如何将word转为pdf…

Chapter06

6.3.1 &#xff08;1&#xff09;打印如下图案 #include <stdio.h> int main() {int i, j;int n 5; // 定义图案的行数 for (i 1; i < n; i) {// 打印前导空格 for (j 1; j < n - i; j) {printf(" ");}// 打印数字 for (j 1; j < i; j) {p…

永磁同步电机环路反步法(backstepping)控制

文章目录 1、反步控制原理1.1 李雅普诺夫稳定性定理1.2 严格反馈系统1.3 一般设计流程 2、永磁同步电机反步控制2.1 反步控制器设计2.2 反步控制仿真 参考 写在前面&#xff1a;本人能力、时间、技术有限&#xff0c;没有对一些细节进行深入研究和分析&#xff0c;也难免有不足…

【Canvas与艺术】古典绿墙象牙白框红棱六边形窗格

【成图】 【代码】 <!DOCTYPE html> <html lang"utf-8"> <meta http-equiv"Content-Type" content"text/html; charsetutf-8"/> <head><title>古典六边形窗格Draft1</title><style type"text/css&q…

YOLOv10改进策略【注意力机制篇】| CVPR2024 CAA上下文锚点注意力机制

一、本文介绍 本文记录的是基于CAA注意力模块的YOLOv10目标检测改进方法研究。在远程遥感图像或其他大尺度变化的图像中目标检测任务中&#xff0c;为准确提取其长距离上下文信息&#xff0c;需要解决大目标尺度变化和多样上下文信息时的不足的问题。CAA能够有效捕捉长距离依赖…

嵌入式 c 内存堆栈增长方向往低地址方向好处

如下是堆和栈内存空间使用方式有如下好处&#xff1a; 1、stack从高地址向低地址扩展&#xff0c;这样栈空间的起始位置就能确定下来&#xff1b;如果反向&#xff0c;则要考虑这个起点从哪里合适&#xff0c;要确定堆的大小。 2、可以共用中间部分区域空间&#xff0c;最大化…

高速电路中电源设计问题

DCDC芯片都有一个开关频率&#xff0c;选型的时候注意一点这个问题。 纹波&#xff1a;纹波是电源波动中的低频部分&#xff0c;一般处于5Mhz以内的频段&#xff0c;铲子来自MOS的开关动作。 噪声&#xff1a;噪声值电源波动的高频部分&#xff0c;一般高于5Mhz,成分比较复杂…

UE5运行时动态加载场景角色动画任意搭配-角色及动画(一)

通过《MMD模型及动作一键完美导入UE5》系列文章,我们可以把外部场景、角色、动画资产导入UE5,接下来我们将实现运行时动态加载这些资产,并任意组合搭配。 1、骨骼动画复用 1、大部分模型骨骼是不通用的,比如这些裙子也是有骨骼的,属于模型特有的,但是对于动画来说,很多…

OmniCorpus数据集:最大(百亿级别)多模态数据集

2024-06-12 &#xff0c;由上海人工智能实验室、哈尔滨工业大学、南京大学、复旦大学等联合创建OmniCorpus&#xff0c;一个达到百亿级别的图文交错数据集。它不仅规模空前&#xff0c;更以其多元化的数据来源和高质量的数据内容&#xff0c;为多模态大语言模型的研究提供了坚实…

Axure大屏可视化模板在多领域实践应用案例分析

Axure大屏可视化模板&#xff0c;凭借其强大的功能性和灵活性&#xff0c;在众多领域中发挥着举足轻重的作用。本文将详细探讨Axure大屏可视化模板在农业、园区管理、智慧城市、企业数据可视化和医疗领域的应用案例&#xff0c;展示其如何助力各行业实现智能化管理和决策优化。…

Mythical Beings:Web3游戏如何平衡创造内容、关注度与实现盈利的不可能三角

Web3游戏自其诞生以来&#xff0c;以去中心化和独特的代币经济体系迅速引起关注。然而&#xff0c;如何在创造内容、吸引用户和实现盈利之间达到平衡&#xff0c;始终是Web3游戏面临的核心挑战。Mythical Beings作为一款Web3卡牌游戏&#xff0c;通过创新设计和独特机制&#x…

【LeetCode: 1436. 旅行终点站 | 哈希表】

&#x1f680; 算法题 &#x1f680; &#x1f332; 算法刷题专栏 | 面试必备算法 | 面试高频算法 &#x1f340; &#x1f332; 越难的东西,越要努力坚持&#xff0c;因为它具有很高的价值&#xff0c;算法就是这样✨ &#x1f332; 作者简介&#xff1a;硕风和炜&#xff0c;…