YOLOv8改进，YOLOv8添加STA注意机制（超级令牌注意力机制，CVPR2023），并二次创新C2f结构，助力涨点

YOLOv8改进，YOLOv8添加STA注意机制（超级令牌注意力机制，CVPR2023），并二次创新C2f结构，助力涨点

news/2024/9/24 5:51:31/文章来源:https://blog.csdn.net/weixin_44779079/article/details/142454831

在这里插入图片描述
改进前训练结果：

改进后训练结果：

摘要

在Transformer架构引入“超级令牌”（Super Token）的机制，旨在解决浅层网络中过多冗余的局部特征捕捉问题。传统的Transformer在捕捉长程依赖性方面表现出色，但在浅层网络中，由于局部特征冗余，导致了计算效率的低下。为了解决这一问题，STViT（Super Token Vision Transformer）通过借鉴超像素（superpixels）的设计思想，将视觉内容划分为“超级令牌”，从而降低计算复杂度并保留全局信息建模的能力。因此在 YOLOv8 添加 STA 机制来对视觉内容进行更高效的表征，能够有效捕捉图像中的全局依赖关系，在复杂的场景下，识别物体时也能够处理较远距离的依赖性，有助于提升精度。

理论介绍

Super Token Vision Transformer (STViT)的架构如下；

输入与卷积干层 (Conv Stem)，首先，输入通过一个卷积干层（Conv Stem），该层包含多个3×3的卷积层，以提取图像的基本特征。
STT（Super Token Transformer）块，在卷积干层之后，输入到 Super Token Transformer (STT) 块中。STT 块是该模型的核心部分，其中每个 STT 块又分为三个子模块：CPE 、Super Token Attention (STA) 和 ConvFFN 。 CPE 模块是通过卷积操作为每个输入特征添加位置信息，用于学习输入图像的绝对位置编码，与传统的绝对位置编码（APE）和相对位置编码（RPE）相比，CPE 能够更灵活地处理不同分辨率的输入图像；STA 模块是 STViT 的核心机制，是提高全局建模能力，首先，视觉令牌（Visual Tokens）通过一个稀疏关联学习过程被聚合成超级令牌（Super Tokens），类似于通过分割减少了视觉内容的冗余。令牌与超级令牌之间通过稀疏关联计算它们的关联度，这个过程的计算复杂度较低，主要是因为只与邻近的超级令牌进行计算，对生成的超级令牌执行多头自注意力操作（MHSA），以捕捉全局依赖，这一步通过减少比较对象来降低计算成本。最后，将超级令牌的表示通过上采样映射回原始的视觉令牌空间，从而完成全局信息的整合； ConvFFN 是 STT 中的最后一步，它增强了局部特征的表征能力。
STViT 采用了层次化结构，通过多个 STT 块来进行特征提取：Stage 1 到 Stage 4：每个阶段有若干个 STT 块࿰

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.xdnf.cn/news/1543912.html

如若内容造成侵权/违法违规/事实不符，请联系一条长河网进行投诉反馈，一经查实，立即删除！

相关文章

Nginx基础详解1（单体部署与集群部署、负载均衡、正反代理、nginx安装）

Nginx基础详解1（单体部署与集群部署、负载均衡、正反代理、nginx安装）

本阶段的任务 1.学会集群的操作概念 2.完成对Nginx的入门操作 3.使用Nginx实现集群和负载均衡 4.使用Nginx实现高可用的方案目录 1.单体部署与集群部署 1.1单体部署的概念 1.2单体部署的优缺点 1.3集群部署的概念 1.4集群部署的优缺点 1.5集群部署需要注意的点 1.…

阅读更多...

基于Springboot共享充电宝管理系统JAVA|VUE|SSM计算机毕业设计源代码+数据库+LW文档+开题报告+答辩稿+部署教+代码讲解

基于Springboot共享充电宝管理系统JAVA|VUE|SSM计算机毕业设计源代码+数据库+LW文档+开题报告+答辩稿+部署教+代码讲解

源代码数据库LW文档（1万字以上）开题报告答辩稿部署教程代码讲解代码时间修改教程一、开发工具、运行环境、开发技术开发工具 1、操作系统：Window操作系统 2、开发工具：IntelliJ IDEA或者Eclipse 3、数据库存储&#xff1a…

阅读更多...

CSS的弹性盒子模型（Flex box)

CSS的弹性盒子模型（Flex box)

弹性盒子模型是CSS3的一种新的布局模式，弹性盒是一种当页面需要适应不同的屏幕大小以及设备类型时确保拥有合适的布局方式，引入弹性盒子模型的目的时提供更加有效的方式来对一个容器中的子元素进行排列，对齐和分配空白空间。弹性盒子由弹性容…

阅读更多...

玄机靶场--蚁剑流量

玄机靶场--蚁剑流量

木马的连接密码是多少黑客执行的第一个命令是什么 id 黑客读取了哪个文件的内容，提交文件绝对路径 /etc/passwd 黑客上传了什么文件到服务器，提交文件名黑客上传的文件内容是什么黑客下载了哪个文件，提交文件绝对路径蚁剑流量特征总结 …

阅读更多...

思维链在论文写作中的应用：借助ChatGPT构建完整、清晰的论证

思维链在论文写作中的应用：借助ChatGPT构建完整、清晰的论证

学境思源，一键生成论文初稿： AcademicIdeas - 学境思源AI论文写作 “思维链”（Chain of Thought，CoT）是一种通过逐步推理来解决复杂问题的方法，这种方法能够提高AI在某些任务上的表现。在论文写作中&#…

阅读更多...

前端——高级选择器

前端——高级选择器

1.属性选择器 2.伪类选择器 - hover 鼠标悬停状态 - active 鼠标点击状态 - focus 获取焦点状态 input使用 - checked 点击勾选状态只能单选和多选使用示例1： <!DOCTYPE html> <html lang"en"><head><meta ch…

阅读更多...

Java Web应用升级故障案例解析

Java Web应用升级故障案例解析

在一次Java Web应用程序的优化升级过程中，从Tomcat 7.0.109版本升级至8.5.93版本后，尽管在预发布环境中验证无误，但在灰度环境中却发现了一个令人困惑的问题：新日志记录神秘“失踪”。本文深入探讨了这一问题的排查与解决过程&…

阅读更多...

嵌入式Linux学习笔记（7）-Socket网络编程

嵌入式Linux学习笔记（7）-Socket网络编程

一、什么是Socket网络编程 Socket是一种抽象的编程接口，可以用于在不同主机之间进行数据通信。Socket API提供了一系列函数来创建、连接、发送和接收数据等操作。嵌入式 Linux 系统中的 Socket 网络编程是指在嵌入式系统中使用 Socket API 进行网络通信。 Socket 网…

阅读更多...

如何处理不支持网络过滤的CAN收发器失能问题

如何处理不支持网络过滤的CAN收发器失能问题

在最近的CAN网络管理开发过程中，我们遇到了一些具有挑战性的问题。客户要求我们的系统支持CAN网络管理功能，特别是需要使用ID范围在0X400至0X4FF之间的任意CAN报文来唤醒硬件。为了降低成本，我们选择了恩智浦的TJA1043T作为CAN收发器。然而…

阅读更多...

MySQL慢查询优化指南

MySQL慢查询优化指南

博客主页: 南来_北往系列专栏：Spring Boot实战前言当遇到慢查询问题时，不仅影响服务效率，还可能成为系统瓶颈。作为一位软件工程师，掌握MySQL慢查询优化技巧至关重要。今天，我们就来一场“数据库加速之旅…

阅读更多...

Vue：默认插槽

Vue：默认插槽

目录一.性质 1.内容分发 2.无名称标识 3.作用域 4.使用方式二.使用 1.父组件 2.子组件三.代码 1.父组件代码 2.子组件代码四.效果一.性质 1.内容分发默认插槽允许组件的使用者定义一些内容，这些内容会被插入到组件模板中的特定位置。这有助于实…

阅读更多...

Python画笔案例-059 绘制甩曲彩点动图

Python画笔案例-059 绘制甩曲彩点动图

1、绘制甩曲彩点动图通过 python 的turtle 库绘制甩曲彩点动图，如下图： 2、实现代码绘制甩曲彩点动图，以下为实现代码： """甩曲彩点动图.py """ import time import turtlecs = [red,orange,

阅读更多...

【既约分数 / B】

【既约分数 / B】

问题代码 #include <bits/stdc.h> using namespace std; int main() {int cnt 0;for (int i 1; i < 2020; i){for (int j 1; j < 2020; j){if (__gcd(i, j) 1)cnt;}}cout << cnt; }

阅读更多...

k8s介绍-搭建k8s

k8s介绍-搭建k8s

官网：https://kubernetes.io/ 应用部署方式演变传统部署：互联网早期，会直接将应用程序部署在物理机上优点：简单，不需要其他技术的参与缺点：不能为应用程序定义资源使用边界，很难合理地分配计…

阅读更多...

docker镜像的打包、复制、加载

docker镜像的打包、复制、加载

一、镜像打包 docker save -o /root/ollama.tar ollama/ollama 二、复制如果网络互通，则可以直接远程复制即可。如果网络不通，则可以先下载到本地再上传到目标主机。这里我直接远程复制： 将本机的ollama.tar文件复制到目标主机192.168.1.2…

阅读更多...

【Godot4.3】三角形类

【Godot4.3】三角形类

概述在GDSCript中你想要表示一个平面三角形，只需要设定3个点的位置，也就是3个Vector2就行了，或者一个size()3的PackedVector2Array。但是想要进一步处理三角形，获得它的一些几何特征，比如：某个内角的角…

阅读更多...

HOJ网站开启https访问申请免费SSL证书部署证书详细操作指南

HOJ网站开启https访问申请免费SSL证书部署证书详细操作指南

https://console.cloud.tencent.com/ 腾讯云用户登录控制台右上角搜SSL 点击 SSL证书进入链接点申请免费证书有效期3个月 （以后每三个月申请一次证书上传） 如果是腾讯云申请的域名选自动DNS验证自动添加验证记录如果是其他平台申请域…

阅读更多...

【WPF】03 动态生成控件

【WPF】03 动态生成控件

说明今天记录一篇关于动态生成控件的方法，也是反复查了一些资料，逐步完善成自己需要的方法，感觉还是比较好用的。通过这个需求，在网上也找了一些资料，发现了一个开源图形UI组件HandyControl，觉得比较好&a…

阅读更多...

【C++ 11多线程加速计算实操教程】

【C++ 11多线程加速计算实操教程】

【C 11多线程加速计算实操教程】 1. 了解线程的基本概念2. 创建线程2.1 启动线程的基本示例：2.2 运行结果 3. 线程加速计算3.1 演示如何使用多个线程计算数组的和：3.2 运行结果3.3 结果分析3.4 拓展学习 4. 互斥量（Mutex）4.1 演示…

阅读更多...

【GUI设计】基于图像边缘提取的GUI系统（5），matlab实现

【GUI设计】基于图像边缘提取的GUI系统（5），matlab实现

博主简介：matlab图像代码项目合作（扣扣：3249726188） ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~ 本次案例是基于图像边缘提取的GUI系统（5），用matlab实现。本…

阅读更多...

最新文章