视觉Transformer(ViT) :全面超越CNN,看懂这篇文章就没什么能难倒你了!

【视觉Transformer】(Vision Transformer, ViT) 是一种革命性的技术,它将Transformer架构应用于视觉识别任务,通过自注意力机制来捕捉图像中的特征关系,显著增强了模型对视觉信息的解析力。这一领域的研究不仅打破了传统卷积神经网络(CNN)在特征提取方面的限制,还为计算机视觉带来了全新的模型设计和更强的表征能力,从而在图像分类、目标检测、语义分割等多个领域实现了性能的飞跃。此外,视觉Transformer的研究深化了我们对深度学习中注意力机制的理解,并激发了模型设计的创新,如通过局部注意力机制降低计算成本,或通过结构性重参数化提高效率。视觉Transformer的进展为处理跨模态任务和大规模视觉识别挑战提供了新的工具,推动了人工智能在视觉识别领域的快速发展。

为了促进对【视觉Transformer】技术的深入理解和创新,我们精心汇总了近两年内该领域在顶级会议和期刊上发表的15篇重要研究成果。这些论文涵盖了最新的理论进展、实验方法和应用案例,同时提供了相应的代码资源,以期为研究人员和实践者提供丰富的学术参考和灵感启发。希望通过这份精心整理的资料,能够帮助大家在视觉Transformer的研究和应用上取得新的突破。

三篇论文解析

1、Super Vision Transformer: Revisiting Activation Sparsity for Efficient High-Resolution Vision Transformer

方法
  • SuperViT (Super Vision Transformer): 提出了一种新的训练范式,通过训练一个能够处理不同尺寸输入图像并且能够在多种计算成本下提供改进图像识别性能的ViT模型。

  • 多尺寸补丁分割: 将输入图像复制到多个并行分支中,每个分支负责特定尺寸的局部补丁分割,以注入不同尺寸补丁的信息。

  • 多令牌保持率: 在训练过程中考虑多种令牌保持率,以挖掘图像中的冗余区域并减少计算成本。

  • 硬件效率: SuperViT能够在不同硬件资源条件下动态适应,通过调整输入图像的补丁大小和令牌保持率来实现快速的准确性-效率权衡。

  • 训练目标: 使用交叉熵损失和Kullback-Leibler散度来训练SuperViT,以处理不同尺寸的补丁和不同的令牌保持率。

创新点
  • 激活稀疏性的重新审视: 提出了一种新的训练范式,使得一个ViT模型能够在保持高分辨率信息的同时,根据当前可用的硬件资源动态调整其复杂性。

  • 多尺寸和多保持率的训练: 通过在训练过程中考虑多种补丁尺寸和令牌保持率,SuperViT能够在测试阶段适应不同的计算成本,从而提高性能。

  • 硬件效率的优化: SuperViT能够在各种硬件平台上实现高效的部署,甚至在相同工作站上的硬件资源(如电池条件或工作负载)发生变化时,也能够通过简单地调整输入图像的补丁大小和令牌保持率来实现即时和自适应的准确性-效率权衡。

  • 提高ViT模型的计算效率: 通过减少令牌数量和在训练过程中注入多尺寸补丁的信息,SuperViT在减少计算成本的同时,甚至能够提高模型的性能。

  • 一种新的训练目标: 通过结合交叉熵损失和Kullback-Leibler散度,SuperViT能够在训练过程中同时考虑不同尺寸的补丁和不同的令牌保持率,从而实现更好的性能。

IMG_256

2、Vicinity Vision Transformer

方法

Vicinity Vision Transformer (VVT) 是一种新型的视觉Transformer骨干网络,它通过以下方法来提高视觉任务的性能和计算效率:

  • Vicinity Attention:提出了一种新型的线性注意力机制,称为Vicinity Attention,它通过2D曼哈顿距离来调整图像块之间的注意力权重,从而使相邻的图像块获得更强的注意力。

  • Feature Reduction Attention (FRA):为了解决线性注意力在特征维度上的二次方计算复杂度问题,提出了FRA,它通过减少输入特征维度来降低计算复杂度。

  • Feature Preserving Connection (FPC):为了弥补FRA可能带来的特征信息损失,引入了FPC,它通过额外的跳跃连接来保留原始特征分布,增强特征提取能力。

  • 金字塔结构:VVT采用金字塔结构,从高分辨率的图像块开始,逐步缩小尺寸以适应不同视觉任务的多尺度输出需求。

创新点
  • 2D局部性引入:VVT首次在视觉Transformer的线性自注意力中引入了2D局部性偏置,这有助于模型更好地理解和处理图像中的局部特征。

  • 线性复杂度的自注意力:通过Vicinity Attention,VVT实现了线性复杂度的自注意力计算,这使得模型能够处理更高分辨率的图像,同时保持计算效率。

  • Vicinity Attention Block:提出了一种新的注意力结构,即Vicinity Attention Block,它结合了FRA和FPC,不仅减少了计算量,还保持了模型的准确性。

  • 多尺度特征输出:VVT的金字塔结构能够生成不同尺度的特征图,这使得它能够适应各种视觉任务,如图像分类和语义分割。

  • 参数和计算效率:在保持或提高性能的同时,VVT在参数数量和计算量上都比现有的Transformer和卷积网络更高效,尤其是在处理高分辨率输入时。

IMG_257

3、WetMapFormer: A unified deep CNN and vision transformer for complex wetland mapping

方法

WetMapFormer 是一种结合了深度卷积神经网络(CNN)和视觉变换器(ViT)的深度学习算法,用于精确映射复杂湿地。具体方法包括:

  • 特征提取器:使用3D和2D卷积操作来提取光学和SAR数据的特征。

  • 深度可分离卷积块:采用轻量级的CNN架构,通过并行的深度可分离卷积来提取多尺度特征。

  • 局部窗口注意力(Local Window Attention, LWA):代替传统的自注意力机制,通过限制每个查询令牌的感受野到其邻域区域,以提高局部特征泛化能力,同时显著降低计算成本。

  • 编码器-解码器架构:采用编码器-解码器网络来进一步提取和细化特征。

  • 前馈网络(Feed-Forward Network, FFN):使用密集层对特征进行进一步的处理,以生成类别概率。

创新点
  • CNN与ViT的融合:提出了一种新的深度学习框架,有效结合了CNN和视觉变换器架构,以提高湿地分类的准确性。

  • 局部窗口注意力(LWA):开发了一种新的注意力机制,与常规的自注意力相比,能够减少计算成本,同时保持特征提取的有效性。

  • 计算效率:与原始ViT相比,WetMapFormer通过LWA显著降低了计算成本,使得模型更适合于大规模湿地制图。

  • 特征提取的改进:通过3D和2D卷积的结合,以及深度可分离卷积的使用,提高了特征提取的能力,尤其是在处理光学和SAR数据时。

  • 数据集和实验验证:在加拿大新不伦瑞克省的三个试点地区使用Sentinel-1和Sentinel-2卫星数据进行了广泛的实验验证,并与多种CNN和视觉变换器模型进行了比较,证明了WetMapFormer的有效性。

IMG_258

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/143007.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

KDD 2024论文分享┆STAMP:一种基于时空图神经网络的微服务工作负载预测方法

论文分享简介 本推文详细介绍了一篇最新论文成果《Integrating System State into Spatio Temporal Graph Neural Network for Microservice Workload Prediction》,论文的作者包括:上海交通大学先进网络实验室: 罗旸、高墨涵、余哲梦,高晓沨…

AI编程的特点及SCSAI平台在AI编程方面的一些思路

团长团 AI智造AI编程 2024年09月18日 18:25 北京 说先来看看AI编程的优缺点,然后我们再看看SCSAI在AI编程方面的一些可能选择 使用AI编程的优点 ‌AI编程的优点包括提升编程效率、降低编程门槛、优化程序结构、加强软件可靠性、促进跨领域融合,而缺点则…

supermap iclient3d for cesium中的平移,旋转

昨天写的模型机头不是速度的方向 基础知识 屏幕坐标系,笛卡尔空间直角坐标系,大地坐标系 平移和旋转都是基于笛卡尔空间直角坐标系,也就是基于地心。但是我们想实现模型的旋转是基于模型的局部坐标系,那么就要坐标转换。 向量归…

秒懂C++之特殊类设计

目录 设计一个类,不能被拷贝 设计一个类,只能在堆上创建对象 设计一个类,只能在栈上创建对象 设计一个类,无法被继承 设计一个类,只能创建一个对象(单例模式) 饿汉模式 懒汉模式 设计一个类,不能被拷…

从数据仓库到数据中台再到数据飞轮:我了解的数据技术进化史

这里写目录标题 前言数据仓库:数据整合的起点数据中台:数据共享的桥梁数据飞轮:业务与数据的双向驱动结语 前言 在当今这个数据驱动的时代,企业发展离不开对数据的深度挖掘和高效利用。从最初的数据仓库,到后来的数据…

字节跳动冯佳时:大语言模型在计算机视觉领域的应用、问题和我们的解法

演讲嘉宾|冯佳时 编辑 |蔡芳芳 近年来,大语言模型 (LLMs) 在文本理解与生成领域取得了显著进展。然而,LLMs 在理解和生成自然信号(例如图像,视频)等,还处在比较早期的探索阶段。为…

单例模式(饿汉式-懒汉式)

我给面试官讲解了单例模式后,他对我竖起了大拇指!https://blog.csdn.net/weixin_41949328/article/details/107296517?ops_request_misc%257B%2522request%255Fid%2522%253A%2522FAEE9ABD-432D-416C-98C6-9DD939138DEB%2522%252C%2522scm%2522%253A%252…

HTML中的文字/分区标记/特殊符号

1.font标记&#xff1a;用来设置文字的字体&#xff0c;大小&#xff0c;颜色&#xff0c;等属性 <!--font:font标记用来设置字体大小颜色属性size:设置字号&#xff0c;默认是3号&#xff0c;1表示4号&#xff0c;-1表示2号&#xff0c;取值范围是[1,7]或[-7,-1]color:设置…

【Manim】用manim描述二次曲面——上

二次曲面是可以化为一般形式的任意方程的图形 这里面A,...,J是常数。我们不可能把它们都列出来&#xff0c;但是有一些标准方程所以这里是一些更常见的二次曲面的列表。 1. 椭球体 这是椭球体的一般方程。。 这是一个典型椭球体的草图。 接下来我们用Manim实现该椭球体的绘制…

【CanMV K230 AI视觉】 人脸识别

【CanMV K230 AI视觉】 人脸识别 人脸识别 动态测试效果可以去下面网站自己看。&#xff09; B站视频链接&#xff1a;已做成合集 抖音链接&#xff1a;已做成合集 人脸识别 前面学习过的人脸检测&#xff0c;只检测出人脸&#xff0c;而本实验要做的人脸识别&#xff0c;会学…

嵌入式人工智能项目及人工智能应用项目——大合集列表查阅

本文的项目合集列表可能更新不及时&#xff08;会及时更新&#xff09;&#xff0c;可查阅实时更新的链接如下。 嵌入式人工智能及人工智能应用项目合集实时更新链接如下&#xff1a; 阿齐嵌入式人工智能及人工智能应用项目合集 (kdocs.cn)https://www.kdocs.cn/l/cc97tuieys4…

Python urllib

Python urllib 库用于操作网页 URL&#xff0c;并对网页的内容进行抓取处理。 本文主要介绍 Python3 的 urllib。 urllib 包 包含以下几个模块&#xff1a; urllib.request - 打开和读取 URL。urllib.error - 包含 urllib.request 抛出的异常。urllib.parse - 解析 URL。url…

心觉:不能成事的根本原因

很多人一直都很努力&#xff0c;每天都很忙 每天都学习很多东西&#xff0c;学习各种道&#xff0c;各种方法论 但是许多年过去了依然一事无成 自己的目标没有达成&#xff0c;梦想没有实现 为什么呢 关键是没有开悟 那么什么是开悟呢 现在很多人都在讲开悟 貌似开悟很…

回收站永久删除的文件还能恢复吗?教你恢复技巧

在数字时代&#xff0c;电脑是我们工作、学习和娱乐的重要工具。然而&#xff0c;随着我们对电脑的频繁使用&#xff0c;误删文件的情况也时有发生。当我们在回收站中不小心永久删除了某个重要文件时&#xff0c;内心可能会充满焦虑和疑惑&#xff1a;这些文件还能恢复吗&#…

基于springboot+vue实现的智能垃圾分类系统 (源码+L文+ppt)4-063

摘 要 本论文主要完成不同用户的权限划分&#xff0c;不同用户具有不同权限的操作功能&#xff0c;系统包括用户、物业和管理员模块&#xff0c;主要功能有用户、物业、垃圾站点、垃圾投放、验收信息、积分商城、积分充值、通知物业等管理操作。 关键词&#xff1a;智能垃圾…

【LLM】中国在 GPT/LLM 大模型上是否已经实现了弯道超车?

还是谈一下现状吧。中国的大模型公司与美国的大模型公司其实在数量上可能中国更多一些吧。 美国的 OpenAI&#xff1a;No.1&#xff0c;毫无疑问&#xff01;Google&#xff1a;尽管落了&#xff0c;但是依然是全球第二的实力吧&#xff1f;Meta&#xff1a;开源全靠它家的Ll…

【代码随想录训练营第42期 Day60打卡 - 图论Part10 - Bellman_ford算法系列运用

目录 一、Bellman_ford算法的应用 二、题目与题解 题目一&#xff1a;卡码网 94. 城市间货物运输 I 题目链接 题解&#xff1a;队列优化Bellman-Ford算法&#xff08;SPFA&#xff09; 题目二&#xff1a;卡码网 95. 城市间货物运输 II 题目链接 题解&#xff1a; 队列优…

Untangle电脑上网行为管理软件有哪些?(一口气看完,第一款建议收藏!)

控制上网的软件通常被称为上网行为管理软件或上网行为监控软件。 这类软件主要用于管理网络用户的上网行为&#xff0c;帮助企业或组织提升网络使用效率和工作效率&#xff0c;同时最大限度地避免不当上网行为带来的潜在风险和损失。 以下是一些值得推荐的电脑上网行为管理软件…

【C++】——继承与虚继承

文章目录 继承继承的概念继承的定义继承类模版基类与派生类的赋值转换继承的作用域派生类的默认成员函数构造函数与析构函数拷贝构造 不能被继承的类继承与友元继承与静态成员多继承与菱形继承 虚继承继承与组合 继承 什么是继承&#xff1f; 继承其实就是胆码复用的一种手段&…

江科大笔记—OLED显示屏

OLED显示屏 OLED的GND接到负极&#xff0c;OLED的VCC接正极&#xff0c;同时也会接到stm32上的PB6和PB7 SCL接PB8 SDA接PB9 在Hardware文件夹里面放3个文件&#xff1a;OLED.c、OLED.h、OLED_Font.h OLED_Font.h:存的是OLED的字库数据&#xff0c;因OLED是不带字库的&#xf…