新一代大核卷积反超ViT和ConvNet!同参数量下性能、精度、速度完胜

大核卷积网络是CNN的一种变体,也是深度学习领域的一种重要技术,它使用较大的卷积核来处理图像数据,以提高模型对视觉信息的理解和处理能力。

这种类型的网络能够捕捉到更多的空间信息,因为它的大步长和大感受野可以一次性覆盖图像的更多区域。比如美团提出的PeLK网络,内核大小可以达到101x101,同参数量下性能反超 ViT,目前已被CVPR 2024收录。

更值得一提的,大核卷积网络不仅在性能上有所提升,在ImageNet分类等任务上,也展现出了优于ViT和ConvNet架构的效果。比如腾讯+港中文提出的UniRepLKNet,只用ImageNet-22K预训练,精度和速度SOTA,ImageNet达到88%。

当然效果惊人的成果远不止这些,我这次挑选了10个大核卷积网络最新创新方案,开源的项目代码都有,供有论文需求的同学参考学习。

论文原文以及开源代码需要的同学看文末

PeLK: Parameter-efficient Large Kernel ConvNets with Peripheral Convolution

方法:论文提出了外围卷积,通过参数共享有效减少了密集网格卷积 90% 以上的参数数量,并设法将内核尺寸扩大到极大。在此基础上,作者提出了参数高效的大核网络(PeLK)。

创新点:

  • 密集网格卷积(Dense Grid Convolution)相较于条纹卷积(Stripe Convolution)具有持续的优势,无论是在多种核大小下还是在不同的任务中,密集网格卷积都能够表现出更好的性能。

  • 引入人类外周视觉机制(Peripheral Vision)的概念来提高大核卷积网络的参数效率,通过参数共享有效地减少了密集网格卷积的参数数量,并且能够将卷积的复杂性从O(K^2)降低到O(log K)。

UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition

方法:论文探索了大卷积核的卷积神经网络(ConvNet)的架构设计和在多模态领域的通用感知能力,填补了现有大卷积核ConvNet的架构设计不足和在非视觉领域的应用研究空白,通过提出四个架构准则设计了UniRepLKNet,并在图像识别、时间序列预测和音频识别等任务上取得了领先的性能,验证了大卷积核的重要性和ConvNet的通用感知能力。

创新点:

  • 大核ConvNet架构设计:
    • 提出了四个关于大核ConvNet设计的指导原则,其中核心原则是利用大核与小核的本质区别,即大核可以在不加深网络的情况下实现更广阔的感受野。

    • 根据这些指导原则,提出的大核ConvNet在图像识别任务中取得了领先的性能,相比于其他强大的竞争模型,具有更好的性能和更高的速度。

  • 大核ConvNet在多模态领域的普适感知能力:
    • 发现大核ConvNet在原本不擅长的领域具有出色的性能表现。通过特定的模态相关预处理方法,该模型在时间序列预测和音频识别任务上实现了业界领先的性能,即使没有进行模态特定的架构定制化。

    • 证明了大核ConvNet在多模态任务中的卓越性能,为ConvNet在新领域的应用开辟了新的可能性。

LSKNet: Large Selective Kernel Network for Remote Sensing Object Detection

方法:论文主要介绍了一种用于遥感目标检测的新方法,即大型选择性核网络(LSKNet)。LSKNet的整体架构基于最近流行的结构,并使用了重复的构建块。作者通过定义Rc作为期望选择RF区域与GT边界框区域的比例来研究每个目标类别的感受野范围。

创新点:

  • 作者首次尝试将大核卷积应用于遥感目标检测,并研究了其在这一领域的重要性。通过将大核卷积分解为两个深度卷积核,作者提出了一种适用于遥感的LSKNet架构,能够充分利用遥感图像的特点,实现对不同对象类型的广泛和可适应的上下文理解。

  • 作者提出了一种空间选择机制,用于在不同尺度上从大卷积核中选择特征图。通过通道平均池化和通道最大池化,作者有效地提取了特征之间的空间关系,并使用卷积层将池化特征转换为空间注意力图。然后,通过相应的空间选择掩码,对分解的大核卷积特征进行加权并融合,以获得最终的关注特征。

Shift-ConvNets: Small Convolutional Kernel with Large Kernel Effects

方法:论文提出了一种新的操作符,通过正则卷积实现大卷积核效果,从而在广泛的设备范围内实现了CNN的最新进展。论文还提出了一种新的剪枝操作,通过粗粒度剪枝实现了稀疏组卷积。同时,论文还提出了一种基于偏移操作的算子来改进卷积操作,并将其应用于改进的模块结构中。

创新点:

  • 通过使用shift-wise操作,作者实现了使用标准卷积进行大卷积核效果,并通过剪枝得到了稀疏组卷积。这一方法能够将大卷积核的效果与标准CNN的先进性结合起来,拓展了CNN的应用领域。

  • 作者提出了一种新的shift-wise操作方法,通过将输入特征进行分组和位移,模拟多个卷积核尺寸,从而创建多个输出分支。然后,将这些输出分支合并为一个单一的分支。这种方法能够在保持整体网络结构不变的同时,不断优化数据流形的依赖关系。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“大核卷积”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1451425.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

填报志愿选大学专业,文科生如何选专业?

读文科的同学接触的专业知识相对广泛,往往被认为是“万金油”,他们仿佛什么都能做,但是和专业技能类知识不同,缺乏技术支持,从而使得文科专业的就业方向和前景远远比不上理科专业那么明朗,对于众多文科生而…

加速“芯”动力 | 2024集成电路测试工程师研修班(苏州场)报名通知

6月19日—20日,加速“芯”动力——2024集成电路测试工程师研修班正式开课。本次培训课程内容包括芯片设计测试技术分享、解决方案分享、ATE编程接口介绍、ATE向量微指令、ATE量产界面介绍、测试开发基础培训、程序开发实训等内容,感兴趣的小伙伴&#xf…

【智能家居控制系统项目】一、项目系统镜像烧录与系统登录

前言 完成本章节将可以获得本项目的系统UI界面功能。本章节主要介绍如何烧录项目系统镜像以及进入系统。配套的视频介绍可以点击跳转到智能家居项目复刻配套视频 1.系统功能页面介绍 完成本章全部步骤,我们将可使用以下项目系统功能界面。 1.1 家居总览界面 主界面…

热门开源项目OpenHarmony

目录 1.概述 1.1.开源项目的意义 1.2.开源项目对软件行业的促进作用 1.3.小结 2.OpenHarmony 2.1.技术架构 2.2.分布式软总线 2.2.1.架构 2.2.2.代码介绍 2.2.2.1.代码目录 2.2.2.2.说明 2.2.2.3.发现组网和传输 2.2.2.3.1.发现 2.2.2.3.2.组网 2.2.2.3.3.传输…

从0到1:手动测试迈向自动化——手机web应用的自动化测试工具

引言: 在当今移动互联网时代,手机web应用已经成为人们生活中不可或缺的一部分。为了保证手机web应用的质量和稳定性,自动化测试工具变得十分重要。本文将介绍手机web应用自动化测试工具的选择和使用,提供一份超详细且规范的指南&a…

160. 相交链表 (Swift版本)

题目描述 最简单直接的解法 遍历 headA 的所有节点, 看 headB 中是否有相交的节点 /*** Definition for singly-linked list.* public class ListNode {* public var val: Int* public var next: ListNode?* public init(_ val: Int) {* self.val val*…

(三十)Flask之wtforms库【剖析源码上篇】

每篇前言: 🏆🏆作者介绍:【孤寒者】—CSDN全栈领域优质创作者、HDZ核心组成员、华为云享专家Python全栈领域博主、CSDN原力计划作者 🔥🔥本文已收录于Flask框架从入门到实战专栏:《Flask框架从入…

Nacos启动报错

报错日志: Caused by: java.lang.NullPointerException at com.mysql.jdbc.ConnectionImpl.getServerCharset(ConnectionImpl.java:2983) at com.mysql.jdbc.MysqlIO.sendConnectionAttributes(MysqlIO.java:1873) at com.mysql.jdbc.Mysql…

为Windows鼠标增加个性功能的软件

一、简介 1、是一款专为Windows操作系统设计的桌面增强工具,它允许用户通过简单的鼠标操作来管理和控制窗口,从而提高工作效率。根据搜索结果,for Windows提供了多种功能,如在屏幕的四个角落添加快捷键、窗口置顶、窗口最小化、快…

python中的turtle

turtle个别指令 初始箭头默认指向为东(右) 往前(右)三个格:turtle.forward(3) 往后(左)三个格:turtle.backward(3) 往左转90度:turtle.left(90) 往右转90度&#xf…

干G货,性能测试基本方法和原则,

一、性能测试关键点 评估性能指标——线程tps(可架构给) 吞吐量qps(可架构给) 错误率(可架构给) 平均响应时间(可架构给)模拟线上数据量了解接口有没有缓存,有缓存的需要…

人工智能内容标签和披露:指南、样本和最佳实践

AI Content Labeling and Disclosure: Guidelines, Samples & Best Practices 【前言】当我们谈论人工智能生成的内容时,话题很快转向了透明度和信任的重要性。随着人工智能继续塑造数字景观,对内容标签和披露的明确指导方针的需求变得至关重要。无…

【数据质量人人有责】数据质量是什么?

引言:数据是当代企业的核心资源之一,对于支持业务决策、优化运营和增强竞争力至关重要。然而,仅仅拥有数据并不意味着能够充分发挥其潜在价值。只有先确保数据质量,才能保证后续数据分析和挖掘的正确的结果对管理和业务有价值&…

C++ 06 之 c++增强

c06c增强.cpp #include <iostream>using namespace std; // 1、全局变量检测增强&#xff1a;可以检测出重定义 (c语言不会报错&#xff0c;但是C会报错) //int a; //int a 10;// 2、函数检测增强: 函数返回值类型、形参类型、实参个数 int sum(int a, int b) {return …

MBTI:探索你的性格类型

人不走空 &#x1f308;个人主页&#xff1a;人不走空 &#x1f496;系列专栏&#xff1a;算法专题 ⏰诗词歌赋&#xff1a;斯是陋室&#xff0c;惟吾德馨 目录 &#x1f308;个人主页&#xff1a;人不走空 &#x1f496;系列专栏&#xff1a;算法专题 ⏰诗词歌…

vmmare虚拟机没有被分配ip地址问题;NAT模式下一直变化问题

打开任务管理器–>服务–>找到与VM和server相关的服务 发现NAT和DHCP服务被关闭了 尝试启动&#xff0c;报错 尝试一 虚拟网络编辑器点击还原默认设置 尝试二 可以了 ip变化 更改租用时长

短视频矩阵系统/源码搭建---拆解热门视频功能开发上线

短视频矩阵系统/源码搭建 一、短视频矩阵系统源码开发需要用到以下技术&#xff1a; 1.前端技术&#xff1a;HTML、CSS、JavaScript、Vue.js等前端框架。 2.后端技术&#xff1a;Java、Python、PHP等后端语言及相关框架&#xff0c;如Spring Boot、Django、Laravel等。 3.移…

macOS Sequoia 将 Mac 生产力与智能化提升至全新高度

本文转载自 官方新闻&#xff1a;https://www.apple.com.cn/newsroom/2024/06/macos-sequoia-takes-productivity-and-intelligence-on-mac-to-new-heights/ 文章目录 1、借助 iPhone 镜像 直接在 Mac 上无线使用 iPhone2、Safari 浏览器迎来重大更新3、升级的游戏体验与备受瞩…

Eclipse 单步调试的时候报错,通过一些设置处理下。

先帖张图&#xff1a; 勾选不提醒。 1、通过Java Compiler&#xff0c;进行设置: 然后设置以后&#xff0c;进入调试&#xff0c;还是 报上面的错&#xff0c;有的小伙伴说是先去勾选&#xff0c;然后确认。 然后再选择&#xff0c;确认。 2、设置Jdk为自己安装的。 设置成功后…

爆肝三天,制作属于自己的地图——DAY3(地图数据发布详细教程)

4&#xff0c;重建顶层。 倾斜摄影数据的组织方式&#xff0c;一个 Data 目录下的 Tile 可能会成千上万&#xff0c;如果不使用重建顶层&#xff0c;那么输出的3DTiles的包围盒会非常非常多&#xff0c;增加加载时长。重建顶层&#xff0c;程序会根据瓦片的空间结构关系采用八…