【论文速看】DL最新进展20241005-Transformer、目标跟踪、Diffusion Transformer

目录

    • 【Transformer】
    • 【目标跟踪】
    • 【Diffusion Transformer】

【Transformer】

[NeurlPS 2024] Parameter-Inverted Image Pyramid Networks

机构:清华大学、上海AI Lab、上交、港中文、商汤

论文链接:https://arxiv.org/pdf/2406.04330

代码链接:https://github.com/OpenGVLab/PIIP

图像金字塔在现代计算机视觉任务中常用来获取多尺度特征,以实现对图像的精确理解。然而,图像金字塔使用相同的大尺度模型处理多个分辨率的图像,这需要显著的计算成本。为了克服这个问题,本文提出了一种新颖的网络架构,称为参数反转图像金字塔网络(Parameter-Inverted Image Pyramid Networks,PIIP)。核心思想是使用不同参数大小的模型来处理图像金字塔的不同分辨率层次,从而平衡计算效率和性能。具体来说,PIIP的输入是一组多尺度图像,其中较高分辨率的图像由较小的网络处理。进一步提出了一个特征交互机制,允许不同分辨率的特征相互补充,并有效地整合来自不同空间尺度的信息。广泛的实验表明,与传统的图像金字塔方法和单分支网络相比,PIIP在目标检测、分割和图像分类等任务上取得了更优的性能,同时降低了计算成本。特别是,当将这种方法应用于大规模视觉基础模型InternViT-6B时,在检测和分割上将其性能提高了1%-2%,而计算量仅为原来的40%-60%。这些结果验证了PIIP方法的有效性,并为未来的视觉计算任务提供了一个新的技术方向。
在这里插入图片描述


【目标跟踪】

[NeurlPS 2024] VastTrack: Vast Category Visual Object Tracking

论文链接:https://arxiv.org/pdf/2403.03493

代码链接:https://github.com/HengLan/VastTrack

本文提出了一种新颖的基准测试集,名为VastTrack,旨在通过包含丰富的类别和视频来促进更通用的视觉跟踪技术的发展。VastTrack具有几个吸引人的特性:(1)广泛的目标类别。特别是,它涵盖了来自2,115个类别的目标对象,大大超过了现有流行基准测试集(例如GOT-10k的563个类别和LaSOT的70个类别)的对象类别。凭借如此广泛的目标类别,期望能够学习到更通用的对象跟踪技术。(2)更大的规模。与当前的基准测试集相比,VastTrack提供了50,610个序列,共计420万帧,使其成为迄今为止在视频数量方面最大的基准测试集,因此可以在深度学习时代帮助训练出更强大的视觉跟踪器。(3)丰富的注释。除了传统的边界框注释外,VastTrack还为视频提供了语言描述。VastTrack的丰富注释使得既可以开发仅基于视觉的跟踪技术,也可以开发基于视觉和语言的跟踪技术。为了确保精确的注释,所有视频都经过多轮仔细检查和修正后手动标记。为了理解现有跟踪器的性能并为未来的比较提供基线,广泛评估了25个代表性的跟踪器。由于缺乏丰富的类别和来自不同场景的视频进行训练,这些跟踪器在当前数据集上的表现出现了显著下降,需要更多的努力来提高通用跟踪技术。


【Diffusion Transformer】

[NeurlPS 2024] U-DiTs: Downsample Tokens in U-Shaped Diffusion Transformers

论文链接:https://arxiv.org/pdf/2405.02730

代码链接:https://github.com/YuchuanTian/U-DiT

扩散变换器(DiTs)将Transformer架构引入到用于潜在空间图像生成的扩散任务中。通过串联一系列Transformer块的各向同性架构,DiTs展示了竞争力强和良好的可扩展性;但与此同时,放弃U-Net以及随后的改进值得重新思考。为此,本文进行了一个简单的玩具实验,比较了基于U-Net架构的DiT和各向同性架构的DiT。结果显示,U-Net架构仅在U-Net归纳偏置中获得轻微优势,表明U-Net风格的DiT可能存在冗余。受到发现U-Net主干特征主要由低频成分支配的启发,作者对自注意力机制中的查询-键-值元组进行了token下采样,尽管计算量显著减少,但这带来了进一步的改进。基于带有下采样token的自注意力机制,本文提出了一系列U形DiT(U-DiTs),并进行了大量实验以展示U-DiT模型的卓越性能。所提出的U-DiT能够在仅为其1/6的计算成本下超越DiT-XL/2。

在这里插入图片描述


[NeurlPS 2024] Learning-to-Cache: Accelerating Diffusion Transformer via Layer Caching

论文链接:https://arxiv.org/pdf/2406.01733

代码链接:https://github.com/horseee/learning-to-cache

扩散Transformer最近在各种任务中展示了前所未有的生成能力。然而,这些令人鼓舞的结果是以缓慢的推理为代价的,因为每个去噪步骤都需要对具有大量参数的Transformer模型进行推理。这项研究做出了一个有趣且有些令人惊讶的观察:通过引入缓存机制,可以轻易地移除扩散Transformer中大部分层的计算,甚至不需要更新模型参数。例如,在U-ViT-H/2的情况下,可以在缓存步骤中移除多达93.68%的计算(所有步骤中为46.84%),而FID仅下降不到0.01。为了实现这一点,引入了一种名为**“学习到缓存”(L2C)的新方案**,该方案以动态方式学习为扩散变换器进行缓存。具体来说,通过利用Transformer中各层结构的一致性和扩散的时序性质,将每一层视为缓存的基本单位,探索时间步之间的冗余计算。为了应对在深度模型中识别要缓存和移除的层所面临的指数级搜索空间挑战,提出了一种新颖的可微分优化目标。然后优化一个输入不变但时间步变化的路由器,最终产生一个静态的计算图。实验结果显示,L2C在相同的推理速度下大幅超越了如DDIM和DPM-Solver等采样器以及之前的基于缓存的方法。

在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1555167.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【文献阅读】Attention Bottlenecks for Multimodal Fusion

Abstract 在多模态视频分类中,将各模态的最终表示或预测进行后期融合(“后期融合”)仍然是主流范式。为此,本文提出了一种基于 Transformer 的新型架构,该架构使用“融合瓶颈”在多个层次进行模态融合。与传统的成对自…

D28【python 接口自动化学习】- python基础之输入输出与文件操作

day28 输入 学习日期:20241005 学习目标:输入输出与文件操作﹣-40 输入:如何接收用户通过键盘输入的数据? 学习笔记: 输入设备与输入方式 Input函数 命令行参数 可选参数 必填参数 强制转换参数类型 总…

Linux环境搭建git服务器和代码自动化部署

在开发过程中,我们经常遇到的问题就是提交代码到测试地址,然后进行线上测试。 要实现Git代码的自动化部署,考虑以下几种方法 FTP提交:可以使用FTP将代码上传到服务器自动化部署工具:如Jenkins、当代码被推送到仓库时…

【Kubernetes】常见面试题汇总(五十五)

目录 121. POD 创建失败? 122. POD 的 ready 状态未进入? 特别说明: 题目 1-68 属于【Kubernetes】的常规概念题,即 “ 汇总(一)~(二十二)” 。 题目 69-113 属于【Kube…

Java项目实战II基于Java+Spring Boot+MySQL的宠物咖啡馆平台的设计与实现(源码+数据库+文档)

目录 一、前言 二、技术介绍 三、系统实现 四、文档参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发,CSDN平台Java领域新星创作者 一、前言 在快节奏的城市生活中,宠物咖啡馆作为一种结合了休闲与宠物陪伴的新型业态,正…

重学SpringBoot3-集成Redis(三)

更多SpringBoot3内容请关注我的专栏:《SpringBoot3》 期待您的点赞👍收藏⭐评论✍ 重学SpringBoot3-集成Redis(三) 1. 引入 Redis 依赖2. 配置 RedisCacheManager 及自定义过期策略2.1 示例代码:自定义过期策略 3. 配置…

I/O多路转接

目录 一、select 1.1、select概念 1.2、select 函数原型 1.3、理解 select 执行过程 1.4、select就绪条件 1.4.1、读就绪 1.4.2、写就绪 1.4.3、异常就绪(了解) 1.5、select 基本工作流程 1.6、select服务器 1.6.1、Sock.hpp 1.6.2、selectS…

【复习】html最重要的表单和上传标签

文章目录 imgforminput img <img src"https://tse1-mm.cn.bing.net/th/id/OIP-C._XVJ53-pN6sDMXp8W19F4AAAAA?rs1&pidImgDetMain"alt"二次元"height"350px"width"200px"/>常用 没啥说的&#xff0c;一般操作css多一些 for…

CSP-J/S复赛算法 动态规划初步

文章目录 前言动态规划动态规划常见形式动态规划求最值的几个例子1. **背包问题**2. **最短路径问题**3. **最小硬币找零问题**4. **最长递增子序列** 总结 最优子结构举个简单的例子其他例子条件 DP的核心就是穷举具体解释 递归的算法时间复杂度dp数组的迭代解法通俗易懂的解释…

LabVIEW提高开发效率技巧----使用动态事件

在LabVIEW开发过程中&#xff0c;用户交互行为可能是多样且不可预知的。为应对这些变化&#xff0c;使用动态事件是一种有效的策略。本文将从多个角度详细介绍动态事件的概念及其在LabVIEW开发中的应用技巧&#xff0c;并结合实际案例&#xff0c;说明如何通过动态事件提高程序…

招联2025校招内推倒计时

【投递方式】 直接扫下方二维码&#xff0c;或点击内推官网https://wecruit.hotjob.cn/SU61025e262f9d247b98e0a2c2/mc/position/campus&#xff0c;使用内推码 igcefb 投递&#xff09; 【招聘岗位】 后台开发 前端开发 数据开发 数据运营 算法开发 技术运维 软件测试 产品策…

8648 图的深度遍历

### 思路 1. **图的邻接表存储结构**&#xff1a;使用邻接表存储图的顶点和边信息。 2. **基本操作函数**&#xff1a;包括创建图、查找顶点、获取顶点值、获取第一个邻接顶点、获取下一个邻接顶点等。 3. **深度优先遍历&#xff08;DFS&#xff09;**&#xff1a;从某个顶点出…

车载项目:HIL测试、功能安全测试、CAN一致性测试、UDS测试、ECU测试、OTA测试、TBOX测试、导航测试、车控测试

FOTA模块中OTA的知识点&#xff1a;1.测试过程中发现哪几类问题&#xff1f; 可能就是一个单键的ecu&#xff0c;比如升了一个门的ecu&#xff0c;他的升了之后就关不上&#xff0c;还有就是升级组合ecu的时候&#xff0c;c屏上不显示进度条。 2.在做ota测试的过程中&#xff…

今日指数项目个股描述功能实现

个股描述功能实现 1 个股描述功能实现说明 1&#xff09;原型示意 2&#xff09;接口说明 功能描述&#xff1a;个股主营业务查询接口 服务路径&#xff1a;/api/quot/stock/describe 服务方法&#xff1a;GET 请求参数&#xff1a;code #股票编码 响应参数&#xff1a; {…

java计算机毕设课设—坦克大战游戏

这是什么系统&#xff1f; 坦克大战游戏是一款以坦克为主题的射击游戏&#xff0c;旨在为玩家提供一个刺激、有趣的游戏体验。该游戏不仅拥有丰富的功能&#xff0c;还注重玩家的互动体验。此系统是使用Java语言实现坦克大战游戏程序&#xff0c;玩家通过连接访问进入游戏&…

C语言指针plus版练习

上期我们讲了进阶的指针&#xff0c;本期内容我们来强化一下上期学的内容 一、字符串左旋 实现一个函数&#xff0c;可以左旋字符串中的k个字符。 1.1 分析题目 假设字符串为abcde&#xff0c;左旋一个以后就变成bcdea&#xff0c;就是把第一个字符移到一个新的变量里面&#…

一、走进新语言

走进新语言 介绍环境配置JDK配置Kotlin配置 开发工具代码基本结构程序注释 介绍 Kotlin是一种现代但已经成熟的编程语言&#xff0c;旨在让开发人员更快乐。它简洁、安全、可与Java和其他语言互操作&#xff0c;并提供了许多在多个平台之间重用代码的方法。它由JetBrains公司于…

8647 实现图的存储结构

### 思路 1. 读取输入的顶点个数n和边的条数m。 2. 初始化一个n*n的邻接矩阵&#xff0c;所有元素初始为0。 3. 读取每条边的信息&#xff0c;更新邻接矩阵对应位置为1。 4. 输出邻接矩阵。 ### 伪代码 1. 读取n和m。 2. 初始化n*n的邻接矩阵matrix&#xff0c;所有元素为0。 …

DatePicker 日期控件

效果&#xff1a; 要求&#xff1a;初始显示系统当前时间&#xff0c;点击日期控件后修改文本控件时间。 目录结构&#xff1a; activity_main.xml(布局文件)代码&#xff1a; <?xml version"1.0" encoding"utf-8"?> <LinearLayout xmlns:and…

[C++]使用纯opencv部署yolov11-pose姿态估计onnx模型

【算法介绍】 使用纯OpenCV部署YOLOv11-Pose姿态估计ONNX模型是一项具有挑战性的任务&#xff0c;因为YOLOv11通常是用PyTorch等深度学习框架实现的&#xff0c;而OpenCV本身并不直接支持加载和运行PyTorch模型。然而&#xff0c;可以通过一些间接的方法来实现这一目标&#x…