【论文速看】DL最新进展20241002-自动驾驶、自监督学习、扩散模型、多模态与图像分割

目录

    • 【自动驾驶】
    • 【自监督学习】
    • 【扩散模型】
    • 【多模态与图像分割】

【自动驾驶】

[轨迹预测] CASPFormer: Trajectory Prediction from BEV Images with Deformable Attention

论文链接:https://arxiv.org/pdf/2409.17790

代码链接:无

运动预测是自动驾驶(AD)和高级驾驶辅助系统(ADAS)的一个重要方面。当前最先进的运动预测方法依赖于高清(HD)地图来捕捉自车周围的上下文。这样的系统在现实世界的部署中缺乏可扩展性,因为高清地图的制作和实时更新成本高昂。为了克服这个问题,作者提出了上下文感知场景预测TransformerCASPFormer),它可以从光栅化的鸟瞰图(BEV)图像进行多模态运动预测。所设计的系统可以与任何能够生成BEV图像的上游感知模块集成。此外,CASPFormer 直接解码矢量化轨迹,无需任何后处理。轨迹通过使用可变形注意力递归解码,因为这在计算上是高效的,并且赋予网络能力,使其能够将注意力集中在BEV图像的重要空间位置上。另外,还通过引入可学习的模式查询来解决生成多个场景一致性轨迹的模式崩溃问题。在nuScenes数据集上评估了所提型,并展示了它在多个指标上达到了最先进的水平。


【自监督学习】

[TPAMI 2024 ] Facial Video-based Remote Physiological Measurement via Self-supervised Learning

论文链接:https://arxiv.org/pdf/2210.15401

代码链接:https://github.com/yuezijie/Video-based-Remote-Physiological-Measurement-via-Self-supervised-Learning

基于面部视频的远程生理测量旨在从人类面部视频中估算远程光电容积脉搏波图(rPPG)信号,然后从rPPG信号中测量多个生命体征(例如心率、呼吸频率)。最近的方法通过训练深度神经网络来实现这一目标,这通常需要大量面部视频和同步记录的光电容积脉搏波图(PPG)信号进行监督。然而,这些注释语料库的收集在实践中并不容易。本文引入了一种新颖的频率启发式自监督框架,该框架学习从面部视频中估算rPPG信号,而不需要真实的PPG信号。给定一个视频样本,首先将其增强为多个正/负样本,这些样本包含与原始样本相似/不同的信号频率。具体来说,正样本是使用空间增强生成的负样本是通过一个可学习的频率增强模块生成的,该模块对输入执行非线性信号频率变换,而不会过度改变其视觉外观。接下来,引入一个局部rPPG专家聚合模块来从增强样本中估算rPPG信号。它从不同面部区域编码互补的脉动信息,并将它们聚合成一个rPPG预测。最后,文中提出了一系列频率启发式损失,即频率对比损失、频率比率一致性损失和跨视频频率一致性损失,用于优化从多个增强视频样本和时间上相邻的视频样本中估算的rPPG信号。在四个标准基准上进行了基于rPPG的心率、心率变异性和呼吸频率估算。实验结果表明,所提方法大幅改进了现有技术水平。

在这里插入图片描述

在这里插入图片描述


[2024] Frequency-Guided Masking for Enhanced Vision Self-Supervised Learning

论文链接:https://arxiv.org/pdf/2409.10362

代码链接:

文中提出了一种新颖的基于频率的自监督学习(SSL)方法,显著提高了其预训练的有效性。在这个方向上的先前工作通过在输入图像中遮蔽预定义的频率并使用重建损失来预训练模型。虽然取得了有希望的结果,但这种实现存在两个基本限制,正如在论文中识别的那样。首先,使用预定义的频率忽视了图像频率响应的可变性。其次,使用经过频率过滤的图像进行预训练后,得到的模型在微调过程中需要相对更多的数据才能适应自然的图像。为了解决这些缺点,作者提出了傅立叶变换压缩与自我知识蒸馏(FOLK),整合了两个专门的想法。首先,受图像压缩的启发,根据图像频率响应自适应地选择遮蔽的频率,为预训练创建更合适的SSL任务。其次,采用了一个由知识蒸馏支持的双分支框架,使模型能够同时以过滤后的和原始图像作为输入,大大减轻了下游任务的负担。实验结果证明了FOLK在包括图像分类、少样本学习和语义分割在内的各种下游任务中达到了许多最先进SSL方法的竞争性能。

在这里插入图片描述


【扩散模型】

[CVPR 2024] Residual Denoising Diffusion Models

论文链接:https://arxiv.org/pdf/2308.13712

代码链接:https://github.com/nachifur/RDDM

文中提出了残差去噪扩散模型(RDDM),这是一种新颖的双重扩散过程,它将传统的单一去噪扩散过程分解为残差扩散和噪声扩散。这种双重扩散框架扩展了基于去噪的扩散模型,这些模型最初对于图像恢复来说是难以解释的,通过引入残差,将其发展成一个统一且可解释的模型,用于图像生成和恢复。具体来说,残差扩散表示从目标图像到退化输入图像的方向性扩散,并显式地指导图像恢复的反向生成过程,而噪声扩散则表示扩散过程中的随机扰动。残差优先考虑确定性,而噪声强调多样性,使RDDM能够有效地统一具有不同确定性或多样性要求的任务,例如图像生成和恢复。文中展示了采样过程与DDPM和DDIM的采样过程通过系数变换是一致的,并提出了一个部分路径独立的生成过程,以更好地理解反向过程。值得注意的是,RDDM使得一个通用的UNet,仅使用L1损失和批量大小为1进行训练,就能与最先进的图像恢复方法竞争。


【多模态与图像分割】

FusionSAM: Latent Space driven Segment Anything Model for Multimodal Fusion and Segmentation

论文链接:https://arxiv.org/pdf/2408.13980v1

代码链接:无

多模态图像融合与分割通过整合各种传感器的数据,提高了自动驾驶中的场景理解能力。然而,由于缺乏能够引导过程中微调和关注相关区域的全面融合特征,当前模型在高效分割这些场景中密集排列的元素方面存在困难。Segment Anything Model(SAM)作为一种变革性的分割方法应运而生。与缺乏微调控制的变换器相比,它通过灵活的提示编码器提供了更有效的提示。尽管如此,SAM在自然图像的多模态融合领域尚未被广泛研究。本文首次将SAM引入多模态图像分割,提出了一种结合潜在空间token生成(LSTG)融合掩码提示(FMP)模块的新型框架,以增强SAM的多模态融合和分割能力。具体而言,首先通过向量量化获取两种模态的潜在空间特征,并将它们嵌入到一个基于交叉注意力的跨域融合模块中,以建立模态之间的长距离依赖关系。然后,使用这些全面的融合特征作为提示,指导精确的像素级分割。在几个公共数据集上的大量实验表明,所提出的方法在多模态自动驾驶场景中显著优于SAM和SAM2,与最先进方法相比,至少实现了3.9%更高的分割mIoU。

在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1553249.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

基于深度学习的乳腺癌分类识别与诊断系统

温馨提示:文末有 CSDN 平台官方提供的学长 QQ 名片 :) 1. 项目简介 乳腺癌是全球最常见的癌症之一,早期诊断对于治疗效果至关重要。近年来,深度学习技术在医学图像分析领域取得了显著进展,能够从大量的医学影像数据中自动学习和提…

[动态规划] 二叉树中的最大路径和##树形DP#DFS

标题:[动态规划] 二叉树中的最大路径和##树形DP#DFS 个人主页水墨不写bug (图片来源于网络) 目录 一 、什么是树形DP 二、题目描述(点击题目转跳至题目) NC6 二叉树中的最大路径和 算法思路: 讲解与参考代…

建筑业挂靠行为的防范建议

在建筑行业中,挂靠行为的普遍存在给许多企业带来了法律风险和信誉风险。为了防范这些风险,企业需要采取一系列有效的措施。 一、加强资质管理 企业应当通过合法途径获取和提升自身的资质等级,避免因资质不足而产生挂靠的需求。加强资质管理是…

Python从入门到高手4.2节-掌握循环控制语句

目录 4.2.1 理解循环控制 4.2.2 for循环结构 4.2.3 循环结构的else语句 4.2.4 while循环结构 4.2.5 循环结构可以嵌套 4.2.6 国庆节吃好玩好 4.2.1 理解循环控制 我们先来搞清楚循环的含义。以下内容引自汉语词典: 循环意指往复回旋,指事物周而复始地运动或变…

html+css+js实现Collapse 折叠面板

实现效果&#xff1a; HTML部分 <div class"collapse"><ul><li><div class"header"><h4>一致性 Consistency</h4><span class"iconfont icon-jiantou"></span></div><div class"…

Linux中的进程间通信之共享内存

共享内存 共享内存示意图 共享内存数据结构 struct shmid_ds {struct ipc_perm shm_perm; /* operation perms */int shm_segsz; /* size of segment (bytes) */__kernel_time_t shm_atime; /* last attach time */__kernel_time_t shm_dtime; /* last detach time */__kerne…

【Java】—— 集合框架:List接口常用方法与List接口的实现类

目录 4. Collection子接口1&#xff1a;List 4.1 List接口特点 4.2 List接口方法 4.3 List接口主要实现类&#xff1a;ArrayList 4.4 List的实现类之二&#xff1a;LinkedList 4.5 List的实现类之三&#xff1a;Vector 4.6 练习 4. Collection子接口1&#xff1a;List …

【Docker】docker的存储

介绍 docker存储主要是涉及到3个方面&#xff1a; 第一个是容器启动时需要的镜像 镜像文件都是基于图层存储驱动来实现的&#xff0c;镜像图层都是只读层&#xff0c; 第二个是&#xff1a; 容器读写层&#xff0c; 容器启动后&#xff0c;docker会基于容器镜像的读层&…

【python实操】python小程序之随机抽签以及for循环计算0-x的和

引言 python小程序之随机抽签以及for循环计算0-x的和 文章目录 引言一、随机抽签1.1 题目1.2 代码1.3 代码解释 二、for循环计算0-x的和2.1 题目2.2 代码2.3 代码解释 三、思考3.1 随机抽签3.2 for循环计算0-x的和 一、随机抽签 1.1 题目 使用input输入五个同学的名字随机抽取…

C++(Qt)软件调试---内存调试器Dr.Memory(21)

C(Qt)软件调试—内存调试器Dr. Memory&#xff08;21&#xff09; 文章目录 C(Qt)软件调试---内存调试器Dr. Memory&#xff08;21&#xff09;[toc]1、概述&#x1f41c;2、安装Dr.Memory&#x1fab2;3、命令行使用Dr.Memory&#x1f997;4、Qt Creator集成使用Dr.Memory&…

主流HR软件对比,五大系统功能与成本一览

五款主流HR系统包括ZohoPeople、金蝶人力云、用友人力云、红海eHR和SAPSuccessFactors&#xff0c;各具特色。ZohoPeople功能丰富&#xff0c;金蝶人力云云端部署&#xff0c;用友人力云多模块集成&#xff0c;红海eHR定制化服务&#xff0c;SAPSuccessFactors全球化视野。企业…

vite中sass警告JS API过期

1.问题 在Vite创建项目中引入Sass弹出The legacy JS API is deprecated and will be removed in Dart Sass 2.0.0 - vite中sass警告JS API过期 The legacy JS API is deprecated and will be removed in Dart Sass 2.0.0警告提示表明你当前正在使用的 Dart Sass 版本中&#…

VisionTS:基于时间序列的图形构建高性能时间序列预测模型,利用图像信息进行时间序列预测

构建预训练时间序列模型时面临的主要挑战是什么&#xff1f;获取高质量、多样化的时间序列数据。目前构建基础预测模型主要有两种方法&#xff1a; 迁移学习LLM&#xff1a;通过针对时间序列任务定制的微调或分词策略&#xff0c;重新利用预训练的大型语言模型&#xff08;LLM…

CertiK《Hack3d:2024年第三季度安全报告》(附报告全文链接)

CertiK《Hack3d&#xff1a;2024年第三季度Web3.0安全报告》现已发布&#xff0c;本次报告深入分析了2024年7月至9月的链上安全状况&#xff0c;本季度总损失金额为7.53亿美元&#xff0c;网络钓鱼和私钥泄露是本季度造成资产损失的主要原因。 ​ 关键数据 2024年第三季度&a…

用Python实现运筹学——Day 9: 线性规划的灵敏度分析

一、学习内容 1. 灵敏度分析的定义与作用 灵敏度分析&#xff08;Sensitivity Analysis&#xff09; 是在优化问题中&#xff0c;分析模型参数变化对最优解及目标函数值的影响。它帮助我们了解在线性规划模型中&#xff0c;当某些参数&#xff08;如资源供应量、成本系数等&a…

【C语言】数组(下)

6、二维数组的创建 6.1二维数组的概念 通过数组&#xff08;上&#xff09;介绍&#xff0c;我们学习了一维数组&#xff0c;数组的元素都是内置类型的&#xff0c;如果我们把一维数组作为数组的元素&#xff0c;这时就是二维数组&#xff0c;以此类推&#xff0c;如果把二维…

Mysql 索引底层数据结构和算法

索引数据结构 索引&#xff08;index&#xff09;是帮助MySQL高效获取数据的一种有序数据结构。索引是存储到表空间中&#xff0c;当我们的 sql 中的where条件用到索引的时候&#xff0c;会在存储层就过滤出数据来&#xff0c;如果不走索引&#xff0c;则需要在server层过滤。 …

5分钟学会SPI

SPI 定义&#xff1a;SPI 是一种机制&#xff0c;允许用户在不修改现有代码的情况下扩展和替换特定服务的实现。它定义了一组接口&#xff08;Service Interfaces&#xff09;和一组实现&#xff08;Service Providers&#xff09;&#xff0c;使得应用程序可以动态加载和使用…

Linux:进程控制(一)

目录 一、写时拷贝 1.创建子进程 2.写时拷贝 二、进程终止 1.函数返回值 2.错误码 3.异常退出 4.exit 5._exit 一、写时拷贝 父子进程&#xff0c;代码共享&#xff0c;不作写入操作时&#xff0c;数据也是共享的&#xff0c;当任意一方试图写入&#xff0c;便通过写时拷…

【数学建模国赛】2024年数学建模国赛B题思路分析

学习编程就得循环渐进&#xff0c;扎实基础&#xff0c;勿在浮沙筑高台 循环渐进Forward-CSDN博客 目录 循环渐进Forward-CSDN博客 题目 第一问分析 第二问分析 问题三分析 第四问分析 总结&#xff1a; 第一次参加国赛&#xff0c;侥幸被推送国一参与评奖。在省赛区结…