实现LiDAR和多视角摄像头数据的对齐、可控X-DRIVE:用于驾驶场景的跨模态一致多传感器数据合成

Abstract

近年来,扩散模型在合成驾驶场景中的LiDAR点云或摄像头图像数据方面取得了进展。尽管这些模型在单一模态数据的边际分布建模方面取得成功,但对不同模态之间互相依赖关系的探索仍然不足,而这种依赖关系能够更好地描述复杂的驾驶场景。为了解决这一问题,我们提出了一个新框架,称为X-DRIVE,通过双分支潜在扩散模型架构来建模点云和多视角图像的联合分布。考虑到两种模态的几何空间差异,X-DRIVE在合成每种模态时都基于另一模态的对应局部区域,以确保更好的对齐和真实感。为了解决去噪过程中的空间模糊问题,我们设计了基于极线的跨模态条件模块,以自适应学习跨模态局部对应关系。此外,X-DRIVE通过多层次输入条件(包括文本、边界框、图像和点云)实现可控生成。广泛的实验结果表明,X-DRIVE能够生成高保真的点云和多视角图像,既符合输入条件又保证了可靠的跨模态一致性。

代码获取:https://github.com/yichen928/X-Drive

 欢迎加入自动驾驶实战群

Introduction

自动驾驶车辆依靠多种传感器感知环境,其中LiDAR和摄像头通过捕获点云和多视角图像发挥了关键作用。这些传感器提供了关于周围环境的几何测量和语义信息,对于目标检测、运动规划、场景重建和自监督表示学习等任务具有重要价值。然而,这些进步依赖于大量对齐的多模态数据,尤其是同一场景下经过良好校准的LiDAR和多视角摄像头输入。

收集此类高质量多模态数据的成本高昂且复杂,因而难以大规模扩展。高质量传感器价格昂贵,校准过程需要大量人工操作。此外,真实驾驶数据存在严重的长尾分布问题,极端天气条件等罕见场景的采集困难。因此,提出了一个自然问题:我们是否可以使用可控的方式合成对齐的多模态数据?

得益于在其他领域的成功,生成模型提供了一种有前景的解决方案。目前的研究集中在合成点云或多视角图像,但对多模态数据的生成关注较少。将这些单模态算法简单组合会导致合成场景中严重的跨模态不匹配,造成输入矛盾,从而影响下游任务的表现。跨模态一致性是多模态数据生成的关键,但生成一致的LiDAR和摄像头数据面临以下挑战:

(1)合成的点云和多视角图像必须在局部区域上对齐,描述相同的驾驶场景。
(2)与2D像素级任务不同,点云和多视角图像具有不同的几何空间和数据格式。
(3)去噪过程中缺乏可靠的点位或像素深度,导致3D空间信息模糊。

为了解决这一问题,我们提出X-DRIVE框架用于LiDAR和摄像头数据的联合生成。该框架设计了一个双分支架构,其中两个潜在扩散模型分别致力于点云和多视角图像的合成,同时一个跨模态条件模块增强了它们之间的模态一致性。

3 初步知识

潜在扩散模型。扩散模型通过迭代地对随机高斯噪声进行T步去噪来学习逼近数据分布

图片

。通常,扩散模型通过一个前向过程来构造扩散输入,该过程根据方差计划

图片

逐步向数据添加高斯噪声:

图片

然后,反向过程通过拟合

图片

来学习恢复原始输入:

图片

潜在扩散模型在潜在空间中而非输入空间上执行扩散过程,以处理高维数据。具体来说,它通过编码器E将输入x映射到潜在空间为

图片

。潜在编码z可以通过解码器D重建为输入

图片

。潜在扩散模型的前向和反向过程类似于原始扩散模型,只需在公式1和公式2中用潜在变量z替代输入变量x。

距离图像表示。与LiDAR传感器的采样过程相兼容,距离图像 

图片

 是LiDAR点云的密集矩形表示形式,其中 和分别表示行数和列数,一个通道代表距离(range),另一个通道代表强度(intensity)。行反映激光束的位置,列则指示偏航角。对于具有笛卡尔坐标 (x,y,z)的每个点,可以通过以下投影将其转换为球坐标 (r,θ,ϕ):

图片

其中 r 是距离,θ是仰角,ϕ 是方位角。距离图像通过使用因子 和对 θ和 ϕ进行量化得到。对于具有球坐标

图片

 的每个点,有 

图片

。距离 和强度 被归一化到 (0,1) 之间。

4 方法

本节中,我们提出了用于联合生成点云和多视角图像的创新框架X-DRIVE。整体架构如图2所示。我们在第4.1节扩展了基础扩散模型,以模拟多模态数据的联合分布。第4.2节介绍了我们的双分支扩散模型框架。为实现跨模态一致性,我们在第4.3节提出了基于极线的跨模态条件模块。第4.4节则展示了如何以零样本方式实现跨模态条件生成。

图片

4.1 联合多模态生成

在第3节的单模态扩散模型基础上,我们为X-DRIVE的多模态数据生成提供了一个公式。其目的是逼近描述特定驾驶场景的成对数据 (r0,C0)的联合分布,其中 是点云的距离图表示,

图片

表示从不同视角摄像头获得的多视角图像。

考虑到这两种模态的相似矩形潜在格式,我们为距离图和多视角图像设置了共享的噪声调度

图片

。距离图或多视角图像的前向过程仅依赖自身模态,相当于每个模态的独立前向过程。

图片

与此相对,反向过程利用模型 

图片

分别预测添加到距离图和多视角图像的噪声和 。由于跨模态一致性的要求,每种模态的噪声预测应考虑另一模态,因此距离图或多视角图像的反向过程依赖于两种模态。

图片

直观上,我们可以为距离图和多视角图像分别实现两个扩散模型和 ,并为其他模态配备编码器和。

图片

与其训练独立的条件编码器,我们可以直接将扩散模型本身视为每种模态的强编码器。因此,将和适应为条件编码器

图片

图片

分别应用于各块。与文本到图像的条件相比,LiDAR与摄像头的互相条件具有显著的局部空间对应关系。例如,LiDAR捕获的汽车应在形状和位置上与摄像头捕获的相同汽车一致,但与图像中其他部分的关系较少。鉴于它们不同的几何空间,我们需要依赖空间变换 T(⋅)显式对齐几何空间以实现跨模态对应。具体来说,

图片

将多视角图像条件转换为距离图空间,而

图片

将距离图条件转换为多视角图像空间。因此,可以将条件编码器、表述如下:

图片

在这种情况下,我们将公式6中的去噪模型重新表示如下:

图片

它们可以通过联合多模态目标函数 LDM−ML_{DM-M}LDM−M 来训练:

图片

4.2 双分支联合生成框架

我们的框架基于公式8开发,包含两个去噪模型,即针对距离图的模型 

图片

(第4.2.1节)和针对多视角图像的模型 

图片

(第4.2.2节)。

4.2.1 距离图的扩散模型

架构 我们基于现有的潜在扩散模型(LDM),学习距离图 

图片

的分布,其格式与RGB图像相似。第一阶段,将距离图通过降采样系数 

图片

压缩为潜在特征 

图片

。第二阶段,我们从头开始训练LDM,学习 的潜在分布。距离图反映自车的全景视图,因此其左侧和右侧相连。鉴于此限制,我们参考LiDARGen 和 RangeLDM,将VAE和LDM中的卷积替换为水平循环卷积,使距离图的左右两侧互为邻居。

在第一阶段中,我们遵循标准协议,训练包括编码器和解码器的VAE,最大化ELBO 。此外,我们附加了对抗判别器以减轻重建损失带来的模糊性。在第二阶段,LDM在多视角图像分支(详见4.3节)的跨模态信息以及文本提示和3D框的条件下进行距离图的生成,模型通过公式9中的损失函数进行训练。

范围视图边界框条件 给定一个3D边界框 

图片

图片

表示框角的3D坐标,表示其语义类别。我们使用公式3将每个框角投影到距离视图中作为 

图片

。这些范围视图角坐标通过傅里叶嵌入器传递。然后,八个角点的连接位置嵌入通过

图片

编码为 

图片

。对于类别标签,我们将类别名称的CLIP嵌入汇聚为

图片

。边框和标签嵌入组合后由另一个

图片

编码为隐藏向量 

图片

图片

我们将来自这个范围视图框编码器的边框隐藏向量

图片

与文本提示的隐藏向量连接,指导潜在扩散模型的合成,通过跨注意力模块实现。

4.2.2 多视角图像的扩散模型

架构。为了对多视角图像 

图片

的分布建模,我们在基础扩散模型上引入额外的边界框和视角间条件,以及来自距离图的跨模态信号(详见4.3节)。根据标准的LDM ,每张图像 先通过预训练的VAE压缩到潜在空间 

图片

。训练过程中,每个视角独立采样高斯噪声,去噪模型使用公式9的目标函数进行训练。

多视角边界框条件。3D框条件模块与第4.2.1节类似,但框位置转换为每个摄像头的透视视图。对于每个3D边界框

图片

,我们将其3D角点坐标 

图片

投影到相应的摄像头透视视图中 

图片

,其中 

图片

为像素坐标中的角点位置,为深度。对于每个摄像头视图 v,其合成仅依赖于至少一个角点投影到其视图图像范围内的3D边界框。然后,我们将此透视视图框编码器公式与公式10相似。

图片

对于每个摄像头视图,框嵌入

图片

与文本提示的隐藏向量连接,共同指导图像生成,通过跨注意力模块实现。

视角间条件。为增强多视角图像

图片

的一致性,我们引入视角间跨注意力模块,使每个摄像头视图 v 的生成受其左侧和右侧相邻视图  和  的影响。鉴于相邻摄像头视场之间的重叠较小,我们将每个图像潜在变量 

图片

,v 水平分成两半。对于每个视图 v,其左半部分

图片

依赖于左邻视图 的右半部分 

图片

,右半部分 

图片

依赖于右邻视图的左半部分 

图片

图片

其中 是零初始化门,用于稳定优化。与MagicDrive 中的完全跨注意力相比,我们的分割策略显著降低了视角间条件的每场景GPU内存消耗,从11GB降低到3GB,并增强了多视角一致性。

4.3 跨模态极线条件模块

多模态数据合成的关键在于增强跨模态的一致性,这往往依赖于跨模态条件。理想情况下,通过相机投影,点云与多视角图像之间存在明确的点对像素对应关系。然而在去噪过程中,距离图像的距离值和多视角图像的深度值都是未知的。为此,我们提出通过空间变换 

图片

和 

图片

(公式7)基于极线来扭曲来自距离图像和多视角图像的局部特征,以提供另一模态的合成控制信号,如图3所示。

图片

相机到LiDAR条件。对于距离图像潜在变量 上的位置 (φ,θ),我们沿距离轴采样 R 个点,遵循线性递增离散化(LID)策略,具有距离值  ,其中 

图片

。这些点

图片

被转换为它们的3D坐标

图片

图片

这些点可以使用相机参数

图片

投影到相机视图 v 中:

图片

其中,

图片

是沿LiDAR光线的像素坐标。这些点在相机图像 中形成了对应于LiDAR距离图像中位置 (φ,θ) 的极线。我们在视图 v 的图像潜在变量 

图片

的位置 

图片

上双线性采样相应的局部特征。如果一个3D点

图片

被投影到多个相机视图中,我们会采用平均局部特征。每个采样特征都加入了  的傅里叶嵌入,作为沿光线距离值的指示符。因此,整个空间变换 

图片

 将相机图像特征空间对齐到距离图像特征空间。

图片

我们应用跨注意力模块来对坐标 (φ,θ)的距离图像特征 

图片

进行条件化,使其基于极线上对应的转换后的局部图像特征

图片

图片

其中, 是相机到LiDAR条件的零初始化门控。模型在距离模糊的情况下学习距离图像与多视角图像的自适应局部对应关系。

LiDAR到相机条件。反之,我们使用类似的模块,使多视角图像的生成基于LiDAR距离图像的条件。对于来自视图 v 的相机图像潜在变量

图片

上的位置 (u,v)沿深度轴采样 DDD 个点,具有深度值 ,其中

图片

每个像素坐标中的点

图片

通过相应的相机参数 

图片

转换为3D坐标

图片

图片

然后,3D点坐标被投影到LiDAR距离视图上,使用公式3表示为 

图片

。这些点 

图片

图片

在LiDAR距离图像中形成了对应于相机视图 v 中像素坐标 (u,v) 的极线。通过双线性采样和额外的深度值  的傅里叶嵌入从距离图像潜在变量 中提取局部距离图像特征。我们可以将空间变换

图片

写成对齐多视图图像特征的距离视图特征。

图片

与相机到LiDAR条件类似,跨注意力模块对坐标 (u,v)上的局部相机图像特征

图片

 进行条件化,基于空间对齐的距离图像特征 

图片

图片

其中  是零初始化门控。跨注意力模块在没有显式深度线索的情况下,自适应地学习了相机多视角图像对LiDAR距离图像的局部依赖关系。

4.4 跨模态条件生成

除了多模态联合生成外,X-DRIVE 还可以作为相机到LiDAR或LiDAR到相机的条件生成模型,在零样本条件下实现,而无需针对性训练。给定一个真实 ,我们分别修改公式8以进行相机到LiDAR或LiDAR到相机的生成以生成另一模态的数据。

图片

在这种情况下,针对输入模态训练的扩散模型作为强大的编码器,用于增强生成与输入LiDAR或相机条件的一致性。

5.Experiment

5.1 质量分析

我们报告了对齐点云与多视角图像联合生成,以及基于条件的LiDAR到摄像头或摄像头到LiDAR的跨模态生成的定量结果。

联合多模态生成。如表1所示,与单模态生成方法相比,X-DRIVE作为多模态算法在合成点云和多视角图像的质量上表现相当甚至更优。我们的FID指标比MagicDrive略低,因为我们没有地图条件作为强控制信号。不像简单的单模态方法组合,我们能生成具有跨模态对齐的点云和图像,这在我们的DAS指标上表现优异,这得益于我们提出的跨模态极线条件模块。附录C中展示了更多视觉效果。

条件跨模态生成。如第4.4节所述,X-DRIVE还可作为LiDAR到摄像头或摄像头到LiDAR的条件生成模型。表1显示,对于单模态数据生成,X-DRIVE在点云和多视角图像方面均优于以往基线方法,表明了我们提出的算法在跨模态数据合成中的灵活性。

图片

对象级可控生成。X-DRIVE可在生成过程中遵循3D边界框条件。由于之前的LiDAR生成方法不具备此能力,我们仅将其与多视角图像生成算法进行比较。为了与单模态方法公平比较,我们采用nuScenes验证集中的合成多视角图像和真实点云,通过预训练的SparseFusion 模型进行测试,表2显示X-DRIVE在对象级保真度上优于MagicDrive。

图片

5.2 质量分析

跨模态一致性。我们展示了一些多模态生成示例以定性表现跨模态一致性。如图4所示,投影点云与多视角图像内容在前景和背景上适当重叠。我们还展示了条件摄像头到LiDAR和LiDAR到摄像头生成的结果,合成数据很好地符合跨模态的LiDAR或摄像头条件。

图片

多视角一致性。在我们的多模态生成中,点云为多视角图像提供了自然的3D几何指导,提升了多视角一致性。在图5中,我们展示了相邻合成摄像头图像之间的关键点匹配结果,结果显示X-DRIVE的多视角一致性优于MagicDrive 。

图片

场景级与对象级控制。在文本和边界框条件下,X-DRIVE可生成具有不同控制信号的多样化结果,如图6所示。在场景级控制下,我们可通过文本提示生成各种光照和天气条件,合成图像仍然保持真实且符合对象布局。在对象级控制下,我们可通过删除对象或在指定位置插入具有特定尺寸和语义类别的对象来编辑场景。

图片

5.3 消融实验

由于计算资源有限,我们使用较短的训练时间进行消融实验。

跨模态条件 跨模态条件对跨模态一致性至关重要。如表3所示,移除该模块会显著降低跨模态对齐效果,尽管共享的边界框和文本提示仍提供一些约束。鉴于空间不确定性,我们沿极线交叉注意力来自适应学习局部对应关系(见公式16和公式19)。相反,简单的极线均值代替交叉注意力会产生较大噪声,严重损害点云质量和跨模态一致性。

边界框与文本提示输入条件 尽管X-DRIVE也支持无条件生成,这些输入条件为生成多样化输出提供了多层控制信号。表3显示,文本和框条件提升了合成点云和图像的质量。

图片

无分类器引导 在推理过程中,我们在边框和文本条件下使用无分类器引导(CFG)。图7显示这提高了合成数据的真实感。然而,较高的CFG尺度会通过增加对比度和清晰度来损害图像和点云质量。

图片

结论

本文的贡献如下:

1.提出X-DRIVE框架,实现LiDAR和多视角摄像头数据的对齐、可控和一致合成。
2.基于极线的跨模态条件模块在点云和多视角图像之间的空间模糊下实现几何差距的桥接,显著提高模态一致性。
3.实验结果显示X-DRIVE在生成高质量的跨模态一致数据方面显著超越以往单模态算法,并在综合条件下展现了灵活、可控的生成能力。

文章引用:X-DRIVE: CROSS-MODALITY CONSISTENT MULTISENSOR DATA SYNTHESIS FOR DRIVING SCENARIOS

最后别忘了,帮忙点“在看”。  

您的点赞,在看,是我创作的动力。

AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。

长按扫描下面二维码,加入知识星球。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/12138.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

稳恒磁场(1)

物理概念 磁场是物质性的。 地磁场(与地磁场正负极相反)与磁偏角(一般为0到11度) 磁感应强度: 单位为特斯拉(T),另一个常用单位是高斯(G)且1T 10^4 G 物…

自动驾驶系列—自动驾驶中的短距离感知:超声波雷达的核心技术与场景应用

🌟🌟 欢迎来到我的技术小筑,一个专为技术探索者打造的交流空间。在这里,我们不仅分享代码的智慧,还探讨技术的深度与广度。无论您是资深开发者还是技术新手,这里都有一片属于您的天空。让我们在知识的海洋中…

多语言爬取淘宝价格信息 python 比价api接入指南

以下是爬取淘宝价格信息及接入淘宝比价 API 的一般步骤: 传统爬虫方式获取价格信息(不建议大量使用,可能违反淘宝规定): 分析目标页面 URL:在淘宝搜索框输入关键词后,观察页面的 URL 结构。例如…

Java List——针对实习面试

目录 Java ListJava List的三种主要实现是什么?它们各自的特点是什么?Java List和Array(数组)的区别?Java List和Set有什么区别?ArrayList和Vector有什么区别?什么是LinkedList?它与…

如何在Linux系统中安装微信

官方版微信的安装 好消息是,现在微信已经发布了官方的Linux版本,大家可以直接通过官方网站下载并安装,避免了以前繁琐的第三方工具安装步骤。 1.1 下载官方版微信 微信,是一个生活方式 选择Linux-> X86 1.2 安装微信 提前…

java双向链表解析实现双向链表的创建含代码

双向链表 一.双向链表二.创建MyListCode类实现双向链表创建一.AddFirst创建(头插法)二.AddLast创建(尾叉法)三.size四.remove(指定任意节点的首位删除)五.removeAll(包含任意属性值的所有删除)六.AddIndex(给任意位置添加一个节点…

hhdb数据库介绍(2-2)

数据高可用服务 HHDB Server在计算节点、数据节点、配置库等层次提供全面的高可用保障。提供完善的心跳检测、故障切换对存储节点同步追平判断、全局自增序列在故障时自动跳号、客户端连接Hold等机制,保障数据服务的可用性与数据的一致性。 计算节点服务高可用 H…

精挑细选的100道软测高频面试题,面试前你肯定用得上

测试技术面试题 1、什么是兼容性测试?兼容性测试侧重哪些方面? 2、我现在有个程序,发现在 Windows 上运行得很慢,怎么判别是程序存在问题还是软硬件系统存在问题? 3、测试的策略有哪些? 4、正交表测试用…

STM32获取SHT3X温湿度芯片数据

目录 一、概述 二、单次数据采集模式的测量 1、配置说明 2、代码实现方式 三、周期性数据采集模式的测量 1、配置说明 2、代码实现方式 四、完整代码下载链接 一、概述 SHT3X是Sensirion公司推出的一款高精度、完全校准的温湿度传感器,基于CMOSens技术。它提…

[原创]手把手教学之前端0基础到就业——day11( Javascript )

文章目录 day11(Javascript)01Javascript①Javascript是什么②JavaScript组成③ Javascript的书写位置1. 行内式 (不推荐)2 . 内部位置使用 ( 内嵌式 )3. 外部位置使用 ( 外链式 ) 02变量1. 什么是变量2. 定义变量及赋值3. 注意事项4. 命名规范 03输入和输出1) 输出形式12) 输出…

[JAVAEE] 面试题(五) - HashMap, Hashtable, ConcurrentHashMap

目录 一. Hashtable1.1 Hashtable效率低下的原因: 二. ConcurrentHashMap2.1 ConcurrentHashMap更高效的原因: 三. HashMap, Hashtable, ConcurrentHashMap 之间的区别 HashMap是线程不安全的. 在多线程环境下, 使用: HashtableConcurrentHashMap 来确保线程安全. 一. Hashta…

Vue 2 —Vue Router 页面导航和参数传递

当从A页面跳转到B页面的时候把数据也一起传递过去,可用Vue Router 功能: 一、. this.$router.push 方法 Vue Router 是 Vue.js 的官方路由管理器,允许你在应用中进行页面导航(即跳转到不同的 URL 路径)。 this.$rout…

Local Transfer 致力于更加便捷地共享传输文件

软件主页:https://illusionna.github.io/LocalTransfer

[AcWing算法基础课]动态规划之01背包

题目链接:01背包 有 N 件物品和一个容量是 V 的背包。每件物品只能使用一次。第 i 件物品的体积是 vi,价值是 wi。求解将哪些物品装入背包,可使这些物品的总体积不超过背包容量,且总价值最大。输出最大价值。 首先,我们…

标准、高效的管理测试用例和活动

送您一份新人礼,自动化测试平台限时免费体验~ 本文主要介绍测试用例管理的基础知识和基本使用方法,帮助您快速管理测试用例及活动。 操作流程 用例管理的主要使用流程如下: 1.新建测试用例 2.评审测试用例 3.创建测试计划 4.执行测试计划 5…

如何在jupyter notebook切换python环境

目录 1、切换到目标python环境,假设我的是叫“tf” C:\Users\hello>activate tf(tf) C:\Users\hello>2、安装notebook内核包 (tf) C:\Users\hello>pip install ipykernel3、将环境加入到notebook中 python -m ipykernel install --user --name pytorch --…

windows工具 -- 使用SpaceSniffer查看哪些文件夹占用那么大空间, 再也不用右键属性了

目的 C盘不知道哪些文件夹占用了那么多空间, 右键属性扫描太慢了 效果 运行效果 静态截图 下载使用 下载 SpaceSniffer https://github.com/redtrillix/SpaceSniffer/releases 解压到文件夹后, 双击运行

[DEBUG] 服务器 CORS 已经允许所有源,仍然有 304 的跨域问题

背景 今天有一台服务器到期了,准备把后端迁移到另一台服务器上,结果前端在测试的时候,出现了 304 的跨域问题。 调试过程中出现的问题,包括但不限于: set the request’s mode to ‘no-cors’Redirect is not allow…

智慧园区解决方案:科技赋能,打造未来管理新典范

智慧园区作为城市发展的重要组成部分,正以前所未有的速度蓬勃发展。随着5G、云计算、大数据、物联网(IoT)、BIM(建筑信息模型)、人工智能(AI)及区块链等前沿技术的日益成熟与融合应用&#xff0…

CTF记录

1. [SWPUCTF 2022 新生赛]android 用jadx打开,然后搜索NSS关键字 NSSCTF{a_simple_Android} 2. [SWPU 2024 新生引导]ez_SSTI 模板注入题目,直接焚靖可以秒了 填入数据 ls / 然后 cat /flag即可 获取成功 NSSCTF{2111e7ad-97c5-40d5-9a3b-a2f657bd45e8…