地平线占用预测 FlashOcc 参考算法-V1.0

1.简介

3D Occupancy Networks 的基本思路是将三维空间划分成体素网格,并对每个网格进行各类感知任务的预测。目前以网格为中心的方法能够预测每个网格单元的占用率、语义类别、未来运动位移和实例信息。3D occupancy 可以对道路障碍物进行更细粒度的划分,同时获取更精确的占用和语义信息。然而,三维体素表示的处理带来了巨大的内存和计算开销,导致当前占用率预测方法的部署受到限制。FlashOcc 作为即插即用的占用网络,在保持精度的同时实现了更快的推理速度和更低的内存消耗。本文将介绍 FlashOcc 在地平线征程 6E/M 平台上的优化部署。

2.性能精度指标

在这里插入图片描述

3.公版模型介绍

FlashOcc 在该领域做出了开创性的贡献,成功地以惊人的精度实现了实时 surround 视图 3D 占用预测。此外,在不同的车载平台上部署时表现出更强的通用性,因为它消除了对昂贵的体素级特征处理的需要,其中避免了视图变换器或 3D(可变形)卷积算子。如下图所示,FlashOcc 的输入为 6 张图像(前后视角+周视),输出是密集占用预测结果。

在这里插入图片描述
FlashOcc 网络主要由 5 个部分组成:

  • 2D 图像编码器:使用 ResNet50+FPN 从多视角图像中提取多尺度图像特征;
  • **视图转换模块:**使用 LSS 实现从 2D 感知视图图像特征到 3D BEV 表示的映射;
  • BEV 编码器:提取 BEV 空间的特征,并结合了多尺度的 BEV 特征来提升特征表示质量;
  • **占用预测模块:**由多层 Conv 或者复杂的多尺度特征融合模块组成,该模块预测每个体素的分割标签;
  • **可选的时间融合模块:**由时空对齐模块和特征融合模块组成,增强对动态目标或属性的感知。

4.地平线部署优化

改动点说明:

  1. **输入图像大小:**由公版的 256x704 调整为 512x960;
  2. **BEV 网格大小:**由公版的 200x200 调整为 128x128;
  3. **Image encoder backbone:**使用地平线深度优化的高效 backbone HENet 替换公版中的 ResNet50;
  4. **Bev encoder backbone:**使用地平线深度优化的高效 backbone HENet 替换公版模型中的 CustomResNet;
  5. **视图转换模块:**使用地平线针对性优化后的 LSSTransformer 来替换公版中的 bevpooling 实现的 LSSViewTransformer,且移除了公版中的时序融合模块;

4.1 性能优化

4.1.1 Backbone

Image Encoder 采用了 HENet+FPN 来提取 6V 图像的多尺度特征,不仅在精度上可与 ResNet50 相媲美,而且在性能上有显著优势,这里的 FPN 采用的是地平线的高效实现,相对于公版更加高效。BEV Encoder 同样采用了 HENet+BiFPN 来提取 BEV 特征,BiFPN 这种重复双向跨尺度连接的结构,可以更好地实现梯度传播,从而实现 BEV 特征的多尺度融合。

HENet 是针对 J6 平台专门设计的高效 backbone,其采用了纯 CNN 架构,总体可分为四个 stage,每个 stage 会进行 2 倍下采样。以下为总体的结构配置:

depth = [4, 3, 8, 6]
block_cls = ["GroupDWCB", "GroupDWCB", "AltDWCB", "DWCB"]
width = [64, 128, 192, 384]
attention_block_num = [0,0,0,0]
mlp_ratios, mlp_ratio_attn = [2, 2, 2, 3], 2
act_layer = ["nn.GELU", "nn.GELU", "nn.GELU", "nn.GELU""]
use_layer_scale = [True,True,True,True]
final_expand_channel, feature_mix_channel = 0,1024
down_cls = ["S2DDown", "S2DDown", "S2DDown", "None"71

模型相关细节可以参考 HENet 高效模型相关介绍。

代码路径:/usr/local/lib/python3.10/dist-packages/hat/models/backbones/henet.py

4.1.2View transformer

View transformer 采用地平线深度优化后的 LSSTransformer,替换 J6 平台暂不支持的 bevpooling,从而高效地将图像特征转换到 BEV 空间。为了进一步提升性能,将 bev grid size 由公版的 200x200 调整为了 128x128。LSSTransformer 主要的工作流程如下所示:

在这里插入图片描述

View transformer 主要包括分为 3 个部分:

  1. 生成深度特征
  2. 对深度特征和图像特征做 bev 坐标转换
  3. 生成视锥点云特征(frustum features)

接下来将对这三个部分的具体代码实现进行介绍:

生成深度特征

View transformer 是基于图像特征,经过卷积层生成了 depth 为 45 的 depth_feature,并使用 softmax 计算 depth_feature 的 score 值。对应代码如下所示:

self.depth_net = ConvModule2d(in_channels=in_channels,out_channels=depth,kernel_size=1,padding=0,stride=1,bias=False,
)
depth = self.softmax(self.depth_net(feats))

代码路径:/usr/local/lib/python3.10/dist-packages/hat/models/task_modules/view_fusicon/view_transformer.py

生成 BEV 特征

为了减少计算量,LSSTransformer 首先将图像特征和深度特征分别转换到 BEV 视角下,然后对二者进行点乘计算。其中,图像特征转换到 BEV 空间的采样坐标 points 的生成在_gen_reference_point函数中,计算逻辑如下:

在这里插入图片描述

生成视锥点云特征

为了不遗失坐落在相同 voxel 中的点云特征,将对每个 voxel 都采样 10 次,最终将每个点云特征相加得到 BEV 特征图。对应代码:

 class LSSTransformer(ViewTransformer):...def ``_spatial_transfom(self``, feats, points):...for i in range(self.num_points):#将图像特征转换到 BEV 视角下homo_feat = self.grid_sample(feat,#[1, 64, 96, 30]fpoints[i * B : (i + 1) * B],)#将深度特征转换到 BEV 视角下homo_dfeat = self.dgrid_sample(dfeat,#[1, 1, 270, 480]dpoints[i * B : (i + 1) * B],)#生成视锥点云特征homo_feat = self.floatFs.mul(homo_feat, homo_dfeat)#[1, 64, 128, 128]homo_feats.append(homo_feat)trans_feat = homo_feats[0]for f in homo_feats[1:]:trans_feat = self.floatFs.add(trans_feat, f)return trans_feat #[1, 64, 128, 128]

4.2 精度优化

FlashOcc 采用以下策略提升浮点精度:

**模型结构优化:**使用更多地平线进行针对性优化后的结构,包括 backbone、view_transformer、bevencoder 等,浮点精度相对于公版有所提升;

**加载预训练权重:**加载 HENet 的浮点预训练权重。

总结与建议

5.1 训练建议

  1. 浮点训练时加载 HENet 的预训练权重;

5.2 部署建议

选择合适的 BEV Grid 尺寸

从图像空间到 BEV 空间的转换,是稠密特征到稠密特征的重新排列组合,计算量比较大,与图像尺寸以及 BEV 特征图尺寸成正相关。若要保持 BEV Grid 的分辨率不变(比如 0.5m/格),则需要大大增加 BEV 特征图的尺寸,从而使得端上计算负担和带宽负担都过重;若保持 BEV 特征图的尺寸不变,则需要使用更粗粒度的 BEV Grid,感知精度就会下降(每个 grid 的尺寸增加)。所以在模型设计之初,综合考虑模型的精度和性能以选择合适的 BEV Grid 尺寸。

使用高效 backbone 提取特征

建议选择 征程6 平台高效 Backbone 来搭建模型,高效 Backbone 经过在 征程6 平台的迭代优化和验证,相比其它公版 Backbone,在性能和精度上可以取得更加出色的效果,因此选取 征程6 平台高效 Backbone 来搭建模型可以对整个场景模型带来性能和精度的增益。

附录

  1. 论文:FlashOcc
    化和验证,相比其它公版 Backbone,在性能和精度上可以取得更加出色的效果,因此选取 征程6 平台高效 Backbone 来搭建模型可以对整个场景模型带来性能和精度的增益。

附录

  1. 论文:FlashOcc
  2. 公版模型代码:Github-FlashOcc

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/145788.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

如何利用nw.js打包vue项目

引言 最近有一个开发windows桌面应用的需求, 需要将vue项目打包成.exe文件,最好是变成可安装版(非绿色版)。特此记录一下如何通过nw.js将vue项目打包成.exe。可能这种方式不是最优,仅供大家参考! nw.js简介(以下描述来自nw.js官…

如何估算 Transformer 模型中的参数数量

最有效的理解新机器学习架构(以及任何新技术)的方式是从零开始实现它。虽然这种方法非常复杂、耗时,并且有时几乎不可能做到,但它能帮助你深入理解每一个实现细节。例如,如果你没有相应的计算资源或数据,你…

AI宠物拟人化新玩法,教你如何用0成本打造爆款创意内容!

近年来,随着AI技术的快速发展,各种创新玩法不断涌现,尤其是在内容创作领域,AI带来的变革尤为显著。 **其中,宠物拟人化逐渐成为社交媒体上的一大热门话题。**通过AI生成工具,我们不仅可以将宠物拟人化&…

面试面经|大模型算法岗常见面试题100道

本文提供了一份全面的大模型算法岗位面试题清单,包括基础理论、模型结构、训练微调策略、应用框架、分布式训练和模型推理等方面的知识点,旨在帮助求职者准备相关技术面试。 一、基础篇 1、目前主流的开源模型体系有哪些? Transformer体系&a…

基于yolov8和openpose人体骨骼关键点实现的摔倒姿态识别检测系统实现

【参考源码】 GitHub - HRonaldo/Openpose_YOLO 本项目参考上面框架进行全面改进,改进如下: (1)将检测框架换成当前最流行框架yolov8,并封装成类实现模块化设计。关于yolov5优化项目可以访问:https://bl…

队列的各种接口的实现(C)

队列的概念 队列:只允许在一端进行插入数据操作,在另一端进行删除数据操作的特殊线性表,队列具有先进先出FIFO(First In First Out) 入队列:进行插入操作的一端称为队尾 出队列:进行删除操作的一端称为队头 队列的实…

华为地图服务 - 如何在地图上绘制多边形? -- HarmonyOS自学16

场景介绍 本章节将向您介绍如何在地图上绘制多边形。 接口说明 添加多边形功能主要由MapPolygonOptions、addPolygon和MapPolygon提供,更多接口及使用方法请参见接口文档。 接口名 描述 MapPolygonOptions 用于描述MapPolygon属性。 addPolygon(options: mapC…

(八)使用Postman工具调用WebAPI

访问WebAPI的方法&#xff0c;Postman工具比SoapUI好用一些。 1.不带参数的get请求 [HttpGet(Name "GetWeatherForecast")] public IEnumerable<WeatherForecast> Get() {return Enumerable.Range(1, 5).Select(index > new WeatherForecast{Date DateT…

优优嗨聚集团:引领互联网服务新篇章

在当今这个日新月异的互联网时代&#xff0c;企业之间的竞争愈发激烈&#xff0c;如何高效地运营线上业务成为了众多商家关注的焦点。在这一背景下&#xff0c;四川优优嗨聚集团凭借其卓越的服务质量、创新的技术解决方案和强大的品牌影响力&#xff0c;逐渐成为了众多商家信赖…

【大模型教程】如何在Spring Boot中无缝集成LangChain4j,玩转AI大模型!

0 前言 LangChain4j 提供了用于以下功能的 Spring Boot 启动器&#xff1a; 常用集成声明式 AI 服务 1 常用集成的 Spring Boot starters Spring Boot 启动器帮助通过属性创建和配置 语言模型、嵌入模型、嵌入存储 和其他核心 LangChain4j 组件。 要使用 Spring Boot 启动…

基于MATLAB的虫害检测系统

课题背景介绍 中国为农业大国&#xff0c;因此在农业病虫害防治等方面积累了丰富的经验&#xff0c;但在实际工作过程中也存在许多问题。如过于依赖传统经验&#xff0c;对突如而来的新型病虫害问题研究不够到位&#xff0c;如由于判断者主观上面的一些模糊&#xff0c;而带来…

从零实现循环神经网络(二)

#本篇博客代码是基于上一篇《从零实现循环神经网络&#xff08;一&#xff09;》 上一篇网址&#xff1a;从零实现循环神经网络&#xff08;一&#xff09;-CSDN博客 1.初始化时返回隐藏层状态 def init_rnn_state(batch_size, num_hiddens, device):"""bat…

大神用一幅动态的风景画:让天气预报变得更生动

你有没有想过,有一天你可以不看那些冰冷的天气图表,而是通过一幅美丽的风景画就能知道明天的天气?想象一下,清晨醒来,打开手机,看到的不是一堆晦涩的数字,而是一幅阳光洒满草原的画,告诉你今天是个好天气。这就是现在逐渐兴起的一种新方式——通过风景图像来可视化天气…

【网络】高级IO——LT和ET

在上一篇的学习中&#xff0c;我们已经简单的使用了epoll的三个接口&#xff0c;但是仅仅了解那些东西是完全不够的&#xff01;&#xff01;接下来我们将更深入的学习epoll 1.epoll的两种工作模式——LT和ET 下面来举一个例子帮助大家理解ET和LT模式的区别&#xff08;送快递…

内存:生成式AI带来全新挑战与机遇

之前小编也写过多篇AI存储相关的文章&#xff0c;包括AI背景与分层存储的分析&#xff0c;以及AI存储重点从训练转向推理等内容。具体参考&#xff1a; 深度剖析&#xff1a;AI存储架构的挑战与解决方案 存储正式迈入超大容量SSD时代&#xff01; 这可能是最清晰的AI存储数据…

stack和queue(一)

接下来讲解一些stack栈和queue的简单使用 stack的概念 stack是一种容器适配器&#xff0c;专门用在具有后进先出操作的上下文环境中&#xff0c;其删除只能从容器的一端进行 元素的插入与提取操作。 特性是先进先出 后进后出 构造一个栈堆 int main() {deque<int>…

vue项目加载cdn失败解决方法

注释index.html文件中 找到vue.config.js文件注释、

Spring IDEA 2024 自动生成get和set以及toString方法

1.简介 在IDEA中使用自带功能可以自动生成get和set以及toString方法 2.步骤 在目标类中右键&#xff0c;选择生成 选择Getter和Setter就可以生成每个属性对应的set和get方法&#xff0c; 选择toString就可以生成类的toString方法&#xff0c;

快速响应:提升前端页面加载速度技巧的必知策略方案

在本文中&#xff0c;我们将深入探讨导致页面加载缓慢的常见原因&#xff0c;并分享一系列切实可行的优化策略&#xff0c;无论你是刚入门的新手&#xff0c;还是经验丰富的开发者&#xff0c;这些技巧都将帮助你提升网页性能&#xff0c;让你的用户体验畅快无阻。 相信作为前端…

网页与微信小程序:一场轻量化应用的博弈

网页与微信小程序&#xff1a;一场轻量化应用的博弈 在如今的信息时代&#xff0c;移动互联网已然成为主流&#xff0c;而在这一趋势的驱动下&#xff0c;应用形态也在不断演变。微信小程序与传统网页&#xff0c;作为两种不同的应用形态&#xff0c;正如两条并行却又交织的道…