地平线占用预测 FlashOcc 参考算法-V1.0

1.简介

3D Occupancy Networks 的基本思路是将三维空间划分成体素网格，并对每个网格进行各类感知任务的预测。目前以网格为中心的方法能够预测每个网格单元的占用率、语义类别、未来运动位移和实例信息。3D occupancy 可以对道路障碍物进行更细粒度的划分，同时获取更精确的占用和语义信息。然而，三维体素表示的处理带来了巨大的内存和计算开销，导致当前占用率预测方法的部署受到限制。FlashOcc 作为即插即用的占用网络，在保持精度的同时实现了更快的推理速度和更低的内存消耗。本文将介绍 FlashOcc 在地平线征程 6E/M 平台上的优化部署。

2.性能精度指标

在这里插入图片描述

3.公版模型介绍

FlashOcc 在该领域做出了开创性的贡献，成功地以惊人的精度实现了实时 surround 视图 3D 占用预测。此外，在不同的车载平台上部署时表现出更强的通用性，因为它消除了对昂贵的体素级特征处理的需要，其中避免了视图变换器或 3D（可变形）卷积算子。如下图所示，FlashOcc 的输入为 6 张图像（前后视角+周视），输出是密集占用预测结果。

在这里插入图片描述
FlashOcc 网络主要由 5 个部分组成：

2D 图像编码器：使用 ResNet50+FPN 从多视角图像中提取多尺度图像特征；
**视图转换模块：**使用 LSS 实现从 2D 感知视图图像特征到 3D BEV 表示的映射；
BEV 编码器：提取 BEV 空间的特征，并结合了多尺度的 BEV 特征来提升特征表示质量；
**占用预测模块：**由多层 Conv 或者复杂的多尺度特征融合模块组成，该模块预测每个体素的分割标签；
**可选的时间融合模块：**由时空对齐模块和特征融合模块组成，增强对动态目标或属性的感知。

4.地平线部署优化

改动点说明：

**输入图像大小：**由公版的 256x704 调整为 512x960；
**BEV 网格大小：**由公版的 200x200 调整为 128x128；
**Image encoder backbone：**使用地平线深度优化的高效 backbone HENet 替换公版中的 ResNet50；
**Bev encoder backbone：**使用地平线深度优化的高效 backbone HENet 替换公版模型中的 CustomResNet；
**视图转换模块：**使用地平线针对性优化后的 LSSTransformer 来替换公版中的 bevpooling 实现的 LSSViewTransformer，且移除了公版中的时序融合模块；

4.1 性能优化

4.1.1 Backbone

Image Encoder 采用了 HENet+FPN 来提取 6V 图像的多尺度特征，不仅在精度上可与 ResNet50 相媲美，而且在性能上有显著优势，这里的 FPN 采用的是地平线的高效实现，相对于公版更加高效。BEV Encoder 同样采用了 HENet+BiFPN 来提取 BEV 特征，BiFPN 这种重复双向跨尺度连接的结构，可以更好地实现梯度传播，从而实现 BEV 特征的多尺度融合。

HENet 是针对 J6 平台专门设计的高效 backbone，其采用了纯 CNN 架构，总体可分为四个 stage，每个 stage 会进行 2 倍下采样。以下为总体的结构配置：

depth = [4, 3, 8, 6]
block_cls = ["GroupDWCB", "GroupDWCB", "AltDWCB", "DWCB"]
width = [64, 128, 192, 384]
attention_block_num = [0,0,0,0]
mlp_ratios, mlp_ratio_attn = [2, 2, 2, 3], 2
act_layer = ["nn.GELU", "nn.GELU", "nn.GELU", "nn.GELU""]
use_layer_scale = [True,True,True,True]
final_expand_channel, feature_mix_channel = 0,1024
down_cls = ["S2DDown", "S2DDown", "S2DDown", "None"71

模型相关细节可以参考 HENet 高效模型相关介绍。

代码路径：/usr/local/lib/python3.10/dist-packages/hat/models/backbones/henet.py

4.1.2View transformer

View transformer 采用地平线深度优化后的 LSSTransformer，替换 J6 平台暂不支持的 bevpooling，从而高效地将图像特征转换到 BEV 空间。为了进一步提升性能，将 bev grid size 由公版的 200x200 调整为了 128x128。LSSTransformer 主要的工作流程如下所示：

在这里插入图片描述

View transformer 主要包括分为 3 个部分：

生成深度特征
对深度特征和图像特征做 bev 坐标转换
生成视锥点云特征（frustum features）

接下来将对这三个部分的具体代码实现进行介绍：

生成深度特征

View transformer 是基于图像特征，经过卷积层生成了 depth 为 45 的 depth_feature，并使用 softmax 计算 depth_feature 的 score 值。对应代码如下所示：

self.depth_net = ConvModule2d(in_channels=in_channels,out_channels=depth,kernel_size=1,padding=0,stride=1,bias=False,
)
depth = self.softmax(self.depth_net(feats))

代码路径：/usr/local/lib/python3.10/dist-packages/hat/models/task_modules/view_fusicon/view_transformer.py

生成 BEV 特征

为了减少计算量，LSSTransformer 首先将图像特征和深度特征分别转换到 BEV 视角下，然后对二者进行点乘计算。其中，图像特征转换到 BEV 空间的采样坐标 points 的生成在_gen_reference_point函数中，计算逻辑如下：

在这里插入图片描述

生成视锥点云特征

为了不遗失坐落在相同 voxel 中的点云特征，将对每个 voxel 都采样 10 次，最终将每个点云特征相加得到 BEV 特征图。对应代码：

 class LSSTransformer(ViewTransformer):...def ``_spatial_transfom(self``, feats, points):...for i in range(self.num_points):#将图像特征转换到 BEV 视角下homo_feat = self.grid_sample(feat,#[1, 64, 96, 30]fpoints[i * B : (i + 1) * B],)#将深度特征转换到 BEV 视角下homo_dfeat = self.dgrid_sample(dfeat,#[1, 1, 270, 480]dpoints[i * B : (i + 1) * B],)#生成视锥点云特征homo_feat = self.floatFs.mul(homo_feat, homo_dfeat)#[1, 64, 128, 128]homo_feats.append(homo_feat)trans_feat = homo_feats[0]for f in homo_feats[1:]:trans_feat = self.floatFs.add(trans_feat, f)return trans_feat #[1, 64, 128, 128]

4.2 精度优化

FlashOcc 采用以下策略提升浮点精度：

**模型结构优化：**使用更多地平线进行针对性优化后的结构，包括 backbone、view_transformer、bevencoder 等，浮点精度相对于公版有所提升；

**加载预训练权重：**加载 HENet 的浮点预训练权重。

总结与建议

5.1 训练建议

浮点训练时加载 HENet 的预训练权重；

5.2 部署建议

选择合适的 BEV Grid 尺寸

从图像空间到 BEV 空间的转换，是稠密特征到稠密特征的重新排列组合，计算量比较大，与图像尺寸以及 BEV 特征图尺寸成正相关。若要保持 BEV Grid 的分辨率不变（比如 0.5m/格），则需要大大增加 BEV 特征图的尺寸，从而使得端上计算负担和带宽负担都过重；若保持 BEV 特征图的尺寸不变，则需要使用更粗粒度的 BEV Grid，感知精度就会下降（每个 grid 的尺寸增加）。所以在模型设计之初，综合考虑模型的精度和性能以选择合适的 BEV Grid 尺寸。