征程 6 工具链性能分析与优化 2|模型性能优化建议

01 引言

图片

为了应对低、中、高阶智驾场景,以及当前 AI 模型在工业界的应用趋势,地平线推出了征程 6 系列芯片。

在软硬件架构方面,征程 6 不仅保持了对传统 CNN 网络的高效支持能力,还强化了对 Transformer 类型网络的支持,主要表现为大幅强化了对逐点计算、数据搬运的能力。基于征程 6 硬件平台的增强和算法移植的痛点,同时坚持 ‘软硬协同’ 的设计理念,征程 6 工具链衍生了诸多新特性。

在 征程 6 工具链性能分析与优化 1|编译器预估 perf 解读与性能分析 这篇文章中,我们解释了编译器预估 perf 中各个参数的含义以及对性能的初步分析。

本篇文章,我们将基于征程 6 软硬件特性,整理出征程 6 工具链算法优化常用策略。

02 模型性能优化建议

本节将结合笔者在征程 6 工具链参考算法的学习经验,整理常用的性能优化策略。

2.1 高效 backbone

HENet 是针对征程 6 平台专门设计的高效 backbone,其采用了纯 CNN 架构,总体可分为四个 stage,每个 stage 会进行 2 倍下采样。以下为总体的结构配置:

depth = [4, 3, 8, 6]
block_cls = ["GroupDWCB", "GroupDWCB", "AltDWCB", "DWCB"]
width = [64, 128, 192, 384]
attention_block_num = [0,0,0,0]
mlp_ratios, mlp_ratio_attn = [2, 2, 2, 3], 2
act_layer = ["nn.GELU", "nn.GELU", "nn.GELU", "nn.GELU""]
use_layer_scale = [True,True,True,True]
final_expand_channel, feature_mix_channel = 0,1024
down_cls = ["S2DDown", "S2DDown", "S2DDown", "None"71

模型相关细节可以参考 HENet 高效模型相关介绍。

2.2 算子优化建议

2.2.1 遵循硬件对齐原则

一般的 tensor shape 对齐到 2 的幂次,conv-like 的算子 H 维度对齐到 8、W 维度对齐到 16、C 维度对齐到 32,若设计尺寸不满足对齐规则时会对 tensor 自动进行 padding,造成无效的算力浪费。

2.2.2 尽量使用 BPU 算子搭建模型

BPU 算子本身性能远高于 CPU 算子,且 CPU 和 BPU 之间的异构调度还会引入量化、反量化节点,其计算因为需要遍历数据,所以耗时也与 shape 大小成正比。

所以建议结合用户手册中的算子支持列表,选择合适的 BPU 算子来搭建模型。

2.2.3 减少数据搬运操作

虽然征程 6 中大幅度强化了对数据搬运(transpose、reshape)操作的效率,但是建议在模型中还是避免频繁的数据搬运操作,同时注意 reshape 操作时,改动的维度越多,计算效率越低。

2.2.4 将 attention 层的 add、sum、mean 替换为 conv 计算

self.sum_ref_offset = nn.Linear(self.num_levels * self.num_heads * self.num_points * 2 * 2,self.num_levels * self.num_heads * self.num_points * 2,bias=False,
)
self.sum_ref_offset = nn.Linear(self.num_levels * self.num_heads * self.num_points * 2 * 2,self.num_levels * self.num_heads * self.num_points * 2,bias=False,
)self.add_pos = nn.Linear(self.embed_dims * 2,self.embed_dims,bias=False,
)
self.queries_mean_pad = nn.Conv2d(self.num_bev_queue * self.view_num,self.view_num,1,bias=False,
)

另外,笔者还建议将 Linear 替换为 Conv1x1 ,从而获得性能的进一步提升。

详情见:地平线 3D 目标检测 Bevformer 参考算法 V1.0

2.2.5 GridSample 性能优化

GridSample 是 BEV 坐标变换和 deformable conv 高频使用的算子,若 grid 的 size 过大或 H,W 分布的不均匀则可能会有带宽问题(该问题在征程 5 上常有发生,随着征程 6 的带宽增加,对 gridsample 的约束限制降低)或运行到 CPU 上,可以采用以下方式提供此算子的运行效率:

  1. 对 gridsample 计算做拆分,比如 Nx22223x4x2 的 gird,数据集中在 H 维度,导致硬件对齐后计算量相较于之前增加不少,所以在算法设计的时候可以将 22223 维度进行拆分,比如 Nx22223x4x2–>Nx313x284x2;

  2. 合理选择 BEV Grid 尺寸,征程 6 平台的带宽得到增强,但仍需考虑 BEV Grid 尺寸对模型性能的影响,并且综合衡量模型精度预期,选择合适的 BEV Grid 尺寸以获得模型性能和精度的平衡;

2.2.6 cumsum 算子替换

公版模型的 QCNetDecoder 中使用了征程 6 暂不支持的 torch.cumsum 算子,参考算法中将其替换为了 Conv1x1,相关代码如下:

        self.loc_cumsum_conv = nn.Conv2d(self.num_future_steps,self.num_future_steps,kernel_size=1,bias=False,)self.scale_cumsum_conv = nn.Conv2d(self.num_future_steps,self.num_future_steps,kernel_size=1,bias=False,)

详情见:地平线轨迹预测 QCNet 参考算法-V1.0

2.2.7 Gather/GatherND 算子高效支持

在地平线以往的版本(OE3.0.17)中,Gather/GatherND 算子底层均为 CPU 实现,效率较低,在地平线征程 6 工具链即将发布的正式版本中,Gather/GatherND 算子将支持 BPU 加速,可以极大地提升计算效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/9352.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

字符编码和字符集

1. 字符编码和字符集 1.1. 字符编码 编码:字符 –>字节解码:字节 –>字符字符编码Character Encoding : 就是一套自然语言的字符与二进制数之间的对应规则。 1.2. 字符集 字符集 Charset:是一个系统支持的所有字符的集合&#xff0…

Kafka面试题解答(二)

1.怎么尽可能保证 Kafka 的可靠性 kafka是可能会出现数据丢失问题的,Leader维护了一个动态的in-sync replica set(ISR),意为和 Leader保持同步的FollowerLeader集合(leader:0,isr:0,1,2)。 如果Follower长…

Chromium127编译指南 Linux篇 - 获取Chromium源码(四)

引言 在前一节中,我们成功配置了 depot_tools 并验证了开发环境的基本可用性。接下来,我们将着手于拉取和初始设置 Chromium 的源码,这是进行 Chromium 开发的首要步骤。通过有效的源码管理和版本控制,我们能更高效、流畅地进行开…

LINUX离线安装Milvus

一.下载安装包 离线安装Docker需要你提前下载Docker的安装包,并将其传输到目标机器上进行安装。以下是一个基于Linux系统的离线安装Docker的简要步骤和示例: 从有网络的机器上下载Docker安装包。 将下载的安装包拷贝到离线的服务器上。 在离线的服务…

【HGT】文献精讲:Heterogeneous Graph Transformer

【HGT】文献精讲:Heterogeneous Graph Transformer 标题: Heterogeneous Graph Transformer (异构图Transformer) 作者团队: 加利福尼亚大学Yizhou Sun 摘要: 近年来,图神经网络(GN…

书客、柏曼、爱德华护眼台灯护眼效果怎么样?真实测评告诉你真相

现在的孩子学习压力很大,在学校课程已经塞满了大半天,课后的作业更是不少,空闲时间还需要去课后补习班的数不胜数。用眼的次数非常的高,眼睛很容易感到疲惫,这时候我们的护眼台灯大有作用,好的护眼台灯可以…

(一)<江科大STM32>——软件环境搭建+新建工程步骤

一、软件环境搭建 (1)安装 Keil5 MDK 文件路径:江科大stm32入门教程资料/Keil5 MDK/MDK524a.EXE,安装即可,路径不能有中文。 (2)安装器件支持包 文件路径:江科大stm32入门教程资料…

Springboot 整合 Java DL4J 打造文本摘要生成系统

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/literature?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,…

外排序之文件归并排序实现

1. 外排序 外排序(External sorting)是指能够处理极⼤量数据的排序算法。通常来说,外排序处理的数据不能 ⼀次装⼊内存,只能放在读写较慢的外存储器(通常是硬盘)上。外排序通常采⽤的是⼀种“排序-归并”的策略。在排序阶段&…

校园官网练习---web

HTML&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>西安工商学院</title><…

JAVA-08-继承

继承 父类&#xff1a;被继承的类 子类&#xff1a;继承父类的类&#xff0c;可以访问父类的公有和保护成员。 extends:使用 extends 关键字来表示一个类继承另一个类。 方法重写:子类可以重写父类的方法&#xff0c;以提供特定的实现。重写的方法必须与父类中的方法具有相…

Trimble X12三维激光扫描仪正在改变游戏规则【上海沪敖3D】

Trimble X12 三维激光扫描仪凭借清晰、纯净的点云数据和亚毫米级的精度正在改变游戏规则。今天的案例我们将与您分享&#xff0c;X12是如何帮助专业测量咨询公司OR3D完成的一个模拟受损平转桥运动的项目。 由于习惯于以微米为单位工作&#xff0c;专业测量机构OR3D是一家要求…

SpringBoot框架下的资产管理创新

4系统概要设计 4.1概述 系统设计原则 以技术先进、系统实用、结构合理、产品主流、低成本、低维护量作为基本建设原则&#xff0c;规划系统的整体构架. 先进性&#xff1a; 在产品设计上&#xff0c;整个系统软硬件设备的设计符合高新技术的潮流&#xff0c;媒体数字化、压缩、…

统信UOS开发环境支持Perl

UOS凭借广泛的编程语言支持,为开发者构建了一个高效灵活的开发环境,无需担心环境兼容性问题。 文章目录 一、环境部署1. Perl开发环境安装2. Perl开发环境配置环境变量配置模块管理器编辑器集成调试工具二、代码示例文件处理Web开发三、常见问题1. 依赖管理问题2. 性能问题3.…

qt QClipboard详解

1、概述 QClipboard是Qt框架中的一个类&#xff0c;它提供了对窗口系统剪贴板的访问能力。剪贴板是一个临时存储区域&#xff0c;通常用于在应用程序之间传递文本、图像和其他数据。QClipboard通过统一的接口来操作剪贴板内容&#xff0c;使得开发者能够方便地实现剪切、复制和…

机器学习在时间序列预测中的应用与实现——以电力负荷预测为例(附代码)

&#x1f4dd;个人主页&#x1f339;&#xff1a;一ge科研小菜鸡-CSDN博客 &#x1f339;&#x1f339;期待您的关注 &#x1f339;&#x1f339; 1. 引言 随着数据采集技术的发展&#xff0c;时间序列数据在各个领域中的应用越来越广泛。时间序列预测旨在基于过去的时间数据来…

强大的吾店云建站平台介绍

经过多年在WordPress建站领域的摸索和探索&#xff0c;能轻松创建和管理各种类型网站的平台 – 吾店云建站平台诞生了。 应该说这是一个艰苦卓绝的过程&#xff0c;在中国创建一个能轻松创建和使用WordPress网站的平台并不容易&#xff0c;最主要是网络环境和托管软件的限制。…

猿创征文|Inscode桌面IDE:打造高效开发新体验

猿创征文&#xff5c;Inscode桌面IDE&#xff1a;打造高效开发新体验 引言 在当今快速发展的软件开发领域&#xff0c;一个高效、易用的集成开发环境&#xff08;IDE&#xff09;是每个开发者必不可少的工具。Inscode 桌面 IDE 作为一款新兴的开发工具&#xff0c;凭借其强大…

Java多线程并发安全问题

多线程并发安全问题 概念 当多个线程并发操作同一临界资源,由于线程切换时机不确定,导致操作临界资源的顺序出现混乱严重时可能导致系统瘫痪. 临界资源:操作该资源的全过程同时只能被单个线程完成. 例 当beans为1时&#xff0c;若两个线程同时调用getBean方法&#xff0c;t…

电脑管家实时监控软件下载 | 六款知名又实用的电脑监控软件推荐!(珍藏篇)

在当今的商业环境&#xff0c;企业对于员工在工作期间的行为监控需求越来越强烈。 尤其是在网络化和信息化程度不断提高的今天&#xff0c;电脑管家实时监控软件是企业管理员工工作行为、提高工作效率、防止信息泄露的重要工具。 本文&#xff0c;将为您推荐六款知名又实用的电…