随着自动驾驶技术发展及方案演进,市场对于数据标注的数量和质量的需求都呈现指数级增长。传统的手工标注已不能满足标注需求,自动标注伴随大模型的发展应运而生。
在这一背景下,虎嗅智库发布《自动驾驶数据标注技术落地洞察》,并将澳鹏Appen自动驾驶数据标注解决方案作为行业代表案例进行分析呈现。
本文来源 | 虎嗅智库
虎嗅智库《自动驾驶数据标注技术落地洞察》报告中呈现的澳鹏Appen案例,聚焦于一家头部OEM企业的数据标注诉求。
客户的诉求主要集中在自动驾驶的泊车、4D标注等技术方面的数据服务。客户希望以澳鹏Appen为合作伙伴,共同探索产业前沿的毫米波雷达标注以及点云BEV标注方式等。
挑 / 战
在点云方面,受制于平台的承载能力,例如4D情境下,对平台的易用性存在巨大的挑战。客户自己的平台较难承载千万级别以上的点云标注,希望澳鹏在平台易用性和流畅性优化方面提供服务。
另一方面是标注效率问题。客户受限于自身标注平台、工具及工作流等,标注效率不理想,希望借助澳鹏的数据标注服务,帮助其开发专业、高效的工具包、工作流等提升标注效率,降低标注成本。
解 / 决
STAGE 1
在数据到达的初期,通过澳鹏自研的预标注大模型,对原始数据进行预处理,提供项目标注要求的基本预标注结果。
STAGE 2
基于初版预标注结果,澳鹏通过高级标注员进行结果的检验和修正。在这个过程中,引入智能交互式模型,由算法支撑,可以用较少的工作量更快、更高效地提升标注效果。
STAGE 3
随着项目的推进,标注数据量的不断更新,高质量的标注结果不断回流到原始预标注模型进行模型的微调优化。优化后的预标注模型产出更高质量的标注结果,极大地降低了人工标注的成本。
在项目的交付过程中,澳鹏针对项目需求,定制了不同的算法。具体设计上,如上图所示,主要分为骨干网络、特征聚合和业务输出部分。经过项目实际测算,泊车项目中单条数据的标注效率提升达到47.6%,地下车库检测数据标注效率提升达26.8%。
澳鹏Appen项目定制模型架构设计原理:
1)提高算法工作流的复用和模块化程度。做到和下层项目业务定义的解耦,不需要每个项目重新造轮子。
2)动态映射业务要求。基于澳鹏平台标注模板定义功能,将标注规则映射为某种语法树的形式。算法可设计通用的机制去自动化该板块的学习推理流程。
3)能做到快速启动。对于一些集中的、类似场景和标注要求的项目,能快速移植算法服务,例如智能泊车项目中的提效。
成 / 果
澳鹏在服务客户的过程中,协助客户搭建内部的数据闭环。澳鹏针对客户技术发展路径中所遇到的新功能进行开发定制,同时也把自动化标注的相关经验引入到数据闭环搭建的过程中,为客户更加高效地生产高质量自动驾驶训练数据提供基础设施和行业经验。
根据项目实际结果反馈,澳鹏自动化数据标注在2D图像类项目上可达到5倍以上的效率提升;3D语义分割数据标注效率提升可达到35%以上;2/3D物体检测预标注模型效率提升在15%-30%不等;数据交付的质量方面,准确率平均达到99%以上。
澳鹏Appen自动驾驶数据标注解决方案普遍可以为客户增效30%以上,带来直观的成本优化。
《自动驾驶数据标注技术落地洞察》
点击此处 | 登录虎嗅智库官网查看