地平线 3D 目标检测 bev_sparse 参考算法-V1.0

地平线开发者 | 2024-10-30 10:06:32 阅读：116

发布文章

该示例为参考算法，仅作为在征程 6 上模型部署的设计参考，非量产算法

01 简介

在自动驾驶视觉感知系统中，为了获得环绕车辆范围的感知结果，通常需要融合多摄像头的感知结果。目前更加主流的感知架构则是选择在特征层面进行多摄像头融合。

其中比较有代表性的路线就是这两年很火的 BEV 方法，继 Tesla Open AI Day 公布其 BEV 感知算法之后，相关研究层出不穷，感知效果取得了显著提升，BEV 也几乎成为了多传感器特征融合的代名词。

但是，随着大家对 BEV 研究和部署的深入，BEV 范式也逐渐暴露出来了一些缺陷：

感知范围、感知精度、计算效率难平衡：从图像空间到 BEV 空间的转换，是稠密特征到稠密特征的重新排列组合，计算量比较大，与图像尺寸以及 BEV 特征图尺寸成正相关。
在大家常用的 nuScenes 数据中，感知范围通常是长宽 [-50m， +50m] 的方形区域，然而在实际场景中，我们通常需要达到单向 100m，甚至 200m 的感知距离。
若要保持 BEV Grid 的分辨率不变，则需要大大增加 BEV 特征图的尺寸，从而使得端上计算负担和带宽负担都过重；若保持 BEV 特征图的尺寸不变，则需要使用更粗的 BEV Grid，感知精度就会下降。
因此，在车端有限的算力条件下，BEV 方案通常难以实现远距离感知和高分辨率特征的平衡；
无法直接完成图像域的 2D 感知任务：BEV 空间可以看作是压缩了高度信息的 3D 空间，这使得 BEV 范式的方法难以直接完成 2D 相关的任务，如标志牌和红绿灯检测等，感知系统中仍然要保留图像域的感知模型。

实际上，我们感兴趣的目标（如动态目标和车道线）在空间中的分布通常很稀疏，BEV 范式中有大量的计算都被浪费了。因此，我们希望实现一个高性能高效率的长时序纯稀疏融合感知算法，一方面能加速 2D->3D 的转换效率，另外一方面在图像空间直接捕获目标跨摄像头的关联关系更加容易，因为在 2D->BEV 的环节不可避免存在大量信息丢失。

地平线提出了 Sparse4D 及其进化版本 Sparse4D v2，从 Query 构建方式、特征采样方式、特征融合方式、时序融合方式等多个方面提升了模型的效果。

02 性能精度指标

03 公版模型介绍

Sparse4D 采用了 Encoder-Decoder 结构。其中 Encoder 包括 image backbone 和 neck，用于对多视角图像进行特征提取，得到多视角多尺度特征图。

同时会 cache 历史帧的图像特征，用于在 decoder 中提取时序特征；Decoder 为多层级联形式，输入时序多尺度图像特征图和初始化 instance，输出精细化后的 instance，每层 decoder 包含 self-attention、deformable aggregation 和 refine module 三个主要部分。

学习 2D 检测领域 DETR 改进的经验，我们也重新引入了 Anchor 的使用，并将待感知的目标定义为 instance，每个 instance 主要由两个部分构成：

Instance feature ：目标的高维特征，在 decoder 中不断由来自于图像特征的采样特征所更新；
3D Anchor ：目标结构化的状态信息，比如 3D 检测中的目标 3D 框（x， y， z， w， l， h， yaw， vx， vy）；公版通过 kmeans 算法来对 anchor 的中心点分布进行初始化；
同时，在网络中会基于一个 MLP 网络来对 anchor 的结构化状态进行高维空间映射得到 Anchor Embed
*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。