RCBEVDet 论文

1 Motivation

Multi-view cameras在深度估计、恶劣环境下不稳定
以往的方法雷达与摄像头的特征融合方法简单，存在视角\方位不对齐，沿用LiDAR 的编码器并不适合雷达

2 Framework

2.1 RadarBEVNet

RadarBEVNet 的作用就是高效提取雷达的特征，有两个组件，分别是是 the dual-stream radar backbone 和 the RCS-aware BEV encoder。前者主要用于雷达特征的初步提取，后者对提取的特征进行再处理。

2.1.1 Dual-stream radar backbone

Dual-stream radar backbone 有S个阶段循环，每个阶段有 point-based block 和 transformer-based block ，后面还有一个module用来对齐两个block的特征后，再进入下一个阶段。

2.1.1.1 Point-based Block

作用：用来学习雷达的局部特征
结构：
1. 输入：Feature（雷达点的初始特征）
2. MLP
  - 对每个点独立地做多层感知机 (MLP) 投影和非线性变换。
  - 作用：提升维度并学习局部几何与强度特征。
3. MaxPool
  - 在当前局部点集上做全局最大池化，得到该集合的全局上下文向量。
  - 作用：捕获整体形状或分布信息，补充给每个点
4. 拼接与残差：
  - 模仿 PointNet，将全局特征反馈给每个点，以增强点特征的判别力
  - 拼接后的结果通过残差连接返回，用于后续注入/抽取模块或 BEV 投影
公式表达：

$$
f = Concat[MLP(f),MaxPool(MLP(f))]
$$

2.1.1.2 Transformer-bases Block

由于自动驾驶场景广泛，标准的自注意力机制可能会使模型具有挑战，因此提出了DMSA，在模型早期训练迭代的时候，聚合相邻信息，从而促进模型的收敛。

具体而言，在给定N个雷达点的坐标情况下，我们首先计算所有点之间的两两距离 $D \in R^{N \times N}$ ，然后生成两两距离 $D$ 的类高斯权重图 $G$ :
$$
G_{i,j}=exp(-D^2_{i,j}/\sigma^2)
$$
其中，σ是控制类高斯分布宽度的可学习参数。本质上，类似高斯的权重图G将高权重赋予靠近该点的空间位置，而将低权重赋予远离该点的位置。生成的权重G调制注意机制如下：
$$
\begin{eqnarray}
DMSA(Q,K,V)&=&Softmax(\frac{QK^T}{\sqrt{d}}+\log{G})V \
&=& Softmax(\frac{QK^T}{\sqrt{d}}-\frac{1}{\sigma^2}D^2)V
\end{eqnarray}
$$
为了确保 DMSA 可以退化为普通的自注意力机制，在训练过程中将$\frac{1}{\sigma}$ 替换为一个可训练参数 β。当 β = 0 时，DMSA 就退化为标准自注意力。同时研究了多头 DMSA，其中每个注意力头都拥有独立的 $\beta _i$，用以控制 DMSA 的感受野范围。多头注意力表示为 : $MultiHeadDMSA(Q,K,V)= Concat[head_1,head_2,\cdots ,head_H0]$ ，其中：
$$
\begin{eqnarray}
head_i &=& DMSA(Q_i,K_i,V_i) \
&=&Softmax(\frac{Q_iK_i^T}{\sqrt{d_i}}-\beta _iD^2)V_i
\end{eqnarray}
$$

输入：Feature + Coordinates

Feature：上一个阶段输出的点特征。
Coordinates：点的空间坐标，用于计算点间距离（DMSA 需要）。

2.1.1.3 Injection and Extraction

引入交叉注意的注入和提取模块，更好的交互来自两个不同主干网络的雷达特征。如下：

其中LN是层范数，$\gamma$ 是可学习的比例参数，FFN 是前馈网络。$f_p^i$ 表示第 $i$ 次迭代过程中的point特征，$f_t^i$ 表示第$i$ 次迭代过程中的transformer特征

Injection——将transformer特征注入point

$$
f_p^i = f_p^i+ \gamma \times CrossAttention(LN(f_p^i),LN(f_t^i))
$$

Extraction——transformer提取point的特征

$$
f_t^i = FFn(f_t^i+ \gamma \times CrossAttention(LN(f_t^i),LN(f_p^i)))
$$

2.1.2 RCS-aware BEV encoder

解决的问题：传统的雷达BEV编码器产生的特征是稀疏的，大多数像素的特征为0。常见的解决方案是增加BEV编码层的数量，但是这同样导致小特征被背景特征平滑。
提出方案：较大的物体产生较强的雷达反射波，从而产生较大的RCS测量，RCS可以提供物体的大小测量，为RCS感知散射操作将雷达的特征分散到多个像素，而不是一个像素。最后利用类高斯分布的BEV权重将这些特征聚合起来。

2.2 CAMF

2.2.1 双向可变形跨注意力

解决的问题：雷达点云会受到方位误差的影响，因此雷达传感器可以获得物体边界外的雷达点，RadarBEVNet生成的雷达特征可以分配给相邻的BEV网格，导致相机和雷达的BEV特征不对准。
提出方案：使用CAMF来动态对齐多通道特征。未对准的雷达点偏移与真实位置有一小段距离，通过可变形交叉注意力机制来捕捉这种偏移。同时将计算复杂度从$O(H^2W^2C)$ 降低到 $O(HWC^2K)$ ，其中K是点每个查询点采样的关键点数量。计算公式如下:

$$
\begin{eqnarray}
DeformAttn(z_{q_r},P_{q_r},F_c) = \sum_{m=1}^{M}W_m[\sum_{k=1}^K A_{mqk}\cdot W’m F_c(p{q_r}+\Delta p_{mqk})]
\end{eqnarray}
$$

其中m索引头部注意力，$k$ 索引关键字采用, $K$ 表述采样关键字总数，$\Delta p_{mqk}$ 表示采样的偏移量，$A_{mqk}$ 表示计算的注意力权重，$F_c$ 表述摄像头特征，$F_r$ 表示雷达特征，当其中一个特征作为query的时候，另一个作为key和value，最后特征表示为：
$$
\begin{align}
F_c &\gets \text{DeformAttn}(z_{q_r}, P_{q_r}, F_c) \
F_r &\gets \text{DeformAttn}(z_{q_c}, P_{q_c}, F_r)
\end{align}
$$

2.2.2 多层融合（Multi-layer Fusion）

对齐后的两个特征拼接，拼接后的特征输入到CBR块，共有三个CBR，获得融合特征。
CBR ：Conv、Batch Normalization、ReLU

3. Experiments

3.1 Comparison experiments

-训练策略：两阶段。先单独训练相机流；再训练雷达-相机融合，并冻结相机流参数。共 12 epochs，
AdamW 优化；图像与雷达均做数据增强；CBGS 类别均衡采样。推理在 RTX3090、FP16、batch=1 下计时。
基础配置：消融基线使用 ResNet-50 相机骨干，图像 256×704，BEV 128×128。
主组件叠加：在 BEVDepth 上依次加入：多帧 BEV 累积（时序）→ 雷达 backbone（PointPillars / RadarBEVNet）→ CAMF →（可选）Temporal Supervision 逐帧监督。各组件均带来稳定增益。
实验结果：
- NUScenes Results
  - val 集上，NDS和mAVE的性能明显优于其他方法，在提高准确率的同时降低了速度误差。
  - FPS的指标也具有一定的性能优势
  test集上的结果表明，我们可以用更强的backbone来增加RCBEVDet的性能。
- VoD Results（VoD：4D毫米波数据集）
  
  在整个区域，RCBEVDet超过RCFusion 0.34MAP。对于感兴趣的区域，RCBEVDet也以69.80 MAP实现了最先进的结果。

3.2 Ablation Studies

在nuScenes Val集合上进行消融研究，以分析RCBEVDet格部分的效果。采用R50主干、256×704图像大小、128×128 Bev大小的RCBEVDet作为基线模型

3.2.1 Main compnents

通过想BEVDepth不断添加组件来组成RCBEVDet，具体的性能如图所示。其中Temporal Supervision表示对之前的历史帧和现在的帧进行监督。

3.2.2 RadarBEVNet

直接添加transformer backbone带来的性能微不足道，原因是两者的特征没有更好的融合，因此后续引入的注入与提取模块带来了很大的提升

3.2.3 CAMF

3.3 Robustness

在训练和测试中 随机丢弃某些相机视角或雷达帧。对比 RCBEVDet 与其它融合方法（如 CRN、BEVFusion）的性能下降幅度。

4. personal Summary

Injection 和 Extraction，作者在添加 Transformer-based Block后取得性能提升其实并没有很大，但是注意到了问题在于特征没有对齐，而不是添加的Block不能很好的学习和提取特征。因此个人认为这个模块具有很大意义。
RCS-aware BEV encoder，解决的传统方法使用 LiDAR编码器遇到的稀疏特征问题，巧妙利用了雷达的RCS的特性，将点特征分散到相邻的像素中去。
**CAMF：**利用可变形注意力机制，将雷达特征与图像特征对齐，解决雷达特征偏移的问题，更好的融合特征，同时降低了复杂度，能够兼顾特征融合和计算复杂度，我认为这是这个工作的一个很大亮点。