,

1 Motivation

  • Multi-view cameras在深度估计、恶劣环境下不稳定
  • 以往的方法雷达与摄像头的特征融合方法简单,存在视角\方位不对齐,沿用LiDAR 的编码器并不适合雷达

2 Framework

2.1 RadarBEVNet

RadarBEVNet 的作用就是高效提取雷达的特征,有两个组件,分别是是 the dual-stream radar backbone 和 the RCS-aware BEV encoder。前者主要用于雷达特征的初步提取,后者对提取的特征进行再处理。

2.1.1 Dual-stream radar backbone

Dual-stream radar backbone 有S个阶段循环,每个阶段有 point-based blocktransformer-based block ,后面还有一个module用来对齐两个block的特征后,再进入下一个阶段。

2.1.1.1 Point-based Block

image-20250922230159339

  1. 作用:用来学习雷达的局部特征

  2. 结构:

    1. 输入:Feature(雷达点的初始特征)

    2. MLP

      • 对每个点独立地做多层感知机 (MLP) 投影和非线性变换。
      • 作用:提升维度并学习局部几何与强度特征。
    3. MaxPool

      • 在当前局部点集上做全局最大池化,得到该集合的全局上下文向量。
      • 作用:捕获整体形状或分布信息,补充给每个点
    4. 拼接与残差:

      • 模仿 PointNet,将全局特征反馈给每个点,以增强点特征的判别力

      • 拼接后的结果通过残差连接返回,用于后续注入/抽取模块或 BEV 投影

  3. 公式表达:

$$
f = Concat[MLP(f),MaxPool(MLP(f))]
$$

2.1.1.2 Transformer-bases Block

image-20250922231948356

由于自动驾驶场景广泛,标准的自注意力机制可能会使模型具有挑战,因此提出了DMSA,在模型早期训练迭代的时候,聚合相邻信息,从而促进模型的收敛。

具体而言,在给定N个雷达点的坐标情况下,我们首先计算所有点之间的两两距离 $D \in R^{N \times N}$ ,然后生成两两距离 $D$ 的 类高斯权重图 $G$ :
$$
G_{i,j}=exp(-D^2_{i,j}/\sigma^2)
$$
其中,σ是控制类高斯分布宽度的可学习参数。本质上,类似高斯的权重图G将高权重赋予靠近该点的空间位置,而将低权重赋予远离该点的位置。生成的权重G调制注意机制如下:
$$
\begin{eqnarray}
DMSA(Q,K,V)&=&Softmax(\frac{QK^T}{\sqrt{d}}+\log{G})V \
&=& Softmax(\frac{QK^T}{\sqrt{d}}-\frac{1}{\sigma^2}D^2)V
\end{eqnarray}
$$
为了确保 DMSA 可以退化为普通的自注意力机制,在训练过程中将$\frac{1}{\sigma}$ 替换为一个可训练参数 β。 当 β = 0 时,DMSA 就退化为标准自注意力。同时研究了多头 DMSA,其中每个注意力头都拥有独立的 $\beta _i$,用以控制 DMSA 的感受野范围。多头注意力表示为 : $MultiHeadDMSA(Q,K,V)= Concat[head_1,head_2,\cdots ,head_H0]$ ,其中:
$$
\begin{eqnarray}
head_i &=& DMSA(Q_i,K_i,V_i) \
&=&Softmax(\frac{Q_iK_i^T}{\sqrt{d_i}}-\beta _iD^2)V_i
\end{eqnarray}
$$

输入:Feature + Coordinates

  • Feature:上一个阶段输出的点特征。
  • Coordinates:点的空间坐标,用于计算点间距离(DMSA 需要)。
2.1.1.3 Injection and Extraction

image-20250923170015495

引入交叉注意的注入和提取模块,更好的交互来自两个不同主干网络的雷达特征。如下:

其中LN是层范数,$\gamma$ 是可学习的比例参数,FFN 是前馈网络。$f_p^i$ 表示第 $i$ 次迭代过程中的point特征,$f_t^i$ 表示第$i$ 次迭代过程中的transformer特征

  1. Injection——将transformer特征注入point

$$
f_p^i = f_p^i+ \gamma \times CrossAttention(LN(f_p^i),LN(f_t^i))
$$

  1. Extraction——transformer提取point的特征

$$
f_t^i = FFn(f_t^i+ \gamma \times CrossAttention(LN(f_t^i),LN(f_p^i)))
$$

2.1.2 RCS-aware BEV encoder

image-20250922234346518

  • 解决的问题:传统的雷达BEV编码器产生的特征是稀疏的,大多数像素的特征为0。常见的解决方案是增加BEV编码层的数量,但是这同样导致小特征被背景特征平滑。
  • 提出方案:较大的物体产生较强的雷达反射波,从而产生较大的RCS测量,RCS可以提供物体的大小测量,为RCS感知散射操作将雷达的特征分散到多个像素,而不是一个像素。最后利用类高斯分布的BEV权重将这些特征聚合起来。

2.2 CAMF

2.2.1 双向可变形跨注意力

image-20250923195225569

  • 解决的问题:雷达点云会受到方位误差的影响,因此雷达传感器可以获得物体边界外的雷达点,RadarBEVNet生成的雷达特征可以分配给相邻的BEV网格,导致相机和雷达的BEV特征不对准。

  • 提出方案:使用CAMF来动态对齐多通道特征。未对准的雷达点偏移与真实位置有一小段距离,通过可变形交叉注意力机制来捕捉这种偏移。同时将计算复杂度从$O(H^2W^2C)$ 降低到 $O(HWC^2K)$ ,其中K是点每个查询点采样的关键点数量。计算公式如下:

$$
\begin{eqnarray}
DeformAttn(z_{q_r},P_{q_r},F_c) = \sum_{m=1}^{M}W_m[\sum_{k=1}^K A_{mqk}\cdot W’m F_c(p{q_r}+\Delta p_{mqk})]
\end{eqnarray}
$$

​ 其中m索引头部注意力,$k$ 索引关键字采用, $K$ 表述采样关键字总数,$\Delta p_{mqk}$ 表示采样的偏移量,$A_{mqk}$ 表示计算的注意力权重,$F_c$ 表述摄像头特征,$F_r$ 表示雷达特征,当其中一个特征作为query的时候,另一个作为key和value,最后特征表示为:
$$
\begin{align}
F_c &\gets \text{DeformAttn}(z_{q_r}, P_{q_r}, F_c) \
F_r &\gets \text{DeformAttn}(z_{q_c}, P_{q_c}, F_r)
\end{align}
$$

2.2.2 多层融合(Multi-layer Fusion)

  • 对齐后的两个特征拼接,拼接后的特征输入到CBR块,共有三个CBR,获得融合特征。
  • CBR :Conv、Batch Normalization、ReLU

3. Experiments

3.1 Comparison experiments

  • -训练策略:两阶段。先单独训练相机流;再训练雷达-相机融合,并冻结相机流参数。共 12 epochs

  • AdamW 优化;图像与雷达均做数据增强;CBGS 类别均衡采样。推理在 RTX3090、FP16、batch=1 下计时。

  • 基础配置:消融基线使用 ResNet-50 相机骨干图像 256×704BEV 128×128

  • 主组件叠加:在 BEVDepth 上依次加入:多帧 BEV 累积(时序)→ 雷达 backbone(PointPillars / RadarBEVNet)→ CAMF →(可选)Temporal Supervision 逐帧监督。各组件均带来稳定增益。

  • 实验结果

    • NUScenes Resultsimage-20250923202804271

      • val 集上,NDS和mAVE的性能明显优于其他方法,在提高准确率的同时降低了速度误差。
      • FPS的指标也具有一定的性能优势

      image-20250923203309671test集上的结果表明,我们可以用更强的backbone来增加RCBEVDet的性能。

    • VoD Results(VoD:4D毫米波数据集)

      image-20250923203520894在整个区域,RCBEVDet超过RCFusion 0.34MAP。对于感兴趣的区域,RCBEVDet也以69.80 MAP实现了最先进的结果。

3.2 Ablation Studies

在nuScenes Val集合上进行消融研究,以分析RCBEVDet格部分的效果。采用R50主干、256×704图像大小、128×128 Bev大小的RCBEVDet作为基线模型

3.2.1 Main compnents

image-20250923203803473

通过想BEVDepth不断添加组件来组成RCBEVDet,具体的性能如图所示。其中Temporal Supervision表示对之前的历史帧和现在的帧进行监督。

3.2.2 RadarBEVNet

image-20250923204330246

  • 直接添加transformer backbone带来的性能微不足道,原因是两者的特征没有更好的融合,因此后续引入的注入与提取模块带来了很大的提升

3.2.3 CAMF

image-20250923204744481

3.3 Robustness

image-20250923204928593

  • 在训练和测试中 随机丢弃某些相机视角或雷达帧。对比 RCBEVDet 与其它融合方法(如 CRN、BEVFusion)的性能下降幅度。

4. personal Summary

  • Injection 和 Extraction,作者在添加 Transformer-based Block后取得性能提升其实并没有很大,但是注意到了问题在于特征没有对齐,而不是添加的Block不能很好的学习和提取特征。因此个人认为这个模块具有很大意义。
  • RCS-aware BEV encoder,解决的传统方法使用 LiDAR编码器遇到的稀疏特征问题,巧妙利用了雷达的RCS的特性,将点特征分散到相邻的像素中去。
  • **CAMF:**利用可变形注意力机制,将雷达特征与图像特征对齐,解决雷达特征偏移的问题,更好的融合特征,同时降低了复杂度,能够兼顾特征融合和计算复杂度,我认为这是这个工作的一个很大亮点。