基于扩散模型的立体匹配方法DiffuVolume
DiffuVolume——基于扩散模型的立体匹配新方法
研究背景与问题提出
立体匹配(Stereo Matching)是计算机视觉领域的重要任务之一,广泛应用于自动驾驶、机器人导航等领域。其核心目标是从一对校正后的立体图像中生成密集的视差图(Disparity Map)。近年来,基于代价体积(Cost Volume)的方法在立体匹配中取得了显著成功。代价体积通过聚合左右图像特征中的几何信息,为视差预测提供了丰富的上下文信息。然而,代价体积中存在大量冗余信息,这些冗余信息不仅干扰了模型训练,还限制了性能的进一步提升。
针对这一问题,研究者们尝试从多个角度优化代价体积的设计,例如改进特征提取网络、设计更高效的代价聚合模块等。然而,这些方法往往忽略了对代价体积中冗余信息的过滤。虽然有少数研究引入注意力机制来筛选代价体积中的有用信息,但这些方法通常需要复杂的多阶段训练过程,计算成本较高。
在此背景下,Dian Zheng等人提出了DiffuVolume,一种基于扩散模型(Diffusion Model)的代价体积过滤方法。该方法将扩散模型嵌入到立体匹配任务中,通过递归地去除代价体积中的冗余信息,实现了更高的精度和更低的参数开销。
论文来源与作者信息
这篇论文题为“DiffuVolume: Diffusion Model for Volume Based Stereo Matching”,由中山大学计算机科学与工程学院的Dian Zheng、Xiao-Ming Wu、Zuhao Liu、Jingke Meng和Wei-Shi Zheng共同完成,其中Wei-Shi Zheng为通讯作者。论文于2025年1月14日被接收,并发表在国际顶级期刊《International Journal of Computer Vision》上,DOI为10.1007/s11263-025-02362-1。
研究细节与工作流程
a) 研究工作流程
1. 特征提取
研究首先使用共享的ResNet-like卷积网络对左右图像进行特征提取,输出两个320通道的单目特征图(Unary Feature Maps),分别记为$F_l$和$F_r$,尺寸为$320 \times H/4 \times W/4$。下采样由卷积操作引起。
2. 代价体积构建
基于提取的特征图,研究构建了基础代价体积(Base Cost Volume)。具体而言,研究采用了两种常见的代价体积形式:4D拼接体积(Concatenation Volume)和3D相关体积(Correlation Volume)。这两种体积通过不同的方式融合了几何信息,最终形成了基础代价体积。
3. 扩散过滤
这是DiffuVolume的核心部分。研究将扩散模型嵌入到代价体积中,设计了一种注意力式的扩散过滤器(Attention-like Diffusion Filter)。扩散过滤器的初始化基于离散化的视差图,其公式为: $$ dv0(d/4, x, y) = discretize(d{gt}(x, y)), $$ 其中$d_{gt}$表示真实视差值,$d$为最大视差值(训练时为192)。扩散过程通过以下公式实现: $$ dv_t = \sqrt{\alpha_t} dv_0 + \sqrt{1 - \alpha_t}\epsilon, $$ 其中$\alpha_t$为噪声系数,$\epsilon$为添加的高斯噪声。
4. 代价体积过滤
在每一步扩散过程中,研究随机选择一个时间步$t$,并将对应的扩散过滤器与基础代价体积进行逐元素相乘,公式为: $$ c{flt} = c{base} \odot (dvt + mlp(t)), $$ 其中$c{flt}$为过滤后的代价体积,$mlp(t)$为捕捉时间序列信息的全连接层。
5. 代价聚合与视差回归
过滤后的代价体积被送入代价聚合模块,该模块由多个3D堆叠沙漏网络组成,用于聚合不同视差级别的信息。最后,通过3D卷积和Softmax函数生成概率体积,并加权求和得到最终的视差图。
b) 主要研究结果
1. 代价体积过滤效果
研究通过信息熵(Information Entropy)验证了DiffuVolume的有效性。实验表明,随着迭代次数的增加,扩散过滤器逐渐将概率向量转化为单峰分布,信息熵显著降低。这表明DiffuVolume能够有效去除冗余信息,同时保留有用的几何信息。
2. 性能提升
研究在多个公开数据集上进行了实验,包括Scene Flow、KITTI2012、KITTI2015、Middlebury和ETH3D。实验结果表明,DiffuVolume在所有数据集上均达到了最先进的性能。例如,在Scene Flow数据集上,DiffuVolume的EPE(End-Point Error)仅为0.46,优于ACVNet(0.48);在KITTI2012和KITTI2015数据集上,DiffuVolume分别排名第一和第二。
3. 即插即用特性
DiffuVolume是一种轻量级的即插即用模块,可以嵌入到任何基于代价体积的立体匹配网络中,仅需增加约2%的参数。例如,当嵌入到Fast-ACVNet中时,DiffuVolume不仅提升了性能,还保持了类似的推理时间。
4. 零样本泛化能力
研究还测试了DiffuVolume在未见场景上的零样本泛化能力。实验结果表明,嵌入DiffuVolume的RAFT-Stereo在KITTI、ETH3D和Middlebury数据集上均表现出色,尤其是在边缘和细节区域的表现优于其他方法。
结论与意义
科学价值
DiffuVolume首次将扩散模型应用于立体匹配任务,提出了一种新颖的任务特定模块设计方法。通过将扩散目标从图像转换为注意力式扩散过滤器,研究成功解决了代价体积中的冗余信息问题。
应用价值
DiffuVolume具有广泛的潜在应用价值,特别是在实时立体匹配任务中。其即插即用特性和低参数开销使其非常适合部署在资源受限的设备上。
研究亮点
- 创新性:DiffuVolume首次将扩散模型完全嵌入到立体匹配任务中,避免了传统方法直接对图像添加噪声的方式。
- 高效性:相比传统的扩散模型,DiffuVolume的推理速度提高了240倍,同时参数规模减少了7倍(从60M降至7M)。
- 通用性:DiffuVolume可以轻松嵌入到任何基于代价体积的立体匹配网络中,显著提升了性能。
- 鲁棒性:DiffuVolume在复杂场景下的表现尤为突出,例如非纹理区域和边缘区域。
其他有价值的信息
论文还探讨了扩散模型在密集预测任务中的潜在应用价值。研究指出,扩散模型可以通过设计任务特定模块,以较低的参数开销融入多种计算机视觉任务中。此外,研究还强调了迭代优化思想的重要性,为未来的研究提供了新的思路。