本文档属于类型b(综述类论文),由西北工业大学计算机学院的张艳宁、王昊宇、闫庆森、杨佳琪、刘婷、符梦芹、吴鹏、张磊团队撰写,发表于《Journal of Image and Graphics》2025年第6期(Vol. 30, No. 6)。论文题为《面向复杂动态场景的无人移动视觉技术研究进展》(Research Progress of Unmanned Mobile Vision Technology for Complex Dynamic Scenes),系统梳理了无人移动视觉技术在复杂动态场景中的关键技术进展、挑战及未来方向。以下为详细内容:
无人移动视觉技术是无人系统的核心组成部分,通过视觉数据感知和理解复杂动态场景。随着深度神经网络的普及,该技术成为自动化领域的基准模型,但实际应用中仍面临成像环境复杂(光照变化、天气干扰)、目标高速机动与伪装、任务多样性等问题,导致模型性能退化。本文围绕五大关键技术展开综述:图像增强、三维重建、场景分割、目标检测识别、异常检测与行为分析。
目标:提升低质量图像的可用性,应对噪声、模糊、低分辨率等问题。
- 图像去噪:分为空间域(如中值滤波)、变换域(如小波变换)和基于深度学习的方法(如DnCNN)。实验显示,MaskDenoising模型对高斯噪声和椒盐噪声处理效果最佳,DIL模型在泊松噪声场景表现优异。
- 图像去模糊:传统方法依赖先验设计(如L2正则化),深度学习方法(如Restormer、Uformer)利用Transformer架构提升了非均匀模糊的处理能力。K3DN模型在DPD-Blur数据集上PSNR达47.21 dB,优于其他模型。
- 图像超分辨率:包括显式建模(退化核估计)和隐式建模(域转换技术)。BSRGAN在NTIRE-RWSR数据集的LPIPS指标表现最佳,但Real-ESRGAN在视觉效果上更优。
挑战:实时性、噪声敏感性及细节保留问题需进一步优化。
分多视图几何重建与神经隐式表征重建两类:
- 传统多视图几何(如ACMP、TAPA-MVS)通过平面先验和几何一致性处理低纹理区域,但依赖高精度相机标定。
- 深度学习方法(如MVSNet、TransMVSNet)通过成本体积和级联策略降低内存占用,但动态场景适应性不足。
- 神经隐式表征(如DeepSDF、高斯泼溅)通过连续函数表达几何,支持高分辨率重建。Yang等人(2024b)结合变形场与高斯泼溅,实现了动态单目重建的突破。
问题:复杂拓扑重建和实时性仍需改进。
通过时空建模(如3D CNN、时空图网络)识别异常事件,但在复杂交互场景中泛化能力有限。