本文由Fangyuan Mao、Jilin Mei、Shun Lu、Fuyang Liu、Liang Chen、Fangzhou Zhao和Yu Hua共同完成,作者单位包括中国科学院计算技术研究所(Institute of Computing Technology, Chinese Academy of Sciences)和中国科学院大学(University of Chinese Academy of Sciences)。该研究于2024年7月15日提交至期刊《Pattern Recognition》,预印本发布于arXiv平台(编号:2407.09299v1)。
本研究属于计算机视觉与人工智能交叉领域,聚焦于红外图像生成(infrared image generation)任务。红外成像技术因其在低能见度环境(如夜间、雨雪天气)中的可靠感知能力备受关注,但红外数据集的稀缺性限制了相关算法的开发。现有方法(如基于生成对抗网络GAN或变分自编码器VAE的方法)通常将红外图像视为风格迁移问题,忽略了红外成像的物理规律(如温度、发射率与热辐射的关联),导致生成结果在物理合理性上存在偏差。本研究提出物理信息扩散模型(Physics-Informed Diffusion, PID),通过将红外物理定律嵌入扩散模型(Diffusion Model)的训练过程,实现从可见光(RGB)图像到红外图像的物理可信转换。
研究团队首先分析了红外成像的物理原理,指出红外信号((s\lambda))由三部分组成:物体自身热辐射((e\lambda b\lambda(T)))、环境反射辐射(((1-e\lambda)\phi{env}))和大气辐射(((1-\tau{atm})\phi{atm}))。基于此,作者提出TEV分解方法(Temperature-Emissivity-Vector decomposition),将红外图像分解为温度((T))、发射率((e))和热纹理向量((v))三个物理分量,并通过自监督网络TEVNet((N{TEV}))实现端到端分解。
PID基于隐空间扩散模型(Latent Diffusion Model, LDM),其核心创新在于引入两类物理损失函数:
- 物理重构损失((L_{rec})):强制生成图像通过TEV分解后能够自洽重构,确保物理一致性。
- TEV空间损失((L_{tev})):约束生成图像与真实红外图像在TEV空间(物理参数空间)的相似性。
模型训练时,将RGB图像编码为条件向量,与噪声隐变量拼接后输入去噪UNet,同时联合优化噪声预测损失((L{noise}))与上述物理损失((L{rec}+L_{tev})),无需增加额外参数量。
研究在KAIST和FLIR两个公开红外数据集上验证PID性能:
- 数据集:KAIST包含白天/夜间场景的12,538对训练图像和2,252对测试图像;FLIR包含8,347对训练图像和1,256对测试图像,均覆盖长波红外波段(7.5–13.5 µm)。
- 对比方法:包括基于GAN的方法(Pix2Pix、CycleGAN、ThermalGAN、InfraGAN、Edge-Guided GAN)和基础LDM。
- 评估指标:结构相似性(SSIM)、峰值信噪比(PSNR)、感知相似性(LPIPS)和Frechet inception距离(FID)。
本研究的意义体现在:
1. 科学价值:首次将红外物理定律显式嵌入生成模型,提出TEV分解方法和物理约束扩散框架,为多模态图像生成提供可解释性新思路。
2. 应用价值:生成的物理合理红外图像可弥补真实数据不足,提升自动驾驶、安防监控等下游任务的鲁棒性。代码已开源(GitHub: fangyuanmao/pid)。
附录中详细推导了扩散模型的数学理论(如马尔可夫链噪声添加过程),并列出常见材料的发射率数据(如图B.8),为后续研究提供参考。团队计划进一步优化TEVNet的分解精度,并探索更高分辨率的红外生成任务。