分享自:

基于物理约束的扩散模型红外图像生成

期刊:pattern recognition

本文由Fangyuan Mao、Jilin Mei、Shun Lu、Fuyang Liu、Liang Chen、Fangzhou Zhao和Yu Hua共同完成,作者单位包括中国科学院计算技术研究所(Institute of Computing Technology, Chinese Academy of Sciences)和中国科学院大学(University of Chinese Academy of Sciences)。该研究于2024年7月15日提交至期刊《Pattern Recognition》,预印本发布于arXiv平台(编号:2407.09299v1)。

学术背景

本研究属于计算机视觉与人工智能交叉领域,聚焦于红外图像生成(infrared image generation)任务。红外成像技术因其在低能见度环境(如夜间、雨雪天气)中的可靠感知能力备受关注,但红外数据集的稀缺性限制了相关算法的开发。现有方法(如基于生成对抗网络GAN或变分自编码器VAE的方法)通常将红外图像视为风格迁移问题,忽略了红外成像的物理规律(如温度、发射率与热辐射的关联),导致生成结果在物理合理性上存在偏差。本研究提出物理信息扩散模型(Physics-Informed Diffusion, PID),通过将红外物理定律嵌入扩散模型(Diffusion Model)的训练过程,实现从可见光(RGB)图像到红外图像的物理可信转换。

研究流程与方法

1. 问题建模与物理约束设计

研究团队首先分析了红外成像的物理原理,指出红外信号((s\lambda))由三部分组成:物体自身热辐射((e\lambda b\lambda(T)))、环境反射辐射(((1-e\lambda)\phi{env}))和大气辐射(((1-\tau{atm})\phi{atm}))。基于此,作者提出TEV分解方法(Temperature-Emissivity-Vector decomposition),将红外图像分解为温度((T))、发射率((e))和热纹理向量((v))三个物理分量,并通过自监督网络TEVNet((N{TEV}))实现端到端分解。

2. 物理信息扩散模型(PID)架构

PID基于隐空间扩散模型(Latent Diffusion Model, LDM),其核心创新在于引入两类物理损失函数:
- 物理重构损失((L_{rec})):强制生成图像通过TEV分解后能够自洽重构,确保物理一致性。
- TEV空间损失((L_{tev})):约束生成图像与真实红外图像在TEV空间(物理参数空间)的相似性。
模型训练时,将RGB图像编码为条件向量,与噪声隐变量拼接后输入去噪UNet,同时联合优化噪声预测损失((L{noise}))与上述物理损失((L{rec}+L_{tev})),无需增加额外参数量。

3. 实验验证

研究在KAISTFLIR两个公开红外数据集上验证PID性能:
- 数据集:KAIST包含白天/夜间场景的12,538对训练图像和2,252对测试图像;FLIR包含8,347对训练图像和1,256对测试图像,均覆盖长波红外波段(7.5–13.5 µm)。
- 对比方法:包括基于GAN的方法(Pix2Pix、CycleGAN、ThermalGAN、InfraGAN、Edge-Guided GAN)和基础LDM。
- 评估指标:结构相似性(SSIM)、峰值信噪比(PSNR)、感知相似性(LPIPS)和Frechet inception距离(FID)。

主要结果

  1. 定量性能:在KAIST数据集上,PID的FID分数比最优GAN方法(InfraGAN)降低171.27(从222.96降至51.69),SSIM提升0.0313;在FLIR数据集上,PID的FID比LDM基线降低6.31(从90.57降至84.26)。
  2. 物理合理性:如图1所示,传统方法(如Edge-Guided GAN)生成的树木温度高于车辆(违反热力学规律),而PID生成的轮胎摩擦热等细节更符合真实红外特性。
  3. 消融实验
    • TEV分解维度选择:当热纹理向量维度(m=4)时,模型在生成质量与计算效率间达到最优平衡。
    • 损失权重分析:物理损失权重(k1=50)((L{rec}))和(k2=5)((L{tev}))时,模型避免过拟合且保持物理一致性。

结论与价值

本研究的意义体现在:
1. 科学价值:首次将红外物理定律显式嵌入生成模型,提出TEV分解方法和物理约束扩散框架,为多模态图像生成提供可解释性新思路。
2. 应用价值:生成的物理合理红外图像可弥补真实数据不足,提升自动驾驶、安防监控等下游任务的鲁棒性。代码已开源(GitHub: fangyuanmao/pid)。

研究亮点

  • 方法创新:结合扩散模型的迭代优化能力与物理先验知识,提出PID模型及TEV分解方法。
  • 性能突破:在KAIST和FLIR数据集上FID分别降低45.14和55.75,显著优于现有方法。
  • 工程友好性:无需额外硬件(如多光谱滤光片),仅需单波段红外图像即可训练。

其他价值

附录中详细推导了扩散模型的数学理论(如马尔可夫链噪声添加过程),并列出常见材料的发射率数据(如图B.8),为后续研究提供参考。团队计划进一步优化TEVNet的分解精度,并探索更高分辨率的红外生成任务。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com