基于物理约束的扩散模型红外图像生成

分享自：
基于物理约束的扩散模型红外图像生成

物理学
人工智能
光学
信息科学
计算机科学
期刊:pattern recognition
【点击此处】阅读全文、收藏及针对性提问
本文由Fangyuan Mao、Jilin Mei、Shun Lu、Fuyang Liu、Liang Chen、Fangzhou Zhao和Yu Hua共同完成，作者单位包括中国科学院计算技术研究所（Institute of Computing Technology, Chinese Academy of Sciences）和中国科学院大学（University of Chinese Academy of Sciences）。该研究于2024年7月15日提交至期刊《Pattern Recognition》，预印本发布于arXiv平台（编号：2407.09299v1）。
学术背景本研究属于计算机视觉与人工智能交叉领域，聚焦于红外图像生成（infrared image generation）任务。红外成像技术因其在低能见度环境（如夜间、雨雪天气）中的可靠感知能力备受关注，但红外数据集的稀缺性限制了相关算法的开发。现有方法（如基于生成对抗网络GAN或变分自编码器VAE的方法）通常将红外图像视为风格迁移问题，忽略了红外成像的物理规律（如温度、发射率与热辐射的关联），导致生成结果在物理合理性上存在偏差。本研究提出物理信息扩散模型（Physics-Informed Diffusion, PID），通过将红外物理定律嵌入扩散模型（Diffusion Model）的训练过程，实现从可见光（RGB）图像到红外图像的物理可信转换。
研究流程与方法1. 问题建模与物理约束设计研究团队首先分析了红外成像的物理原理，指出红外信号（(s\lambda)）由三部分组成：物体自身热辐射（(e\lambda b\lambda(T))）、环境反射辐射（((1-e\lambda)\phi{env})）和大气辐射（((1-\tau{atm})\phi{atm})）。基于此，作者提出TEV分解方法（Temperature-Emissivity-Vector decomposition），将红外图像分解为温度（(T)）、发射率（(e)）和热纹理向量（(v)）三个物理分量，并通过自监督网络TEVNet（(N{TEV})）实现端到端分解。
2. 物理信息扩散模型（PID）架构PID基于隐空间扩散模型（Latent Diffusion Model, LDM），其核心创新在于引入两类物理损失函数：
 - 物理重构损失（(L_{rec})）：强制生成图像通过TEV分解后能够自洽重构，确保物理一致性。
 - TEV空间损失（(L_{tev})）：约束生成图像与真实红外图像在TEV空间（物理参数空间）的相似性。
 模型训练时，将RGB图像编码为条件向量，与噪声隐变量拼接后输入去噪UNet，同时联合优化噪声预测损失（(L{noise})）与上述物理损失（(L{rec}+L_{tev})），无需增加额外参数量。
3. 实验验证研究在KAIST和FLIR两个公开红外数据集上验证PID性能：
 - 数据集：KAIST包含白天/夜间场景的12,538对训练图像和2,252对测试图像；FLIR包含8,347对训练图像和1,256对测试图像，均覆盖长波红外波段（7.5–13.5 µm）。
 - 对比方法：包括基于GAN的方法（Pix2Pix、CycleGAN、ThermalGAN、InfraGAN、Edge-Guided GAN）和基础LDM。
 - 评估指标：结构相似性（SSIM）、峰值信噪比（PSNR）、感知相似性（LPIPS）和Frechet inception距离（FID）。
主要结果定量性能：在KAIST数据集上，PID的FID分数比最优GAN方法（InfraGAN）降低171.27（从222.96降至51.69），SSIM提升0.0313；在FLIR数据集上，PID的FID比LDM基线降低6.31（从90.57降至84.26）。
 
物理合理性：如图1所示，传统方法（如Edge-Guided GAN）生成的树木温度高于车辆（违反热力学规律），而PID生成的轮胎摩擦热等细节更符合真实红外特性。
 
消融实验：
 TEV分解维度选择：当热纹理向量维度(m=4)时，模型在生成质量与计算效率间达到最优平衡。
 
损失权重分析：物理损失权重(k1=50)（(L{rec})）和(k2=5)（(L{tev})）时，模型避免过拟合且保持物理一致性。
 
结论与价值本研究的意义体现在：
 1. 科学价值：首次将红外物理定律显式嵌入生成模型，提出TEV分解方法和物理约束扩散框架，为多模态图像生成提供可解释性新思路。
 2. 应用价值：生成的物理合理红外图像可弥补真实数据不足，提升自动驾驶、安防监控等下游任务的鲁棒性。代码已开源（GitHub: fangyuanmao/pid）。
研究亮点方法创新：结合扩散模型的迭代优化能力与物理先验知识，提出PID模型及TEV分解方法。
 
性能突破：在KAIST和FLIR数据集上FID分别降低45.14和55.75，显著优于现有方法。
 
工程友好性：无需额外硬件（如多光谱滤光片），仅需单波段红外图像即可训练。
 
其他价值附录中详细推导了扩散模型的数学理论（如马尔可夫链噪声添加过程），并列出常见材料的发射率数据（如图B.8），为后续研究提供参考。团队计划进一步优化TEVNet的分解精度，并探索更高分辨率的红外生成任务。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问