本文介绍的研究论文“lediff: latent exposure diffusion for hdr generation”由Chao Wang, Zhihao Xia, Thomas Leimkühler, Karol Myszkowski和Xuaner Zhang共同完成。作者分别来自MPI Informatik和Adobe Research。该研究发表于2025年的IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR),是计算机视觉领域的一项原创性研究。
研究背景与动机
本研究属于计算机视觉与计算摄影学(Computational Photography)的交叉领域,具体聚焦于高动态范围(High Dynamic Range, HDR)图像生成与重建。当前,尽管消费级显示器正逐步支持超过10档的动态范围,但绝大多数图像内容——包括互联网照片和生成式AI(如Stable Diffusion等模型)生成的内容——仍被限制在8位的低动态范围(Low Dynamic Range, LDR)内。这导致了图像在明亮高光和深色阴影区域的细节丢失(即信息“裁剪”或“剪切”),限制了其在需要真实感光照效果的后续应用,如图像基照明(Image-Based Lighting, IBL)、景深模拟和进一步的照片编辑中的潜力。
现有的HDR内容获取方法主要分为两类:一是基于多曝光融合(Multi-exposure Fusion)的技术,这需要输入一组曝光包围(exposure-bracketed)的照片,并主要处理图像间的对齐问题;二是基于逆色调映射(Inverse Tone Mapping, ITM)的技术,旨在从单张LDR图像中恢复被裁剪区域的细节并扩展动态范围。然而,多曝光融合方法需要特定硬件或多次拍摄,不适用于单张已有图像或完全由AI生成的内容;而传统的逆色调映射方法在恢复被裁剪区域的细节时,往往难以保证其真实感和物理合理性,结果常出现模糊或伪影。
与此同时,以扩散模型(Diffusion Models)为代表的生成式AI取得了巨大成功,但其输出同样受限于LDR。一个直接的想法是使用HDR数据从头训练一个新的扩散模型,但这需要海量的HDR数据,成本高昂,且无法利用现有在数十亿LDR图像上预训练的、具有强大生成能力的模型。因此,本研究旨在解决一个核心挑战:如何在最小化改动和训练数据需求的前提下,赋予一个预训练的LDR生成式模型(如Stable Diffusion)生成真实感HDR内容的能力?
本研究的目的是开发一种名为LEDiff的方法。该方法的核心思想是“在潜在空间中执行曝光融合”,从而能够:1) 作为一种通用化的HDR生成模型,从文本提示直接生成HDR图像或扩展生成模型的HDR输出;2) 作为一种高效的LDR到HDR的转换器,提升现有LDR图像(包括真实照片和生成图像)的动态范围,恢复被裁剪区域的细节。其最终目标是将HDR能力“嫁接”到现有的强大生成模型中,无需破坏其原有生成潜力,从而极大地扩展生成式AI和数字内容处理的应用范围。
研究方法与详细流程
LEDiff方法建立在预训练的潜在扩散模型(Latent Diffusion Model, LDM,如Stable Diffusion)之上。LDM通常包含一个变分自编码器(VAE)、一个去噪U-Net和一个文本编码器。本研究的创新工作流程主要涉及三个核心组件的微调和一个新颖的融合模块,旨在保留预训练LDM的潜在空间(作为强大的图像先验知识库),同时赋予其HDR生成能力。整个流程可以分为以下几个关键步骤:
1. 数据准备与潜在空间观测: 研究团队从多个公开来源收集了总计约36,000张HDR图像,构建了一个小型但多样化的HDR数据集。对于每一张HDR图像,他们模拟真实世界的拍摄过程,通过采样不同的相机响应曲线(Camera Response Curve, CRF)和非线性处理,生成一个由低曝光(i-)、中等曝光(i0)和高曝光(i+)三张图像组成的LDR曝光包围序列。一个关键的观察发现是:图像空间中被裁剪的像素,其对应的潜在空间(latent space)编码值也呈现出类似的饱和状态(即“裁剪”)。 这一现象表明,如果能在潜在空间中获得一个无裁剪的编码,就有可能通过解码获得HDR图像。这为在潜在空间而非图像空间进行操作奠定了理论基础。
2. 潜在空间曝光融合与HDR解码器微调(核心流程A): 这是实现HDR输出的第一个关键环节。如图2(左)所示,对于一组模拟得到的LDR曝光包围图像 {i-, i0, i+},首先使用预训练且保持冻结(不更新权重)的VAE编码器将它们映射到潜在空间,得到对应的潜在编码 {c-, c0, c+}。然后,一个轻量级、可学习的融合模块 f 负责将这些编码融合成一个单一的、无裁剪的潜在编码 c_merge。融合模块 f 的设计受到图像空间曝光融合启发,它通过深度可分离卷积为每个潜在编码的每个通道生成初始权重图,再通过softmax归一化,最终以加权和的方式合并信息。这个 c_merge 编码包含了从不同曝光等级中提取的有效信息。 接下来,研究团队微调了VAE的解码器 D,使其能够将 c_merge 解码成一张线性HDR图像。微调过程中,解码器的目标是重建原始的HDR图像 h,损失函数结合了重建损失和一种在log空间计算的对抗损失(GAN loss),以确保生成内容的真实感。这一步至关重要,因为它教会了模型如何将潜在空间的无裁剪信息“线性化”并扩展为实际的HDR数值范围。
3. 潜在空间曝光括号生成(核心流程B): 为了实际应用上述融合与解码流程,我们需要从一个单一的输入(可以是一张真实LDR图像,也可以是一个文本提示)出发,生成所需的潜在空间曝光括号 {c-, c0, c+}。这涉及到对被裁剪区域(高光和阴影)细节的“幻觉”(hallucination)生成。LEDiff为此微调了两个条件去噪器(Conditional Denoiser),分别处理高光和阴影。 * 高光幻觉去噪器 (ϵθ-): 该模型以一张较高曝光(可能存在高光裁剪)的潜在编码(如 c0)为条件,学习生成其对应的较低曝光(无高光裁剪)的潜在编码(如 c-)。在训练中,使用数据对 (c0, c-) 和 (c+, c0),通过标准的去噪扩散损失进行训练。条件信息通过将条件潜在编码与带噪声的目标潜在编码在通道维度上拼接后输入网络来实现。 * 阴影幻觉去噪器 (ϵθ+): 原理与高光幻觉器对称,它以一张较低曝光(可能存在阴影裁剪)的潜在编码(如 c0)为条件,学习生成其对应的较高曝光(无阴影裁剪)的潜在编码(如 c+)。使用数据对 (c0, c+) 和 (c-, c0) 进行训练。
在推理时,给定一个初始潜在编码 c+(例如,从一张过曝的LDR图像编码得到,或从文本提示通过标准LDM采样得到),可以顺序应用高光幻觉器生成 c0 和 c-。类似地,也可以从 c- 出发生成阴影细节。最终,将生成的 {c-, c0, c+} 送入融合模块 f 和微调后的HDR解码器 D,即可得到最终的HDR图像。
4. 训练细节: 所有微调过程(融合模块、HDR解码器、两个条件去噪器)均使用上述准备的HDR数据集。VAE解码器微调了20万步,条件去噪器微调了40万步,均使用Adam优化器。值得注意的是,整个方法仅需相对小规模的HDR数据进行微调,而将大部分生成任务卸载给了预训练模型中保留的、强大的LDR潜在空间。
主要研究结果
本研究通过定量评估、定性对比、用户调研和消融实验,全面验证了LEDiff方法的有效性和优越性。
1. 定量与定性评估(逆色调映射任务): 研究在公开的SI-HDR数据集上,将LEDiff与五种先进的逆色调映射方法(HDRCNN, MaskHDR, SingleHDR, ExpandNet, GlowGAN)进行了比较。评估指标包括: * 全参考指标:HDR-VDP-3(预测感知差异)。 * 无参考指标:PU21-PIQE(评估图像自然度)。 * 分布相似性指标:FID分数。由于FID通常用于LDR,研究者先将HDR图像用三种不同的色调映射算子(Reinhard, Durand, Liang)映射到LDR,再计算FID(分别记为FID-r, FID-d, FID-l)。
结果显示(见表1),在PU21-PIQE和所有三个FID变体指标上,LEDiff均取得了最佳或极具竞争力的成绩。这证明LEDiff生成的内容在视觉自然度和整体分布上与真实HDR数据最为接近。图5的定性对比清晰展示了LEDiff的显著优势:现有方法在恢复高光细节时可能产生模糊或伪影,且大多完全忽略了阴影区域的恢复(例如HDRCNN和MaskHDR对非裁剪区域处理相同,阴影无改善)。而LEDiff能够同时在过曝的高光区域和欠曝的阴影区域“幻觉”出逼真、合理的细节,生成完整的HDR图像。
2. 用户研究: 为了在真实的HDR显示环境下评估感知质量,研究进行了主观用户调研。20名参与者在专业HDR显示器上对60个场景进行了LEDiff与其他方法的成对比较,总计1200次对比。结果(见表2)显示,在所有对比中,LEDiff都获得了统计显著性的偏好(p < 0.01),用户选择LEDiff结果的比例远高于其他任何方法(例如,在与ExpandNet的对比中,94.52% vs 5.48%)。这强有力地证明了LEDiff生成的HDR内容在人类观察者眼中的优越性。
3. HDR内容生成应用展示: 研究展示了LEDiff在多个下游任务中的直接应用能力,突显了其作为“插件”的灵活性: * 文本到HDR图像:如图4(左)所示,给定文本提示,LEDiff能生成动态范围更广、无裁剪的HDR图像。同时展示了HDR数据对后续图像编辑(如合成景深效果)的重要性,因为线性HDR数据对于模拟真实的光学虚化效果至关重要。 * 文本到HDR全景图:通过与现有的基于SD的全景图生成模型(如MVDiffusion)结合,LEDiff可以生成HDR环境贴图。使用HDR全景图进行图像基照明渲染时,能产生对比度更高、高光更真实的渲染结果(图4右)。 * 图像到HDR视频:该方法可集成到基于SD的图像到视频模型中,实现从单张LDR图像生成HDR视频。
4. 消融实验: 为了验证各组件的作用,研究进行了消融实验(见图6和表3): * 移除VAE解码器微调:模型仍能幻觉高光细节,但输出被限制在LDR范围内,无法实现动态范围扩展。 * 移除条件去噪器微调:模型可以扩展动态范围,但无法在被裁剪区域生成合理的细节。 * 使用SD原生修复(inpainting)替代:需要手动提供裁剪区域掩膜,且由于训练数据分布的差异,修复结果不自然。 实验结论明确:同时微调解码器和条件去噪器对于实现高质量的细节幻觉和动态范围扩展都是必不可少的。
研究结论与价值
本研究提出并验证了LEDiff,一种通过在潜在空间进行曝光融合来实现HDR内容生成的新方法。其核心结论是:通过巧妙地保留和利用预训练LDM的强大潜在空间作为生成先验,并仅使用少量HDR数据对关键组件(条件去噪器、融合模块、解码器)进行针对性微调,可以高效、高质量地赋予现有生成模型HDR能力。LEDiff不仅是一个性能领先的LDR-to-HDR转换器,更是一个通用的HDR内容生成框架。
该研究的科学价值在于:1) 提出了一种新颖的“潜在空间曝光融合”范式,为扩展预训练生成模型的能力提供了新思路;2) 深入探索并利用了图像空间与潜在空间在亮度信息上的强相关性;3) 实现了生成模型输出从LDR到HDR的跨越,推动了生成式AI在高质量内容创建方面的发展。
其应用价值非常广泛:它使得从文本生成HDR图像、将现有互联网海量LDR内容升级为HDR、创建用于真实感渲染的HDR环境贴图等应用成为可能,直接迎合了HDR显示设备普及带来的内容需求缺口。
研究亮点与创新点
其他有价值的说明
论文也坦诚地讨论了LEDiff的局限性。首先,其性能受限于所基于的底层模型(如Stable Diffusion)的能力与缺陷。其次,当用于视频生成时,由于底层视频扩散模型(如Stable Video Diffusion)本身生成能力较弱,可能会引入更多伪影。此外,当前方法尚未专门处理输入LDR图像中可能存在的压缩伪影或噪声等退化问题,这将是未来提高其在真实世界图像上鲁棒性的一个重要方向。尽管如此,随着HDR显示的普及,LEDiff为代表的技术在扩展HDR内容创作渠道方面具有巨大的潜力。