学术研究报告:注意力残差聚合的高分辨率图像修复算法
一、 研究作者、机构与发表信息
本研究由西安邮电大学网络空间安全学院的张雪锋教授和潘义婷硕士研究生共同完成。研究成果以题为《注意力残差聚合的高分辨率图像修复算法》的学术论文形式,发表于《西安邮电大学学报》(Journal of Xi’an University of Posts and Telecommunications)2026年3月第31卷第2期,页码范围为78-88页。该研究得到了陕西省自然科学基础研究计划项目(项目编号:2021JQ-722)的资助。
二、 学术背景与研究目标
本研究属于计算机视觉与人工智能领域,具体聚焦于数字图像处理中的图像修复(Image Inpainting)技术。图像修复旨在对图像中的破损、缺失或有噪声的区域进行重建,以恢复其视觉连续性和完整性,满足高质量视觉应用的需求。随着深度学习技术的发展,基于生成对抗网络(Generative Adversarial Network, GAN)和卷积神经网络(Convolutional Neural Network, CNN)的方法在图像修复上取得了显著进展。
然而,现有方法在处理高分辨率图像时面临诸多挑战。例如,CNN在处理高分辨率图像时参数量大、计算复杂度高,易导致梯度爆炸和训练不稳定;而一些基于扩散模型或坐标查询的方法,则存在推理效率低下、对大面积或不规则破损区域适应性差、缺乏细粒度纹理约束等问题。这些问题限制了高分辨率图像修复的实际应用场景和质量。
因此,本研究旨在解决现有方法在修复高分辨率图像时存在的局限性。具体目标包括:1)设计一种能够有效处理高分辨率图像的修复网络架构;2)提升网络对破损区域的精准聚焦和上下文信息利用能力;3)改善修复后图像的纹理细节和边界过渡的自然度;4)在公开的高分辨率数据集上验证算法的优越性。
三、 研究详细工作流程
本研究提出了一种名为“注意力残差聚合的高分辨率图像修复算法”。该算法核心是一个基于GAN框架的网络,由生成器和判别器两部分组成,并引入了多项创新机制。
1. 生成器设计: 生成器的任务是接收破损图像及其对应的掩码(Mask),输出修复后的完整图像。其工作流程分为三个阶段: * 特征提取与下采样阶段: 输入的高分辨率破损图像(如512×512)首先经过3个卷积模块处理,并通过下采样操作将图像尺寸缩小至128×128。这一过程有助于提取图像的初级特征并降低后续计算复杂度,同时掩码信息被编码以引导网络关注破损区域。 * 特征转换与增强阶段: 这是生成器的核心。下采样后的特征图被送入10个串联的“聚合上下文转换块”(Aggregated Context-Transformation block, AOT block)进行处理。本研究对标准AOT块进行了关键改进,即引入了ECA-Net通道注意力机制。每个AOT块将标准卷积核分割为多个子核,每个子核采用不同的空洞率(Dilation Rate)以捕获多尺度的上下文信息。ECA注意力机制被嵌入其中,使网络能够自适应地为不同特征通道分配权重,从而更精准地聚焦于与修复相关的关键信息,抑制无关信息。这些块通过残差连接(Residual Connection)堆叠,有效缓解了深层网络训练中的梯度消失问题,并增强了模型捕获深层语义和复杂纹理的能力。 * 图像重建与上采样阶段: 经过AOT块处理后的特征图,通过3个反卷积模块逐步上采样,最终将图像尺寸从128×128恢复至原始的高分辨率(512×512)。反卷积操作负责恢复图像的空间细节和结构,确保输出图像在放大后仍保持清晰度和细腻的纹理。
2. 判别器设计: 判别器的任务是区分生成器修复的图像与真实图像。本研究采用了软掩码PatchGAN(SM-PatchGAN) 作为判别器的基础架构。与传统的PatchGAN不同,SM-PatchGAN引入了“软掩码”机制。具体而言,判别器的训练目标不是简单区分整张图像的真假,而是专注于区分破损区域的修复质量。在训练时,判别器接收的输入是:生成图像或真实图像,以及一个经过高斯滤波生成的“软掩码”。这个软掩码在破损区域边界处具有平滑的过渡(值在0到1之间渐变),而非非0即1的“硬掩码”。这种设计使得判别器能够更细致地评估破损区域与周围已知区域边界的融合自然度,引导生成器生成边界过渡平滑、视觉效果更自然的修复结果。
3. 损失函数设计: 为了全面指导网络训练,本研究采用了包含五种损失的复合损失函数,确保修复图像在像素精度、感知质量、风格一致性和平滑度等多方面逼近真实图像。 * 逐像素重建损失(L_rec): 包含破损区域损失(L_hole)和非破损区域损失(L_valid),使用L1范数计算生成图像与真实图像在对应区域的像素级差异,确保整体结构的准确性。 * 风格损失(L_style): 通过比较生成图像与真实图像在CNN特定中间层特征图的Gram矩阵差异,促使生成图像在纹理、颜色分布等风格特性上与真实图像保持一致。 * 感知损失(L_perc): 计算生成图像与真实图像在预训练CNN(如VGG)中间层特征表示之间的差异,从高层语义层面保证修复内容的感知真实性。 * 总变差损失(L_TV): 通过最小化图像相邻像素间的差异,对生成图像施加平滑性约束,有助于减少图像中的噪声和不自然的伪影。 * 对抗损失(L_adv): 由生成器损失和判别器损失构成,基于SM-PatchGAN框架计算。它驱动生成器生成足以“欺骗”判别器的逼真图像,而判别器则努力区分真假,二者在对抗中共同进化。 最终的总损失是上述五项损失的加权和:L_total = λ_rec L_rec + λ_style L_style + λ_perc L_perc + λ_TV L_TV + λ_adv L_adv。实验中设置了具体的权重系数(λ_rec=1, λ_style=250, λ_perc=0.1, λ_TV=0.1, λ_adv=0.01)。
4. 实验设置与数据处理: * 实验环境: 使用PyTorch 1.13.0框架,在配备NVIDIA GeForce RTX 3080 GPU的Windows 11服务器上进行。采用Adam优化器,学习率设为1×10^-4,总训练周期为1,000,000次迭代。 * 数据集: 使用了两个高质量数据集进行评估。1) CelebA-HQ人脸数据集:包含30,000张1024×1024分辨率的人脸图像,随机选取500张作为测试集,其余用于训练。2) DIV2K+Flickr2K综合数据集:合并了两个常用于超分辨率任务的数据集,共包含3,300张训练图像和250张测试图像。所有图像在处理前均下采样至512×512分辨率以保持一致。 * 对比方法: 选择了三种先进的图像修复算法作为基线进行对比:GatedConv、HiFill和AOT-GAN。为确保公平,所有对比实验均在相同的训练集和测试集上进行。
四、 主要研究结果
本研究通过定性和定量实验,全面评估了所提算法的性能。
1. 定性结果(视觉对比): 在CelebA-HQ和DIV2K+Flickr2K数据集上的修复效果可视化对比表明: * GatedConv修复的图像整体细节模糊,纹理信息丢失明显,尤其在将低分辨率结果上采样至高分辨率时问题突出。 * HiFill相比GatedConv有较大改进,但在破损区域边缘处仍存在可见的伪影和不自然痕迹。 * AOT-GAN能生成视觉效果更自然的修复结果,表明其聚合上下文转换块的有效性。 * 本研究提出的算法在视觉上表现最佳。对于人脸数据集,它能生成五官协调、皮肤纹理细腻的修复结果;对于自然场景数据集,在纹理复杂的区域(如毛发、草木),本算法修复的边缘连续性和自然度更好,颜色过渡更平滑,生成的纹理更加细腻逼真。
2. 定量结果(指标对比): 使用四种广泛认可的图像质量评估指标进行量化比较: * 平均绝对误差(MAE):值越低越好,表示像素级误差越小。 * 峰值信噪比(PSNR):值越高越好,表示图像失真越低。 * 结构相似性(SSIM):值越高越好,表示与真实图像的结构相似度越高。 * Fréchet Inception Distance(FID):值越低越好,表示生成图像与真实图像在特征空间的分布越接近。
在两个测试集上的结果均一致显示,本研究所提算法在MAE、PSNR、SSIM和FID四项指标上均优于所有对比方法(GatedConv、HiFill、AOT-GAN)。例如,在CelebA-HQ上,本算法的PSNR达到26.010,SSIM达到0.881,FID低至1.496;在DIV2K+Flickr2K上,PSNR为25.964,SSIM为0.836,FID为1.928。这些数据强有力地证明了本算法在像素精度、结构保真度和感知质量方面的综合优越性。
3. 消融实验结果: 为了验证算法中两个关键创新点(生成器的注意力机制和判别器的软掩码)的有效性,研究进行了消融实验。 * 注意力机制消融: 对比了生成器中引入与不引入ECA-Net注意力机制的效果。结果显示,引入注意力机制后,修复图像在细节和纹理丰富度上显著提升,网络能更好地聚焦于关键修复区域。 * 软掩码机制消融: 对比了判别器中使用软掩码(SM-PatchGAN)与使用传统硬掩码PatchGAN的效果。结果显示,引入软掩码后,修复区域的边界过渡更加平滑自然,避免了硬掩码可能导致的边界突兀问题。 消融实验的结果从组件层面证实了本算法设计思路的正确性和有效性,表明注意力机制和软掩码机制各自对最终修复质量的提升做出了明确贡献。
五、 研究结论与价值
本研究成功提出并验证了一种有效的“注意力残差聚合的高分辨率图像修复算法”。该算法通过生成器中的注意力增强型AOT块实现了对破损区域的精准聚焦和多尺度上下文信息聚合,通过判别器中的软掩码机制优化了对抗训练过程,着重提升修复边界的自然度。结合精心设计的复合损失函数,该算法能够生成纹理细腻、结构一致、视觉逼真的高分辨率修复图像。
科学价值: 1)为高分辨率图像修复任务提供了一种新颖且有效的网络架构范式,将注意力机制与先进的上下文聚合模块(AOT)相结合,提升了模型对复杂语义和细节的建模能力。2)提出了SM-PatchGAN判别器,将软掩码思想融入对抗训练,为基于GAN的修复方法中判别器的设计提供了新思路,有助于生成更平滑的修复边界。3)通过系统的消融实验,明确了各创新组件对性能提升的具体贡献,为后续研究提供了清晰的参考。
应用价值: 该算法在CelebA-HQ(人脸)和DIV2K+Flickr2K(自然场景)数据集上的优异表现,证明了其具有良好的泛化能力。可广泛应用于需要高质量图像修复的领域,如:老照片修复、影视特效制作中的物体移除、图像编辑中的水印或瑕疵去除、自动驾驶场景理解中的遮挡补全等,具有重要的实际应用潜力。
六、 研究亮点
七、 其他有价值内容
论文在引言部分对图像修复领域的传统方法(基于补丁、基于扩散)和深度学习方法(基于CNN、GAN、扩散模型等)进行了简要而清晰的梳理,指出了各类方法的优势与局限,为本研究的立项提供了充分的学术背景支撑。此外,论文对CNN和GAN的基本原理进行了图示化科普说明,虽然对于领域内研究者属于基础知识,但增强了论文的可读性和自包含性,便于更广泛的读者理解后续的技术细节。实验部分不仅进行了主实验对比和消融实验,还对所采用评估指标(MAE, PSNR, SSIM, FID)的含义和作用进行了解释,使实验结果的分析更具说服力。