本报告旨在介绍由Guangwei Gao、Zixiang Xu、Juncheng Li、Jian Yang、Tieyong Zeng和Guo-jun Qi等人发表在2023年《IEEE Transactions on Image Processing》第32卷上的原创研究论文《CTCNet: A CNN-Transformer Cooperation Network for Face Image Super-Resolution》。本研究属于计算机视觉与人工智能领域,具体聚焦于人脸图像超分辨率这一关键技术。
一、 研究团队与发表信息 本研究的主要作者包括:南京邮电大学先进技术研究所IVIP实验室的Guangwei Gao(IEEE高级会员)和Zixiang Xu,同时他们也隶属于苏州大学计算机信息处理技术省重点实验室;上海大学通信与信息工程学院的Juncheng Li;南京理工大学计算机科学与技术学院的Jian Yang(IEEE会员);香港中文大学数学系数学人工智能中心的Tieyong Zeng(IEEE会员);以及西湖大学产业与未来研究中心、西雅图OPPO研究的Guo-jun Qi(IEEE Fellow)。该研究获得了国家自然科学基金、国家重点研发计划、江苏省“六大人才高峰”项目等多个项目的资助。研究初稿于2022年3月20日提交,历经修改,于2023年3月15日被接受,并于2023年3月29日在线发表,最终版本发布于2023年4月4日。源代码已在GitHub平台开源。
二、 学术背景与研究目的 人脸图像超分辨率,又称人脸幻觉,旨在从低分辨率输入图像中恢复出高质量的高分辨率人脸图像。在实际应用中,由于成像设备硬件配置、拍摄角度等限制,获取的人脸图像质量往往较差,直接影响后续的人脸分析与识别等任务。与通用图像超分辨率不同,FSR的核心目标是尽可能地重建退化观测中缺失的人脸结构信息。这些结构虽只占面部一小部分,却是区分不同人脸的关键。
先前基于深度卷积神经网络的方法虽然取得了一定进展,但存在明显局限。一方面,许多方法采用多任务联合训练策略,依赖人脸关键点热图或解析图等先验信息,这需要对数据集进行额外标注,且引入先验网络会显著增加模型的计算成本。另一方面,CNN固有的感受野限制使其难以有效建模图像的长程依赖关系,这可能会降低重建人脸图像的保真度和自然度,导致人脸全局结构模糊。近年来,Transformer在视觉任务中展现出强大的全局关系建模能力,但纯Transformer结构可能在捕捉局部细粒度细节方面存在不足。
因此,本研究旨在探索如何协同利用CNN的局部细节提取能力和Transformer的全局结构建模能力,同时避免对额外标注先验的依赖,并更有效地利用网络中的多尺度特征。研究的主要目标是设计一个高效、高性能的人脸超分辨率网络,能够在无需额外先验标注的情况下,同时恢复清晰的面部细节和准确的整体结构,最终生成自然、高保真的人脸图像。
三、 详细研究流程与方法 本研究提出了一种名为CNN-Transformer合作网络的创新模型架构。CTCNet是一个对称的U形分层网络,包含三个阶段:编码阶段、瓶颈阶段和解码阶段。整体流程可概括为:输入低分辨率人脸图像,经过编码阶段提取多尺度特征,在瓶颈阶段对特征进行精炼,在解码阶段融合多尺度特征并逐步重建出超分辨率图像。
1. 编码阶段 编码阶段负责特征提取。首先,通过一个3×3卷积层提取浅层特征。随后,特征经过3个编码阶段。每个编码阶段的核心是局部-全局特征合作模块和降采样模块。 * 局部-全局特征合作模块: 这是CTCNet的核心创新模块,由两个关键组件串联组成。第一个组件是面部结构注意力单元。FSAU的灵感来源于人脸具有固定几何结构的特性,旨在引导网络更关注关键面部部件(如眼睛、嘴巴)。其内部采用了沙漏结构来捕获多尺度的面部关键点特征,并嵌套了通道注意力(位于空间注意力内部),以同时促进空间特征提取和通道信息交互。为减少参数量,FSAU在沙漏结构前后引入了自适应特征蒸馏单元,通过“缩减-扩展”操作和残差连接来高效提取和精炼局部特征。第二个组件是Transformer块,用于捕获图像的长程依赖关系,以建模全局面部结构(如脸部轮廓)。为避免传统Transformer巨大的计算开销,该块采用了多头深度卷积转置注意力。与标准Transformer不同,它在生成查询、键、值向量时,先使用1×1卷积聚合跨通道上下文,再使用3×3深度卷积编码空间上下文,从而生成更高效的注意力图。同时,前馈网络也被改进为门控深度卷积前馈网络,以更好地编码局部图像结构。 * 降采样模块: 由步长为2的3×3卷积层、LeakyReLU激活函数和步长为1的3×3卷积层组成,用于下采样特征图尺寸并扩展通道数。经过3个编码阶段后,特征图尺寸逐级减半,通道数逐级倍增。
2. 瓶颈阶段 在编码器和解码器之间是瓶颈阶段。该阶段的主要作用是汇聚并增强编码阶段提取的所有特征。为此,研究者引入了特征精炼模块。FRM由FSAU和一个特征增强单元构成。FEU采用双分支结构:主分支直接在原尺度上使用AFDU提取信息;另一分支则对特征进行下采样,提取特征后再上采样,与主分支输出融合。此外,FRM还在残差连接中添加了特征自校准路径,通过一个1×1卷积和Sigmoid函数生成注意力权重,以突出高激活值的特征。实验表明,堆叠4个FRM能在性能和模型大小间取得最佳平衡。
3. 解码阶段 解码阶段负责特征融合与图像重建。每个解码阶段包含一个上采样模块、一个多尺度特征融合单元和一个LGCM。 * 上采样模块: 由步长为2的6×6转置卷积层、LeakyReLU和步长为1的3×3卷积层组成,用于上采样特征图尺寸并减少通道数。 * 多尺度特征融合单元: MFFU旨在充分利用编码阶段提取的多尺度特征。由于来自不同编码阶段的特征图尺寸各异,MFFU通过上采样或下采样操作将它们统一到当前解码阶段的尺寸,然后沿通道维度拼接所有特征图。接着,使用1×1卷积层进行初步融合,最后通过通道注意力机制为每个通道分配权重,实现自适应融合。 * LGCM: 解码阶段的LGCM与编码阶段结构相同,继续对融合后的特征进行局部和全局建模。解码阶段结束后,通过一个3×3卷积层将学习到的特征转换为最终的残差特征,并与输入的低分辨率图像相加,得到最终的超分辨率人脸图像。
4. 模型扩展与损失函数 为了进一步提升生成图像的视觉真实感,研究者还提出了一个扩展版本——CNN-Transformer合作生成对抗网络。CTCNet作为生成器,并引入了一个判别器。CTCNet的优化仅使用像素级的L1损失。CTCGAN则采用组合损失函数,包括:保持像素级保真度的像素损失;利用预训练的VGG19网络(人脸识别版本)提取特征、确保感知质量的感知损失;以及促使生成图像与真实高分辨率图像在分布上难以区分的对抗损失。通过调整各项损失的权重,在保真度与视觉真实性之间取得权衡。
5. 数据集与实验设置 研究使用CelebA数据集进行训练和主要测试。HR图像尺寸裁剪为128×128,通过双三次下采样生成16×16的LR图像作为输入,构成了放大倍数为×8的超分辨率任务。训练集、验证集和测试集分别包含18,000、200和1,000张图像。为测试模型泛化能力,直接在Helen和SCFace(真实监控场景)数据集上进行测试,未重新训练。模型基于PyTorch框架实现,使用Adam优化器。评估指标包括:峰值信噪比、结构相似性、学习感知图像块相似度和视觉信息保真度,从像素级、结构级和感知质量等多个维度全面评估重建效果。
四、 主要研究结果与分析 1. 模块有效性验证(消融实验) 研究进行了系统的消融实验以验证各模块的必要性。 * LGCM有效性: 移除所有LGCM的模型性能最差。单独移除FSAU或Transformer块,性能均会下降,这表明局部细节建模和全局结构建模都是不可或缺的。同时包含两者的完整LGCM取得了最佳性能,证明了CNN与Transformer协同设计的可行性。 * FRM数量研究: 在瓶颈阶段逐步增加FRM数量(0, 2, 4, 6个)。结果表明,完全不使用FRM时性能最差。随着FRM数量增加到4个,各项指标持续提升,面部轮廓在视觉上也逐渐清晰。但当数量增加到6个时,性能不再提升甚至略有下降,且模型规模增大。因此,最终选择4个FRM以获得最佳平衡。 * MFFU融合策略研究: 对比了多种多尺度特征融合方案。结果表明,使用多尺度连接比不使用能显著提升性能。在多种融合操作(拼接、相加)中,结合拼接操作与通道注意力的策略效果最好,说明自适应地融合多尺度特征对重建至关重要。 * FSAU内部结构研究: 分别移除其内部的通道注意力或空间注意力,模型性能提升有限。而同时使用两者(嵌套结构)时,性能提升最明显,证明了该嵌套设计的有效性。 * FEU内部组件研究: 移除非核心组件会导致性能下降。其中,AFDU、双分支结构、特征自校准路径分别贡献了约0.10 dB、0.06 dB和0.07 dB的PSNR增益,验证了它们各自在减少冗余、多尺度提取和特征选择方面的价值。 * CTC-GAN损失函数研究: 实验表明,仅使用像素损失能获得最高的PSNR和SSIM值。加入感知损失和对抗损失后,虽然像素指标可能略有下降,但生成的图像在视觉上更真实、锐利,细节更丰富,这体现了不同损失函数在追求“精确”与“真实”之间的不同导向。
2. 与先进方法的比较 在CelebA和Helen测试集上的量化比较显示,CTCNet在PSNR、SSIM、LPIPS和VIF等多项指标上均显著优于当时的主流方法,包括基于CNN的先进人脸超分辨率方法(如FSRNet, DICNet, SPARNet)以及基于Transformer的通用图像恢复方法SwinIR。视觉对比进一步证明,CTCNet能够恢复出更清晰、更准确的五官细节和面部轮廓,生成的图像更接近真实高分辨率图像,而其他方法则容易出现模糊或结构扭曲。
3. GAN扩展模型性能 与FSRGAN、DICGAN等基于GAN的人脸超分辨率方法相比,提出的CTC-GAN在PSNR、SSIM、VIF等指标上仍具竞争力,并且在衡量生成图像分布真实性的Fréchet起始距离指标上表现更优。视觉上,CTC-GAN生成的人脸纹理更自然,能有效恢复眼睛、嘴巴等关键部位细节,且产生的伪影和噪声更少。
4. 真实监控场景测试 在SCFace真实监控数据集上的测试更具挑战性。由于真实LR图像质量差且无精确先验,依赖人脸先验的方法效果不佳。而CTCNet凭借其CNN-Transformer协作机制,无需外部先验,依然能够恢复出相对更干净的面部细节和更忠实的面部结构。此外,通过人脸匹配实验(将超分辨率结果与高清库中人脸进行比对),CTCNet生成的人脸获得了最高的平均相似度,这直接证明了其在提升下游任务(如人脸识别)性能方面的实用价值。
5. 模型复杂度分析 研究对比了模型参数量、执行时间和性能。CTCNet在取得最佳量化结果的同时,其参数量和推理时间与许多竞争方法处于可比较的水平,甚至更具优势。这表明CTCNet在模型性能、规模和效率之间实现了良好的平衡。
五、 研究结论与价值 本研究成功提出了一种创新的CNN-Transformer协作网络,用于解决人脸图像超分辨率问题。CTCNet通过精心设计的局部-全局特征合作模块,巧妙地将CNN在提取局部细节方面的优势与Transformer在建模全局关系方面的能力相结合。同时,多尺度特征融合单元实现了编码器与解码器之间密集特征的自适应融合,特征精炼模块则进一步增强了关键面部特征的表示。所提出的方法在无需额外人脸先验标注的情况下,在模拟和真实世界数据集上均实现了优于当时先进方法的性能,能够重建出具有清晰局部细节和准确全局结构的高质量人脸图像。
六、 研究亮点 1. 协同创新架构: 首次在人脸超分辨率任务中系统性地提出并验证了CNN与Transformer的协同合作框架(LGCM),有效解决了CNN感受野有限和纯Transformer局部细节丢失的痛点。 2. 任务驱动模块设计: FS-AU和MFFU等模块均针对人脸图像的结构特性和多尺度特征利用需求进行专门设计,而非简单套用现有模块。 3. 无需外部先验: 模型不依赖人脸关键点或解析图等需要额外标注的先验信息,降低了数据准备成本和模型对先验精度的敏感性,提升了实用性和泛化能力。 4. 全面深入的验证: 研究不仅进行了详尽的消融实验验证各组件有效性,还在模拟数据集、跨数据集和真实监控场景下进行了全面性能评估,并证明了其对下游人脸匹配任务的提升价值,论证充分。
七、 其他价值 本研究开源的代码为后续研究者复现和改进工作提供了便利。论文中对CNN与Transformer在低级视觉任务中如何有效结合的探索,对图像恢复乃至更广泛的计算机视觉领域都具有启发意义。提出的模块(如MDTA、GDFN)也可为其他相关研究提供参考。