尖峰扩散模型
脑启发的低能耗生成模型——Spiking Diffusion Models研究评述
背景概述
近年来,人工智能领域涌现出众多前沿技术,其中深度生成模型(Deep Generative Models, DGMs)通过生成图像、文本等数据表现出了卓越的能力。然而,这些生成模型通常依赖人工神经网络(Artificial Neural Networks, ANNs)作为骨干网络,其高度依赖算力和内存资源的特性使其在大规模应用中面临显著的能耗问题。同时,与人类大脑相比,ANNs的能耗效率远不及人类大脑的20瓦功率水平,这导致研究人员对更高能效的神经网络架构产生了兴趣。
与ANNs不同,脉冲神经网络(Spiking Neural Networks, SNNs)以大脑神经元的工作方式为启发,以事件驱动的方式处理信息,展现了高能效、低时延和高生物拟合度等优势。然而,SNN的核心特性——通过二进制脉冲(0或1)传递信息,同时使用“加法累积”(Accumulation, AC)机制而非传统的高能耗“乘累加”(MAC)机制,尽管降低了计算成本,却在生成任务中面临表现力不足的问题。
为了平衡高质量数据生成与能效需求,香港科技大学(广州)及其他高校的研究人员提出了一项创新的研究:Spiking Diffusion Models(脉冲扩散模型,SDMs)。这一研究试图解决现有生成模型高能耗与SNN生成质量欠佳这两大问题。论文《Spiking Diffusion Models》于2025年1月在《IEEE Transactions on Artificial Intelligence》(第6卷,第1期)发表,汇集了来自香港科技大学(广州)、中国人民大学、北卡罗来纳州立大学的科学家的研究成果。
研究流程与创新方法
这项研究的主要目标是利用扩散模型结合SNN,实现高质量、低能耗的生成任务。以下我们具体介绍研究的工作流程。
1. 研究框架设计与核心机制创新
研究中,作者设计了一种通用的脉冲扩散模型架构,适配不同的扩散求解器(如DDPM、DDIM、Analytic-DPM等),并引入了以下两大关键机制:
时间更新机制(Temporal-wise Spiking Mechanism, TSM):
在传统SNN中,每个时间步的输入都基于固定的突触权重进行计算,这与真实神经系统不符。受生物神经元动态特性的启发,作者设计了TSM,使神经元膜电位在不同时间步逐步自适应更新,从而捕获更多时间相关的动态特性,大幅提升生成图像的质量。阈值引导策略(Threshold Guidance, TG):
作者首次提出了无需额外训练的阈值调整方法,通过改变脉冲神经元的激发阈值得到不同的采样质量。在推理阶段,调低阈值(抑制性引导)或调高阈值(兴奋性引导)使生成图片的FID得分(Fréchet Inception Distance)显著改善。
2. 实验设计与算法优化
实验主要包含两个阶段:
阶段一:标准Prespike残差块的训练
作者设计了一种名为Prespike的残差学习方法,以解决传统SNN残差结构中信息叠加溢出的问题。与ANN中的残差网络结构不同,Prespike确保在Residual Block中以浮点数精确累加输出值,避免非生物态的“溢出”现象。阶段二:基于TSM机制的微调
在预训练模型的基础上,将Prespike残差块替换为TSM块,通过对时间参数进行优化,捕获更多动态特征。整个阶段仅需少量迭代即可达到明显效果。
研究结果与分析
实验数据与结果
研究采用了多种基准数据集进行评估,包括MNIST、Fashion-MNIST、CIFAR-10、Celeba和LSUN Bedroom。通过对比SDMs与传统ANN及其他SNN生成模型的性能,主要结果如下:
- 在CIFAR-10数据集上,SDMs仅用4个时间步实现了19.73的FID,与ANN DDPM的19.04接近;当时间步升至8时,FID进一步优化至15.45,超越了一些ANN模型。
- 在Fashion-MNIST数据集上,SDMs的能耗仅为ANN的约30%,并在生成质量上领先同类SNN模型多达11倍。
- SDMs引入的TSM模块使FID平均提升18.4%,而模型参数仅增加0.0002M,相较于现有SNN方法无显著额外能耗。
方法对比与扩展性
此外,作者对比了用于生成任务的直接训练方法和ANN-SNN转换方法。尽管ANN-SNN在分类任务中已被证为有效,但在生成任务中表现稍逊于直接训练方法,而通过微调策略(FT),这一方法的FID显著从51.18优化至29.53。
总结与意义
研究的科学价值
Spiking Diffusion Models的提出实现了SNN在生成任务中的新突破,尤其在低能耗条件下达到了与传统ANN模型竞争的水平。这一技术不仅在算法架构上提供了创新见解,还展示了脉冲神经网络在生成领域的广阔潜力。
应用前景
SDMs的高效性为低能耗设备(如神经形态硬件)上的图像生成和推理奠定了基础,同时还展现了在文字生成、音频生成等领域的应用可能性。未来结合大语言模型(如GPT等),SDMs还可进一步拓展至文本-图像生成等复杂任务。
研究亮点
- 首次将时间更新机制(TSM)引入SNN生成任务。
- 提出训练后优化的阈值引导策略,无需额外训练即可显著提升生成质量。
- 量化实验表明,该模型能耗仅为传统ANN的37.5%,且生成效果可超越部分ANN模型。
展望
尽管本研究展现了显著成果,但当前模型仍存在时步较少和分辨率适应性未完全开发的局限。未来研究应面向高分辨率图像生成(如ImageNet数据集)和多模态生成任务探索,以实现强泛化性和实用性。同时,SDMs在可持续计算和低能耗AI应用方面也将扮演重要角色。