这篇文档属于类型a,即报告了一项单一原创研究的学术论文。以下是针对该研究的学术报告:
主要作者与机构
本研究的作者包括杨含、秦广军、刘子源、胡永庆、刘光南和戴庆龙。他们分别来自北京联合大学智慧城市学院和国家电力投资集团数字科技有限公司。该研究发表在《深圳大学学报(理工版)》,网络首发日期为2025年5月16日。
学术背景
本研究的主要科学领域是人工智能理论与计算机神经网络,特别是卷积神经网络(CNN)与拓扑数据分析(TDA)的结合。卷积神经网络在图像处理领域表现出色,但其在处理复杂高维数据时难以捕获多维结构信息,限制了其特征学习能力。拓扑数据分析作为一种基于代数拓扑的无监督学习方法,能够有效提取数据的全局拓扑结构信息。然而,TDA在区分细微视觉差异时存在局限。因此,本研究提出了一种结合TDA与CNN的特征融合方法——TDA-CNN,旨在通过融合数值分布特征与拓扑结构特征,提升模型的特征学习与决策能力。
研究流程
本研究主要包括以下几个步骤:
1. 模型设计:TDA-CNN模型结合了CNN与TDA,通过CNN通道提取数值分布特征,通过TDA通道提取拓扑结构特征,然后将这两类特征融合。具体流程包括数值特征模块、拓扑特征模块、特征融合模块、特征选择模块和决策模块。
2. 持久性映像生成:在拓扑特征模块中,研究者将图像数据点云化,计算持久性图(Persistence Diagram, PD),并将其转换为持久性映像(Persistent Image, PI)。这一过程包括构建复形结构、提取拓扑特征、生成出生持久图(Birth-Persistence Diagram, BP),以及通过高斯核函数生成持久性映像。
3. 特征融合与选择:在特征融合模块中,研究者将CNN提取的数值特征与TDA提取的拓扑特征按通道拼接,形成组合特征。随后,通过SE模块(Squeeze-and-Excitation Module)自适应地调整不同特征的权重,以增强模型对关键特征的关注。
4. 决策与分类:在决策模块中,研究者将组合特征输入全连接神经网络,用于执行分类任务。模型训练过程中采用交叉熵损失函数优化参数。
5. 实验验证:研究者在Intel Image、Gender Images和Chinese Calligraphy Styles by Calligraphers等数据集上验证了TDA-CNN的性能,并与VGG16、EfficientNet V2和DenseNet121等基线模型进行了对比。
主要结果
实验结果表明,TDA-CNN在多个数据集上均表现出色。例如,在Intel Image数据集上,TDA-VGG16的准确率达到了90.66%,显著优于基线模型。在Chinese Calligraphy Styles by Calligraphers数据集上,TDA-VGG16的F1分数达到了0.9744,显示出其在处理复杂数据结构时的强大能力。此外,消融实验表明,引入持久性映像和SE模块显著提升了模型的性能。例如,在DenseNet121模型上,引入持久性映像后,准确率从90.59%提升至91.10%,进一步引入SE模块后,准确率进一步提升至91.57%。
结论与意义
本研究提出了一种结合拓扑数据分析与卷积神经网络的特征融合方法,通过引入持久性映像和SE模块,显著提升了模型的特征学习与分类能力。该方法不仅在理论上丰富了人工智能领域的特征表示方法,还在实际应用中为图像分类、模式识别等任务提供了新的解决方案。此外,本研究还解决了持久性图转换过程中持续时间为零或无穷大的问题,为拓扑特征在深度学习中的应用提供了技术支撑。
研究亮点
1. 创新性:首次将持久性映像与卷积神经网络结合,提出了一种全新的特征融合方法。
2. 技术突破:通过引入SE模块,实现了对拓扑特征与数值特征的自适应权重分配,显著提升了模型的分类性能。
3. 广泛适用性:在多个不同领域的数据集上验证了方法的有效性,展示了其在实际应用中的潜力。
4. 解决技术难题:改进了持久性图的转换过程,解决了持续时间为零或无穷大的问题,为拓扑特征的应用提供了技术支持。
其他有价值的内容
本研究还探讨了未来研究方向,例如将TDA与更多机器学习和深度学习方法结合,以及降低引入TDA带来的额外计算量。这些方向为进一步提升模型的性能和应用范围提供了新的思路。