本文由Jiewu Leng、Jiajun Wang、Lianhong Zhou、Rongli Zhao(通讯作者)、Chong Chen、Ding Zhang、Shuai Zheng、Qiang Liu(通讯作者)及Weiming Shen合作完成,作者团队来自广东工业大学计算机集成制造系统广东省重点实验室、西安交通大学软件学院以及华中科技大学智能制造装备与技术国家重点实验室。该论文于2026年发表在《Advanced Engineering Informatics》期刊第70卷,文章编号104117。
这篇综述论文聚焦多模态深度学习(Multi-modal Deep Learning, MMDL)在自主智能制造(Agentic Smart Manufacturing, ASM)中的应用。随着制造业从传统自动化向自主智能制造的范式转变,生成式人工智能(Generative AI)和多智能体分散决策框架正在重构制造系统为自主生态系统。然而,制造环境中多模态数据(如文本、图像、音频、传感器数据)存在格式、尺度和结构的异构性,传统单模态分析方法难以全面捕捉生产系统的多维特征及其相互作用。MMDL通过融合多模态数据,为自主智能体(Agentic AI)提供实时感知、决策和行动能力,成为提升制造系统弹性和创新性的关键技术。
论文将ASM中的多模态数据分为三类:
- 结构化数据(Structured Data):如温度传感器的时间序列信号、PLC控制数据,具有固定格式,便于快速处理。振动传感器数据通过连续小波变换转化为二维时频谱,触觉传感器则表现为空间-时间耦合的压力矩阵。
- 半结构化数据(Semi-structured Data):如设备日志和配置文件,需通过领域知识提取关键信息并标准化格式。
- 非结构化数据(Unstructured Data):包括工业相机图像、热成像数据、音频信号和维护日志,需通过图像处理、自然语言处理等技术提取特征。
支持证据:文献[20,22-28]展示了不同传感器数据的处理方法和表征形式,例如连续小波变换用于振动信号分析[27],而自然语言处理技术用于维护日志的语义特征提取[39]。
多模态对齐是构建自主决策闭环的基础,分为四类:
- 时间对齐(Temporal Alignment):通过动态时间规整(Dynamic Time Warping, DTW)或滑动窗口算法解决不同采样频率数据的同步问题[20,25]。
- 空间对齐(Spatial Alignment):利用特征点匹配或极坐标变换统一视觉数据的坐标系[28,43]。
- 特征对齐(Feature Alignment):通过注意力机制或对比学习消除模态间的分布差异[24,33]。
- 语义对齐(Semantic Alignment):如CLIP模型将图像和文本映射到统一语义空间[8,33]。
支持理论:表3列举了不同对齐方法的优缺点,例如DTW计算复杂度高但兼容非均匀采样数据[47],而注意力机制能动态过滤噪声[24]。
论文详细分析了四类网络模型在ASM中的应用:
- 卷积网络(CNN):1D-CNN处理时间序列,2D-CNN处理图像,图卷积网络(GCN)建模设备拓扑关系[70]。
- 循环网络(RNN/LSTM):捕捉时序动态,如GRU优化长程依赖[23]。
- Transformer模型:通过多头注意力机制实现跨模态语义对齐[74]。
- 生成模型(GAN/VAE):生成缺失数据样本,解决小样本问题[10,80]。
融合技术分为早期融合(数据级)、中期融合(特征级)和晚期融合(决策级)。特征级融合通过动态权重或共享子空间优化模态交互[76,92],而决策级融合通过加权投票提高鲁棒性[93]。
论文按四层架构展开应用分析:
- 设备层:故障诊断(如复合故障检测[130])和预测性维护(基于Transformer的动态监测[63])。
- 车间层:动态调度(多智能体强化学习[137])和人机协作(HRC)(结合视觉与骨骼数据[143])。
- 工厂层:资源计划(多模态对抗网络优化库存[147])和工艺优化(双流时空融合框架[149])。
- 供应链层:追溯(基于Faster R-CNN的防伪验证[117])和循环优化(多模态废物分类[154])。
案例支持:表6总结了各层级的典型应用,如复合故障诊断准确率提升至97.5%[43],能源消耗降低18.75%[162]。
论文指出三大挑战:
- 高频模态主导:采样频率差异导致信息失衡[168],需通过动态权重优化[25]和黎曼流形学习解决。
- 融合漂移与维度灾难:噪声干扰和高维稀疏性影响模型稳定性[172],可通过对抗训练和增量学习缓解。
- 资源约束与安全风险:边缘计算环境下需平衡隐私(联邦学习[5])与实时性(模型轻量化[177])。
未来研究方向包括:动态对齐的黎曼流形建模、开放场景的生成式泛化、边缘端轻量化优化,以及因果推理驱动的可解释性增强。
本文系统梳理了MMDL在ASM中的理论框架和技术路径,为制造业的智能化转型提供了方法论支撑。其科学价值在于:
1. 提出多模态对齐与融合的系统性解决方案,填补了工程应用的理论空白;
2. 通过四层架构的应用分析,揭示了MMDL在制造全链条中的实践潜力;
3. 指出的挑战与方向为后续研究提供了关键切入点。
应用价值体现在提升制造系统的自主性、弹性和可持续性,例如故障诊断准确率接近99.72%[126],供应链分类精度达95.4%[154]。
本文不仅是一篇技术综述,更为实现工业4.0到5.0的升级提供了人工智能基础设施的设计蓝图。