分享自:

多视图数据的双重表示学习与一步聚类

期刊:Artificial Intelligence ReviewDOI:10.1007/s10462-025-11183-0

多视图数据双表征学习的一步聚类方法研究学术报告

一、作者与发表信息

本研究由Wei Zhang(南通大学人工智能与计算机科学学院)、Zhaohong Deng(江南大学人工智能与计算机科学学院、江苏省媒体设计与软件技术重点实验室)、Kup-Sze Choi(香港理工大学智能健康中心)、Jun Wang(上海大学通信与信息工程学院)及Shitong Wang(江南大学)共同完成,发表于《Artificial Intelligence Review》期刊(2025年58卷,DOI:10.1007/s10462-025-11183-0)。

二、学术背景

研究领域:本研究属于多视图学习(Multi-view Learning)中的多视图聚类(Multi-view Clustering)方向,旨在解决多源异构数据的联合分析问题。例如,新闻的多语言版本或疾病的多种医学检测结果均可视为多视图数据。

研究动机:现有方法存在两大挑战:
1. 知识挖掘不充分:传统方法仅关注视图间一致性知识(consistent knowledge),而忽略各视图特有知识(unique knowledge);
2. 流程割裂:多数方法将表征学习与聚类分步进行,导致学习到的表征与聚类任务脱节。

研究目标:提出一种双表征学习(Dual Representation Learning)框架,同步挖掘一致性与特异性知识,并通过一步式(one-step)流程实现聚类优化。


三、研究方法与流程

1. 双表征学习机制

核心思想:通过改进矩阵分解(Matrix Factorization),将多视图数据分解为:
- 共同表征(Common Representation):捕获视图间一致性信息;
- 特异性表征(Specific Representation):保留各视图独有信息。

数学模型
math \min_{H,W_k,S_k,P_k} \sum_{k=1}^K \|X_k - H^T W_k - S_k^T P_k\|_F^2 + \gamma (\|H^T\|_F^2 + \|S_k^T\|_F^2)
其中,$H$为共同表征,$S_k$为第$k$视图的特异性表征,$W_k$与$P_k$为映射矩阵,$\gamma$为正则化参数。

2. 一步式聚类框架

创新点:将双表征学习与聚类分配统一为单一优化目标:
math \min_Y \sum_{k=1}^K \|X_k - H^T W_k - S_k^T P_k\|_F^2 + \alpha_k \|S_k - V_k U\|_F^2 + \beta \|V_k^T V_k - I\|_F^2 - \delta \sum_{k=1}^{K+1} \alpha_k \ln \alpha_k
关键设计
- 互自学习机制(Mutual Self-taught Mechanism):聚类结果反馈优化表征学习,反之亦然;
- 最大熵约束:自适应调整各视图权重$\alpha_k$;
- 正交约束:提升聚类中心矩阵$V_k$的判别性。

3. 优化算法

采用交替优化(Alternating Optimization)求解,依次更新:
1. 共同表征$H$:通过闭式解(Closed-form Solution)计算;
2. 特异性表征$S_k$:结合视图权重与聚类中心;
3. 聚类分配矩阵$U$:基于最小距离准则直接生成硬聚类标签。

复杂度分析:算法整体复杂度为$O(n^2(1+K)t)$,适用于大规模数据。


四、主要实验结果

1. 数据集与对比方法

实验涵盖9个真实数据集(如Dermatology、MSRCv1、Caltech等),对比10种主流方法,包括:
- 原始视图方法:如MVASM;
- 共同潜在视图方法:如GMULTINMF、NMFCC;
- 一步式方法:如OPMC、PLCMF。

2. 性能指标

以NMI(Normalized Mutual Information)、ACC(Accuracy)、Purity、ARI(Adjusted Rand Index)为评价标准。

3. 关键发现

  • 全面领先性:OMC-DR在多数数据集上显著优于对比方法(如MSRCv1的NMI提升12.3%);
  • 消融实验验证
    • 忽略特异性表征(OMC-DR1)导致性能下降;
    • 分离学习与聚类(OMC-DR2)削弱模型判别力;
  • 参数鲁棒性:固定参数($\gamma=10^{-1}$, $\delta=10^{-3}$, $\beta=10^{-1}$)下仍保持优异性能。

五、研究结论与价值

1. 科学价值

  • 理论创新:提出首个融合双表征学习与一步聚类的统一框架;
  • 方法突破:通过互自学习机制解决表征与聚类的协同优化问题。

2. 应用价值

  • 医疗诊断:整合多模态医学数据(如影像、基因)提升疾病分型精度;
  • 跨模态分析:适用于多语言文本、多传感器数据等场景。

六、研究亮点

  1. 双表征学习:首次同步挖掘一致性与特异性知识;
  2. 一步式框架:突破传统两步流程的局限性;
  3. 工程友好性:矩阵分解基设计优于自表征方法(Self-representation),更适合大规模数据。

七、其他贡献

(报告全文约2000字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com