本研究由Wei Zhang(南通大学人工智能与计算机科学学院)、Zhaohong Deng(江南大学人工智能与计算机科学学院、江苏省媒体设计与软件技术重点实验室)、Kup-Sze Choi(香港理工大学智能健康中心)、Jun Wang(上海大学通信与信息工程学院)及Shitong Wang(江南大学)共同完成,发表于《Artificial Intelligence Review》期刊(2025年58卷,DOI:10.1007/s10462-025-11183-0)。
研究领域:本研究属于多视图学习(Multi-view Learning)中的多视图聚类(Multi-view Clustering)方向,旨在解决多源异构数据的联合分析问题。例如,新闻的多语言版本或疾病的多种医学检测结果均可视为多视图数据。
研究动机:现有方法存在两大挑战:
1. 知识挖掘不充分:传统方法仅关注视图间一致性知识(consistent knowledge),而忽略各视图特有知识(unique knowledge);
2. 流程割裂:多数方法将表征学习与聚类分步进行,导致学习到的表征与聚类任务脱节。
研究目标:提出一种双表征学习(Dual Representation Learning)框架,同步挖掘一致性与特异性知识,并通过一步式(one-step)流程实现聚类优化。
核心思想:通过改进矩阵分解(Matrix Factorization),将多视图数据分解为:
- 共同表征(Common Representation):捕获视图间一致性信息;
- 特异性表征(Specific Representation):保留各视图独有信息。
数学模型:
math \min_{H,W_k,S_k,P_k} \sum_{k=1}^K \|X_k - H^T W_k - S_k^T P_k\|_F^2 + \gamma (\|H^T\|_F^2 + \|S_k^T\|_F^2)
其中,$H$为共同表征,$S_k$为第$k$视图的特异性表征,$W_k$与$P_k$为映射矩阵,$\gamma$为正则化参数。
创新点:将双表征学习与聚类分配统一为单一优化目标:
math \min_Y \sum_{k=1}^K \|X_k - H^T W_k - S_k^T P_k\|_F^2 + \alpha_k \|S_k - V_k U\|_F^2 + \beta \|V_k^T V_k - I\|_F^2 - \delta \sum_{k=1}^{K+1} \alpha_k \ln \alpha_k
关键设计:
- 互自学习机制(Mutual Self-taught Mechanism):聚类结果反馈优化表征学习,反之亦然;
- 最大熵约束:自适应调整各视图权重$\alpha_k$;
- 正交约束:提升聚类中心矩阵$V_k$的判别性。
采用交替优化(Alternating Optimization)求解,依次更新:
1. 共同表征$H$:通过闭式解(Closed-form Solution)计算;
2. 特异性表征$S_k$:结合视图权重与聚类中心;
3. 聚类分配矩阵$U$:基于最小距离准则直接生成硬聚类标签。
复杂度分析:算法整体复杂度为$O(n^2(1+K)t)$,适用于大规模数据。
实验涵盖9个真实数据集(如Dermatology、MSRCv1、Caltech等),对比10种主流方法,包括:
- 原始视图方法:如MVASM;
- 共同潜在视图方法:如GMULTINMF、NMFCC;
- 一步式方法:如OPMC、PLCMF。
以NMI(Normalized Mutual Information)、ACC(Accuracy)、Purity、ARI(Adjusted Rand Index)为评价标准。
(报告全文约2000字)