分享自:

多视图聚类中稳健且一致的锚图学习方法

期刊:ieee transactions on knowledge and data engineeringDOI:10.1109/tkde.2024.3364663

多视图聚类新突破:RCAGL方法实现鲁棒且一致的锚图学习

作者及发表信息
本研究由Suyuan Liu、Qing Liao、Siwei Wang、Xinwang Liu(IEEE高级会员)和En Zhu合作完成,作者单位包括中国国防科技大学(National University of Defense Technology)、哈尔滨工业大学(深圳)以及北京智能博弈与决策实验室。研究成果发表于2024年8月的《IEEE Transactions on Knowledge and Data Engineering》(第36卷第8期),论文标题为《Robust and Consistent Anchor Graph Learning for Multi-View Clustering》。代码已开源在GitHub平台(https://github.com/tracesource/rcagl)。


学术背景
科学领域与问题背景
多视图聚类(Multi-View Clustering, MVC)是无监督学习中的重要技术,旨在整合来自不同数据源(即“视图”)的互补信息以提升聚类性能。传统方法如k-means或谱聚类(Spectral Clustering)通常针对单视图数据设计,而现实场景中数据往往具有多模态特性(如医学诊断中的临床与病理数据、图像的多特征描述等)。现有基于锚图(Anchor Graph)的多视图聚类方法虽能降低计算复杂度,但存在两大局限:
1. 视图间噪声与不一致性:不同视图可能包含特异性噪声,直接融合会污染共识表示;
2. 后处理依赖:现有方法需额外步骤(如k-means)生成最终聚类标签,引入随机性并影响性能。

研究目标
团队提出鲁棒且一致的锚图学习(RCAGL)方法,核心目标为:
- 通过联合学习视图间一致性部分(Consistent Part)与视图特异性噪声部分(View-Specific Part),分离噪声并增强共识表示的鲁棒性;
- 引入k-连通性约束(k-Connectivity Constraint),直接生成聚类标签,避免后处理。


方法流程
1. 问题建模与联合优化框架
RCAGL将每个视图的锚图分解为一致性图( C )和视图特异性噪声图( D^{(p)} ),目标函数如下:
[ \min{C,D^{(p)},A^{(p)}} \sum{p=1}^v \left| X^{(p)} - \frac{1}{2} A^{(p)}(C + D^{(p)}) \right|_F^2 + \lambda | D^{(p)} |_F^2 ]
约束条件包括:
- 锚矩阵( A^{(p)} )正交性(保证锚点多样性);
- 归一化约束(( C )和( D^{(p)} )的非负性与行和为1);
- 拉普拉斯矩阵秩约束(( \text{rank}(\Delta) = n + m - k )),确保生成具有k个连通分量的清晰图结构。

2. 交替优化算法
通过分步更新变量解决非凸优化问题:
- 锚矩阵更新:固定( C )和( D^{(p)} ),对每个视图的( A^{(p)} )进行奇异值分解(SVD),最大化( \text{tr}(A^{(p)\top} Q^{(p)}) )。
- 噪声图更新:将问题转化为列形式的二次规划,闭式解通过投影梯度法获得。
- 一致性图更新:引入指示矩阵( R ),交替优化( R )(通过特征分解)和( C )(通过Tarjan算法检测连通分量),直接输出聚类标签。

3. 复杂度分析
RCAGL的时间复杂度为( O(nmv + m^2dv) ),空间复杂度为( O(ndv + nmv) ),其中( m \ll n ),适合大规模数据。


主要结果
1. 合成数据集验证
在添加高斯噪声的双视图合成数据上,RCAGL的聚类准确率(ACC)达到100%,而对比方法(如SFMC、LMVSC)因噪声干扰性能下降13.5%以上。图2(e)-(h)显示,RCAGL的共识图结构清晰,噪声视图未影响聚类边界。

2. 真实数据集性能
在8个基准数据集(如Dermatology、BDGP、YTF系列)上的实验表明:
- 准确性:RCAGL在多数数据集上ACC领先第二优方法4.5%~13.1%,尤其在YTF50上提升显著;
- 效率:相比传统方法(如UOMVSC),RCAGL运行时间降低1~2个数量级(表IV);
- 鲁棒性:在Dermatology噪声版本中,RCAGL的ACC波动小于1%,而其他方法下降超过10%。

3. 消融实验
移除视图特异性学习模块后,性能平均下降7.2%,验证了联合学习策略的必要性。图4显示,一致性部分的聚类效果显著优于单一视图表示。


结论与价值
科学价值
1. 理论创新:首次在锚图学习中显式建模视图特异性噪声,通过联合优化框架实现噪声过滤;
2. 技术突破:k-连通性约束的引入避免了传统谱聚类的高复杂度后处理,实现了“端到端”聚类。

应用价值
RCAGL适用于大规模多模态数据(如医疗影像分析、社交网络用户画像),其线性复杂度支持实时处理。例如,在视频人脸聚类(YTF数据集)中,RCAGL可高效处理数百万样本。


研究亮点
1. 方法新颖性
- 提出“一致性-噪声”双部分分解模型,克服了现有方法忽略视图间噪声的缺陷;
- 首创基于拉普拉斯矩阵秩约束的直接标签生成机制。
2. 工程优势:开源代码提供完整实现,支持超参数(如锚点数( m ))的灵活调整。
3. 可扩展性:框架可延伸至不完整多视图数据(如缺失视图)的聚类,为后续研究指明方向。

其他贡献
论文通过统计检验(表V)验证了结果的显著性(p < 0.05),并详细分析了参数敏感性(图6),指出锚点数( m )设为类别数( k )时性能最优。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com