分享自:

基于聚类诱导的自适应结构增强网络的不完整多视图数据聚类方法

期刊:proceedings of the thirtieth international joint conference on artificial intelligence (ijcai-21)

基于聚类引导的自适应结构增强网络(CASEN)的不完整多视图聚类研究

作者及机构
本研究的核心作者团队来自北京邮电大学智能通信软件与多媒体北京市重点实验室(Zhe Xue、Junping Du*、Changwei Zheng、Jie Song、Meiyu Liang)和中国科学院信息工程研究所信息安全国家重点实验室(Wenqi Ren)。研究成果发表于第30届国际人工智能联合会议(IJCAI-21),是该领域的重要前沿进展。


学术背景与研究目标

科学领域与问题背景
多视图聚类(Multi-view Clustering)旨在整合来自不同数据源(如图像的色彩、纹理、文本等多模态特征)的互补信息以提升聚类性能。然而,现实场景中常因设备故障或环境限制导致部分视图缺失(Incomplete Multi-view Data),传统方法假设所有视图完整,难以处理此类数据。现有不完整多视图聚类(IMC)方法存在三大局限:
1. 结构信息缺失:多数方法无法通过补全缺失视图提取完整数据结构;
2. 全局与局部结构割裂:现有方法未能同时利用数据的全局分布(如潜在空间表示)和局部关系(如图结构);
3. 视图权重均等化:忽视不同视图的可靠性差异,导致聚类性能受限。

研究目标
提出聚类引导的自适应结构增强网络(CASEN),通过端到端框架实现:
- 缺失视图的自动补全
- 全局与局部结构的协同学习
- 基于多核聚类的视图权重自适应分配


研究方法与流程

1. 多视图自编码器模块(全局结构学习与视图补全)

输入与处理对象
- 不完整多视图数据 ${X^{(v)}}_{v=1}^V$,其中缺失视图以零填充
- 样本量 $n$,视图数 $V$,特征维度 $m_v$(依视图而异)

关键技术
- 共享顶层编码器:各视图的编码器 $f^{(v)}$ 共享最终隐藏层,输出统一潜在表示 $h_i$,强制多视图在潜在空间对齐。
- 视图特异性解码器:通过 $g^{(v)}$ 重构各视图数据 $\hat{X}^{(v)}$,补全缺失特征。
- 损失函数
$$Lr = \frac{1}{2n} \sum{v=1}^V |X^{(v)} - P^{(v)}\hat{X}^{(v)}|F^2$$
其中 $P^{(v)}$ 为对角矩阵,标记视图缺失情况($P
{ii}^{(v)}=1$ 表示样本 $i$ 的第 $v$ 视图存在)。

2. 自适应多视图图结构提取模块(局部结构学习)

图结构学习
- 对补全后的数据 $\hat{X}^{(v)}$,通过单层神经网络学习视图特异性相似度矩阵 $S^{(v)}$:
$$S_{ij}^{(v)} = \frac{\exp(\sigma(a^{(v)T}|\hat{X}_i^{(v)}-\hat{X}j^{(v)}|))}{\sum{k=1}^n \exp(\sigma(a^{(v)T}|\hat{X}_i^{(v)}-\hat{X}_k^{(v)}|))}$$
其中 $a^{(v)}$ 为可学习权重向量,$\sigma$ 为激活函数。
- 损失函数
$$Lg = \frac{1}{n} \sum{v=1}^V \left( \sum_{i,j=1}^n |\hat{X}_i^{(v)}-\hat{X}_j^{(v)}|2^2 S{ij}^{(v)} + \lambda|S^{(v)}|_F^2 \right)$$
通过稀疏约束($\lambda$ 控制)优化局部邻域关系。

图卷积网络(GCN)
- 以 $\hat{X}^{(v)}$ 为初始节点特征,$S^{(v)}$ 为邻接矩阵,通过两层GCN编码局部结构:
$$Zl^{(v)} = \sigma(\tilde{D}^{(v)-12} S^{(v)} \tilde{D}^{(v)-12} Z{l-1}^{(v)} W{l-1}^{(v)})$$
其中 $\tilde{D}^{(v)}$ 为度矩阵,$W
{l-1}^{(v)}$ 为卷积权重。

3. 聚类引导的结构增强模块(多核聚类与自监督)

多核聚类(MKC)
- 构建核矩阵:
- 局部结构核 $K^{(v)} = K(Z^{(v)}, Z^{(v)})$(基于GCN输出)
- 全局结构核 $K^{(V+1)} = K(H, H)$(基于自编码器潜在表示)
- 统一核矩阵:$Ku = \sum{v=1}^{V+1} \beta^{(v)r} K^{(v)}$,其中 $\beta$ 为视图权重,$r$ 控制稀疏性。
- 优化目标:
$$\min_{Q,\beta} \text{tr}(K_u (I_n - QQ^T)) \quad \text{s.t.} \quad Q^T Q = Ic, \beta^T 1{V+1}=1$$
通过交替更新嵌入矩阵 $Q$ 和权重 $\beta$ 实现聚类(算法2)。

自监督训练
- 联合潜在表示 $R = [H | Z^{(1)} | \cdots | Z^{(V)}]$ 输入全连接层,输出聚类预测 $y_i$。
- 损失函数结合交叉熵与中心损失:
$$Lc = \frac{1}{n} \sum{i=1}^n \left( \ln(1+e^{-y_i^T q_i}) + \theta |ri - \rho{\phi_i}|_2^2 \right)$$
其中 $qi$ 为聚类伪标签,$\rho{\phi_i}$ 为类别中心,通过匈牙利算法解决标签排列问题。

整体优化:总损失 $L = L_r + \eta_1 L_g + \eta_2 L_c$,端到端训练(算法1)。


实验结果与性能

基准数据集与对比方法

  • 数据集:BBC(685样本/4视图)、Caltech20(2386样本/6视图)、Wikipedia(2866样本/2视图)、MNIST(10000样本/2视图),缺失率 $p \in {10\%, 30\%, 50\%, 70\%}$。
  • 对比方法:包括BSV(最佳单视图)、MIC、OMVC、IMG等8种IMC方法,以ACC(准确率)和NMI(归一化互信息)评估。

关键结果

  1. 性能优势
    • 在 $p=0.3$ 时,CASEN在Caltech20和MNIST上分别以6.39%和8.08%的ACC提升超越次优方法(表1)。
    • 高缺失率($p=0.7$)下,CASEN在BBC的NMI仍达63.25%,显著优于PIC(49.12%)。
  2. 模块有效性(图2):
    • 移除GCN模块(CASEN-AE)或自编码器(CASEN-GCN)分别导致性能下降,验证全局与局部结构协同的必要性。
    • 多核聚类(CASEN)比K-means(CASEN-KM)提升聚类鲁棒性。

研究价值与创新点

科学价值
1. 端到端结构学习:首次将视图补全、结构学习与聚类统一于单一框架,通过自监督实现闭环优化。
2. 多粒度结构融合:通过自编码器(全局)与GCN(局部)的联合训练,全面捕捉数据内在分布。

应用价值:适用于医疗诊断(部分检测缺失)、多媒体分析(跨模态数据不全)等实际场景。

创新亮点
- 多核聚类引导的视图加权:通过 $\beta$ 自适应分配视图权重,提升噪声视图的鲁棒性。
- 自监督增强机制:利用聚类结果反向优化结构表示,形成“聚类-结构”互促循环。

局限性
- 对极高缺失率(如 $p>80\%$)的泛化性需进一步验证;
- 计算复杂度随视图数线性增长,需优化大规模数据扩展性。


总结

CASEN通过创新的端到端架构与多粒度结构学习,为不完整多视图聚类提供了新的解决方案,其性能优势与理论贡献为后续研究树立了重要标杆。代码实现基于PyTorch,已公开于学术平台。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com