作者及机构
本研究的核心作者团队来自北京邮电大学智能通信软件与多媒体北京市重点实验室(Zhe Xue、Junping Du*、Changwei Zheng、Jie Song、Meiyu Liang)和中国科学院信息工程研究所信息安全国家重点实验室(Wenqi Ren)。研究成果发表于第30届国际人工智能联合会议(IJCAI-21),是该领域的重要前沿进展。
科学领域与问题背景
多视图聚类(Multi-view Clustering)旨在整合来自不同数据源(如图像的色彩、纹理、文本等多模态特征)的互补信息以提升聚类性能。然而,现实场景中常因设备故障或环境限制导致部分视图缺失(Incomplete Multi-view Data),传统方法假设所有视图完整,难以处理此类数据。现有不完整多视图聚类(IMC)方法存在三大局限:
1. 结构信息缺失:多数方法无法通过补全缺失视图提取完整数据结构;
2. 全局与局部结构割裂:现有方法未能同时利用数据的全局分布(如潜在空间表示)和局部关系(如图结构);
3. 视图权重均等化:忽视不同视图的可靠性差异,导致聚类性能受限。
研究目标
提出聚类引导的自适应结构增强网络(CASEN),通过端到端框架实现:
- 缺失视图的自动补全
- 全局与局部结构的协同学习
- 基于多核聚类的视图权重自适应分配
输入与处理对象:
- 不完整多视图数据 ${X^{(v)}}_{v=1}^V$,其中缺失视图以零填充
- 样本量 $n$,视图数 $V$,特征维度 $m_v$(依视图而异)
关键技术:
- 共享顶层编码器:各视图的编码器 $f^{(v)}$ 共享最终隐藏层,输出统一潜在表示 $h_i$,强制多视图在潜在空间对齐。
- 视图特异性解码器:通过 $g^{(v)}$ 重构各视图数据 $\hat{X}^{(v)}$,补全缺失特征。
- 损失函数:
$$Lr = \frac{1}{2n} \sum{v=1}^V |X^{(v)} - P^{(v)}\hat{X}^{(v)}|F^2$$
其中 $P^{(v)}$ 为对角矩阵,标记视图缺失情况($P{ii}^{(v)}=1$ 表示样本 $i$ 的第 $v$ 视图存在)。
图结构学习:
- 对补全后的数据 $\hat{X}^{(v)}$,通过单层神经网络学习视图特异性相似度矩阵 $S^{(v)}$:
$$S_{ij}^{(v)} = \frac{\exp(\sigma(a^{(v)T}|\hat{X}_i^{(v)}-\hat{X}j^{(v)}|))}{\sum{k=1}^n \exp(\sigma(a^{(v)T}|\hat{X}_i^{(v)}-\hat{X}_k^{(v)}|))}$$
其中 $a^{(v)}$ 为可学习权重向量,$\sigma$ 为激活函数。
- 损失函数:
$$Lg = \frac{1}{n} \sum{v=1}^V \left( \sum_{i,j=1}^n |\hat{X}_i^{(v)}-\hat{X}_j^{(v)}|2^2 S{ij}^{(v)} + \lambda|S^{(v)}|_F^2 \right)$$
通过稀疏约束($\lambda$ 控制)优化局部邻域关系。
图卷积网络(GCN):
- 以 $\hat{X}^{(v)}$ 为初始节点特征,$S^{(v)}$ 为邻接矩阵,通过两层GCN编码局部结构:
$$Zl^{(v)} = \sigma(\tilde{D}^{(v)-1⁄2} S^{(v)} \tilde{D}^{(v)-1⁄2} Z{l-1}^{(v)} W{l-1}^{(v)})$$
其中 $\tilde{D}^{(v)}$ 为度矩阵,$W{l-1}^{(v)}$ 为卷积权重。
多核聚类(MKC):
- 构建核矩阵:
- 局部结构核 $K^{(v)} = K(Z^{(v)}, Z^{(v)})$(基于GCN输出)
- 全局结构核 $K^{(V+1)} = K(H, H)$(基于自编码器潜在表示)
- 统一核矩阵:$Ku = \sum{v=1}^{V+1} \beta^{(v)r} K^{(v)}$,其中 $\beta$ 为视图权重,$r$ 控制稀疏性。
- 优化目标:
$$\min_{Q,\beta} \text{tr}(K_u (I_n - QQ^T)) \quad \text{s.t.} \quad Q^T Q = Ic, \beta^T 1{V+1}=1$$
通过交替更新嵌入矩阵 $Q$ 和权重 $\beta$ 实现聚类(算法2)。
自监督训练:
- 联合潜在表示 $R = [H | Z^{(1)} | \cdots | Z^{(V)}]$ 输入全连接层,输出聚类预测 $y_i$。
- 损失函数结合交叉熵与中心损失:
$$Lc = \frac{1}{n} \sum{i=1}^n \left( \ln(1+e^{-y_i^T q_i}) + \theta |ri - \rho{\phi_i}|_2^2 \right)$$
其中 $qi$ 为聚类伪标签,$\rho{\phi_i}$ 为类别中心,通过匈牙利算法解决标签排列问题。
整体优化:总损失 $L = L_r + \eta_1 L_g + \eta_2 L_c$,端到端训练(算法1)。
科学价值:
1. 端到端结构学习:首次将视图补全、结构学习与聚类统一于单一框架,通过自监督实现闭环优化。
2. 多粒度结构融合:通过自编码器(全局)与GCN(局部)的联合训练,全面捕捉数据内在分布。
应用价值:适用于医疗诊断(部分检测缺失)、多媒体分析(跨模态数据不全)等实际场景。
创新亮点:
- 多核聚类引导的视图加权:通过 $\beta$ 自适应分配视图权重,提升噪声视图的鲁棒性。
- 自监督增强机制:利用聚类结果反向优化结构表示,形成“聚类-结构”互促循环。
局限性:
- 对极高缺失率(如 $p>80\%$)的泛化性需进一步验证;
- 计算复杂度随视图数线性增长,需优化大规模数据扩展性。
CASEN通过创新的端到端架构与多粒度结构学习,为不完整多视图聚类提供了新的解决方案,其性能优势与理论贡献为后续研究树立了重要标杆。代码实现基于PyTorch,已公开于学术平台。