本研究的作者团队来自University of Cambridge,包括Andrei Margeloiu、Nikola Simidjievski、Pietro Lió和Mateja Jamnik,论文发表于Association for the Advancement of Artificial Intelligence (AAAI)的学术会议。
研究领域:本研究属于生物医学数据分析与机器学习交叉领域,聚焦于高维小样本表格数据的分类问题。
研究动机:生物医学数据(如基因表达数据)通常具有高维度(数万特征)但样本量极少的特性(通常少于200例)。传统深度学习方法(如多层感知机MLP)容易因参数过多而过拟合,而现有方法(如基于树模型的梯度提升决策树GBDT或专用神经网络TabNet)在此类数据上表现不稳定。
研究目标:提出一种名为Weight Predictor Network with Feature Selection (WPFS)的新方法,通过减少可学习参数量并同步进行特征选择,解决高维小样本数据下的过拟合问题。
WPFS的核心创新是通过两个辅助网络替代传统MLP的第一层权重学习:
- 权重预测网络(Weight Predictor Network, WPN):输入特征嵌入(feature embedding),输出第一层权重矩阵的列向量。
- 稀疏性网络(Sparsity Network, SPN):输入相同的特征嵌入,输出特征重要性分数(0到1之间的标量),用于全局特征选择。
关键步骤:
1. 特征嵌入生成:采用四种无监督方法(特征值、点直方图、奇异值分解SVD、非负矩阵分解NMF)将原始高维特征转换为低维嵌入(如50维)。
2. 权重动态计算:WPN和SPN联合生成第一层权重矩阵,公式为:
[ W^{(1)} = [w^{(1)} \cdot s_1, \ldots, w^{(d)} \cdot s_d] ]
其中(sj)为SPN输出的特征重要性分数。
3. 损失函数:结合交叉熵损失和稀疏性损失(L1正则化),优化目标为:
[ \mathcal{L} = \text{CrossEntropy} + \lambda \sum{j=1}^d s_j ]
数据集:9个真实生物医学数据集,特征维度3312–19993,样本量100–200,分类任务(2–4类)。
实验设计:
- 基准对比:包括TabNet、FS-Net、DietNetworks、随机森林(RF)、LightGBM(LGBM)等10种方法。
- 评估指标:5折交叉验证重复5次,以平衡准确率(balanced accuracy)为评价标准。
结果逻辑:
- 特征嵌入的优化(NMF/SVD)→ 提升权重生成的稳定性 → 结合SPN的稀疏性约束 → 减少冗余特征干扰 → 最终提高分类性能。
科学价值:
1. 方法创新:首次将权重预测与特征选择结合,通过辅助网络显式控制参数量,为小样本学习提供了新范式。
2. 应用价值:在生物医学场景(如癌症亚型分类)中,WPFS可帮助识别关键基因特征,同时降低计算成本。
(注:全文术语首次出现时标注英文,如“非负矩阵分解(Non-negative Matrix Factorization, NMF)”。)