分享自:

高维小样本数据的在线流特征选择

期刊:international journal of machine learning and cyberneticsDOI:10.1007/s13042-024-02416-9

该文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:


基于类别密度的在线流特征选择算法在高维小样本数据中的应用

作者及机构
该研究由Kuangfeng Gong(中国石油大学(北京)人工智能学院;龙岩学院数学与信息工程学院)、Guohe Li(同前)、Lingyun Guo(同前)及Yaojin Lin(闽南师范大学计算机学院)合作完成,发表于《International Journal of Machine Learning and Cybernetics》2025年第16卷。


学术背景

研究领域:该研究属于机器学习与特征选择(feature selection)领域,重点针对高维小样本数据(High-Dimensional Small-Sample Data, HDSS Data)的分类问题。

研究动机
1. 高维小样本数据的挑战:在图像识别、文本分类、医疗诊断等任务中,数据常呈现高维(特征数远大于样本数)且类别分布不平衡(class imbalance)的特点,导致传统特征选择方法难以有效识别少数类样本的关键特征。
2. 现有方法的局限性
- 传统方法(如过采样、欠采样)会改变原始数据分布,影响模型泛化能力。
- 现有在线流特征选择(Online Streaming Feature Selection, OSFS)算法未充分考虑类别不平衡问题。
3. 研究目标:提出一种基于类别密度的在线流特征选择算法(OSFS-HS),以提升对少数类样本的预测能力,同时保留原始数据分布。


研究流程与方法

研究分为三个核心阶段邻域关系重构在线特征评估实验验证

1. 邻域关系重构

  • 问题:传统邻域(neighborhood)定义(如固定半径或固定近邻数)忽略类别密度差异,导致少数类样本被多数类样本淹没。
  • 解决方案
    • 定义7(类别密度邻域):计算目标样本与其同类样本的平均距离(lmg_b(xi)),作为邻域阈值。
    • 定义8(自适应邻域):根据类别密度动态调整每个样本的邻域范围,确保少数类样本的局部结构不被多数类样本干扰。
  • 创新点:通过引入物理中的“密度”概念,使邻域关系更贴合实际数据分布。

2. 在线特征评估

提出三种评估准则,用于动态筛选流式到达的特征:
1. 在线显著性分析(Online Significance Analysis)
- 定义11:若新特征ft对标签空间的区分度高于已选特征子集S_t-1,则替换S_t-1
2. 在线相关性分析(Online Correlation Analysis)
- 定义12:若新特征ft与任一已选特征fk的联合区分度高于单独使用fk,则保留ft
3. 在线冗余更新(Online Redundancy Update)
- 定义13:若新增特征ft使得某已选特征fk的区分度下降,则剔除fk

3. 实验验证

  • 数据集:12个公开数据集(如breastcardlbcl),涵盖二分类与多分类不平衡数据。
  • 基线算法:对比6种主流OSFS算法(如OSFS、SAOLA、KOFSD)。
  • 评估指标:除准确率外,重点关注F-scoreG-mean(反映少数类分类性能)。
  • 分类器:KNN(k=3)和LSVM。

主要结果

  1. 分类性能
    • 在KNN分类器下,OSFS-HS在9/12数据集上取得最高准确率;在LSVM下,7/12数据集领先。
    • 少数类指标(F-score、G-mean)显著优于基线算法(如breast数据集的F-score达0.9836,基线最高为0.8944)。
  2. 统计显著性
    • Friedman检验(p<0.05)表明OSFS-HS排名显著优于其他算法(平均排名1.5,基线最低2.6)。
  3. 稳定性分析
    • 雷达图显示OSFS-HS在多数数据集上表现稳定,仅在极稀疏数据(如warpar10p)稍逊。

结论与价值

  1. 科学价值
    • 提出首个针对多类别不平衡数据的在线流特征选择框架,填补了领域空白。
    • 通过类别密度邻域一致性度量,解决了传统方法对少数类样本的忽视问题。
  2. 应用价值
    • 适用于医疗诊断(如癌症亚型分类)、金融风控(欺诈检测)等需高维不平衡数据建模的场景。
  3. 局限性
    • 对超稀疏数据(如某些基因数据集)的稳定性待提升;未来可扩展至组流特征选择(Group Streaming Feature Selection)

研究亮点

  1. 方法创新
    • 将物理中的密度概念引入邻域定义,提出自适应类别密度邻域(Definition 7-8)。
    • 设计三重在线评估准则(显著性、相关性、冗余性),实现动态特征筛选。
  2. 实验设计
    • 采用多指标(F-score、G-mean)和统计检验(Friedman-Nemenyi)全面验证性能。
  3. 可扩展性:框架可适配多标签学习(multi-label learning)任务。

其他有价值内容
- 作者开源了代码(需申请获取),便于复现。
- 研究受中国石油大学(北京)克拉玛依校区科研基金(No. XQZX20240032)等资助。

(报告完)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com