该文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
基于类别密度的在线流特征选择算法在高维小样本数据中的应用
作者及机构
该研究由Kuangfeng Gong(中国石油大学(北京)人工智能学院;龙岩学院数学与信息工程学院)、Guohe Li(同前)、Lingyun Guo(同前)及Yaojin Lin(闽南师范大学计算机学院)合作完成,发表于《International Journal of Machine Learning and Cybernetics》2025年第16卷。
研究领域:该研究属于机器学习与特征选择(feature selection)领域,重点针对高维小样本数据(High-Dimensional Small-Sample Data, HDSS Data)的分类问题。
研究动机:
1. 高维小样本数据的挑战:在图像识别、文本分类、医疗诊断等任务中,数据常呈现高维(特征数远大于样本数)且类别分布不平衡(class imbalance)的特点,导致传统特征选择方法难以有效识别少数类样本的关键特征。
2. 现有方法的局限性:
- 传统方法(如过采样、欠采样)会改变原始数据分布,影响模型泛化能力。
- 现有在线流特征选择(Online Streaming Feature Selection, OSFS)算法未充分考虑类别不平衡问题。
3. 研究目标:提出一种基于类别密度的在线流特征选择算法(OSFS-HS),以提升对少数类样本的预测能力,同时保留原始数据分布。
研究分为三个核心阶段:邻域关系重构、在线特征评估和实验验证。
lmg_b(xi)),作为邻域阈值。提出三种评估准则,用于动态筛选流式到达的特征:
1. 在线显著性分析(Online Significance Analysis):
- 定义11:若新特征ft对标签空间的区分度高于已选特征子集S_t-1,则替换S_t-1。
2. 在线相关性分析(Online Correlation Analysis):
- 定义12:若新特征ft与任一已选特征fk的联合区分度高于单独使用fk,则保留ft。
3. 在线冗余更新(Online Redundancy Update):
- 定义13:若新增特征ft使得某已选特征fk的区分度下降,则剔除fk。
breast、car、dlbcl),涵盖二分类与多分类不平衡数据。breast数据集的F-score达0.9836,基线最高为0.8944)。warpar10p)稍逊。其他有价值内容:
- 作者开源了代码(需申请获取),便于复现。
- 研究受中国石油大学(北京)克拉玛依校区科研基金(No. XQZX20240032)等资助。
(报告完)