分享自:

基于支持向量机-递归特征消除和人工蜂群的肺癌分类

期刊:annals of mathematical modelingDOI:10.33292/amm.v3i1.26

肺癌分类研究学术报告:基于支持向量机-递归特征消除与人工蜂群算法的创新方法

一、 研究作者、机构与发表信息

本研究由印度尼西亚大学数学与自然科学学院数学系生物信息学与先进计算实验室的 Alhadi Bustaman, Zuherman Rustam, Selly A. A. K., Nyoman A. Wibawa, Devvi Sarwinda 和 Nadya Asanul Husna 共同完成。该研究成果以题为 “Lung cancer classification based on support vector machine-recursive feature elimination and artificial bee colony” 的论文形式,发表于学术期刊 Annals of Mathematical Modeling 2023年6月出版的第3卷第1期,页码为1至13。

二、 研究背景与目标

本研究属于生物信息学与机器学习在医学诊断领域的交叉学科应用,核心目标是解决肺癌早期诊断中的关键挑战。

学术背景:肺癌是全球范围内导致死亡的主要癌症类型之一。早期诊断可显著提高患者生存率(超过97%)。DNA微阵列(microarray)技术能够同时测量成千上万个基因的表达水平,为癌症分类提供了高通量数据。然而,微阵列数据通常具有“高维度、小样本”的特点,即特征(基因)数量(成千上万)远多于样本数量(几十到几百)。这种特性给机器学习分类带来了巨大挑战,包括计算复杂度高、容易导致模型过拟合(overfitting)以及并非所有基因都与癌症分类相关。因此,特征选择(feature selection)成为处理此类数据、构建高效分类模型的关键前置步骤。

研究动机与目标:传统的影像学检测方法通常在肺癌晚期才能发现恶性细胞,导致生存率较低。利用微阵列数据进行机器学习分类,有望实现更早、更精准的诊断。本研究旨在开发一种高效的肺癌诊断工具,其核心创新在于提出一种两阶段混合特征选择方法,以优化分类性能。具体目标为:结合支持向量机-递归特征消除(Support Vector Machine-Recursive Feature Elimination, SVM-RFE)与人工蜂群(Artificial Bee Colony, ABC)算法,从高维微阵列数据中筛选出最具判别力的基因子集,并利用支持向量机(Support Vector Machine, SVM)构建分类器,最终实现对肺癌样本(癌与非癌)的高精度分类。

三、 研究详细流程

本研究工作流程清晰,主要包含数据准备、方法设计(核心为两阶段特征选择与分类器构建)以及模拟实验与评估三个阶段。

1. 数据准备: 研究使用了两个公开的肺癌微阵列数据集,均来自肯特岭生物医学数据集存储库(Kent Ridge Biomedical Dataset Repository): * 密歇根肺癌数据集:共96个样本,每个样本包含7129个基因表达特征,类别标签为“癌症”或“非癌症”。 * 安大略肺癌数据集:共39个样本,每个样本包含2880个基因表达特征,类别标签同样为二分类。 数据以矩阵形式组织,行代表样本,列代表基因特征,最后一列为类别标签。这些数据作为后续所有特征选择和分类模型的输入。

2. 研究方法与流程: 本研究提出的核心方法是SVM-RFE-ABC混合特征选择框架,随后使用SVM进行分类。整个流程分为两个主要阶段:

第一阶段:SVM-RFE预筛选 * 目的:从原始数千个基因中,初步筛选出一个候选基因子集,以降低后续计算复杂度并移除大量不相关特征。 * 方法细节:采用SVM-RFE算法,这是一种嵌入式(embedded)特征选择方法。其核心原理是:首先使用线性核SVM在所有特征上训练一个分类器,然后根据每个特征对应的权重向量(weight vector)分量的平方值(即排名标准)对特征进行排序,剔除权重平方值最小的特征(即对分类决策面贡献最小的特征)。这个过程递归进行,每次迭代都移除最不重要的特征,最终产生一个所有基因的排名列表。研究者从排名靠前的特征中选取一定数量(例如前1000个)作为输出,进入下一阶段。此阶段旨在快速缩减特征空间。

第二阶段:ABC算法优化选择 * 目的:在第一阶段预筛选出的候选基因子集基础上,进一步精炼,选择出最优的基因组合,同时克服SVM-RFE可能忽略基因冗余性问题以及在某些基因值上效果不稳定的缺点。 * 方法细节:采用人工蜂群(ABC)优化算法,这是一种模拟蜂群觅食行为的元启发式算法。在本研究中,将其应用于特征选择: * 食物源:代表一个特征子集(即一组基因索引)。 * 适应度值:评价一个食物源(特征子集)质量的标准,定义为使用该特征子集训练SVM分类器所获得的平均分类准确率。 * 蜜蜂角色: * 引领蜂:与特定食物源关联,在其周围搜索新的食物源(即通过扰动当前特征子集产生新子集),并进行贪婪选择(保留适应度更高的子集)。 * 跟随蜂:根据引领蜂分享的食物源适应度信息(以概率形式),选择高质量的食物源进行进一步开发。 * 侦察蜂:当某个食物源经过多次迭代未能改进时,放弃它并随机初始化一个新的食物源,以维持种群多样性,避免陷入局部最优。 * 流程:算法初始化一组随机特征子集(食物源)。然后,引领蜂和跟随蜂阶段通过不断搜索、评估(用SVM计算准确率)和选择,进化出适应度更高的特征子集。侦察蜂机制确保全局搜索能力。算法迭代运行直至达到最大迭代次数,最终输出适应度最高的特征子集(即最优基因组合)。

第三阶段:SVM分类与评估 * 分类器:使用支持向量机作为最终的分类模型。SVM的目标是找到一个最优超平面,以最大间隔分离不同类别的样本。本研究采用线性核SVM。 * 评估方案:采用k折交叉验证(k-fold cross validation)来评估模型性能,以避免过拟合并提供稳健的准确率估计。主要评估指标为分类准确率(通过混淆矩阵计算)和程序运行时间。研究进行了四组对比模拟实验: * 模拟1:SVM分类器,不使用任何特征选择。 * 模拟2:SVM分类器,使用SVM-RFE进行特征选择。 * 模拟3:SVM分类器,使用ABC算法进行特征选择。 * 模拟4:SVM分类器,使用本研究提出的SVM-RFE-ABC混合方法进行特征选择。

四、 主要研究结果

研究结果通过四组模拟实验的对比,清晰展示了不同方法的性能差异,并验证了所提混合方法的优越性。

1. 无特征选择的基准结果: * 对于密歇根数据集,在10折交叉验证下获得最高准确率为89.022%,运行时间为15.201秒(使用全部7129个特征)。 * 对于安大略数据集,在10折交叉验证下获得最高准确率为69.867%,运行时间为1.230秒(使用全部2880个特征)。 * 此结果作为后续所有特征选择方法的性能对比基线。

2. 仅使用SVM-RFE特征选择的结果: * 密歇根数据集:当使用前1000个特征时,获得最高准确率92.911%,但运行时间激增至1558.98秒。这表明SVM-RFE能提升准确率,但计算成本较高,且需要保留较多特征(1000个)。 * 安大略数据集:当使用前20个特征时,获得最高准确率91.267%,运行时间为1.428秒。在此数据集上,SVM-RFE在显著减少特征数的同时大幅提升了准确率。

3. 仅使用ABC算法特征选择的结果: * 密歇根数据集:使用60个特征时获得最高准确率94.778%,但运行时间极长,达到155101.357秒。这凸显了ABC算法在处理高维原始特征(7129维)时巨大的计算开销。 * 安大略数据集:使用60个特征时获得最高准确率93.000%,运行时间为2273.98秒。同样,准确率提升明显,但计算成本高昂。

4. 使用SVM-RFE-ABC混合特征选择的结果(本研究核心贡献): * 密歇根数据集使用100个特征时,达到了四组实验中的最高分类准确率98.000%。运行时间为21672.982秒。虽然仍比SVM-RFE慢,但远低于单独使用ABC算法的时间,且准确率显著高于所有其他方法。 * 安大略数据集使用70个特征时,达到了四组实验中的最高分类准确率97.000%。运行时间为1914.715秒。其准确率远超其他方法,且运行时间比单独使用ABC更短。 * 结果逻辑关系与贡献:第一阶段SVM-RFE的快速预筛选,将特征维度从数千降至数百,为第二阶段ABC算法提供了一个规模大幅减小的优质候选搜索空间。这使得ABC算法能够在其可接受的计算时间内,在这个精炼的空间中进行更深入、更有效的搜索,找到冗余度更低、判别力更强的极小规模特征组合(100或70个)。最终,这个由两阶段协作筛选出的最优特征子集,输入SVM分类器后,产生了最高的分类精度。实验结果有力地证明了混合策略的有效性:它结合了SVM-RFE的快速过滤能力和ABC算法的全局优化能力,在控制计算成本的同时,实现了分类性能的最大化。

五、 研究结论与价值

本研究得出结论:特征选择能显著提高基于微阵列数据的肺癌分类准确率。特别地,将SVM-RFE与ABC算法相结合形成的混合特征选择方法(SVM-RFE-ABC),在密歇根和安大略两个肺癌数据集上,均取得了比单独使用SVM-RFE、ABC或不使用特征选择更高的分类准确率(分别达到98%和97%)

科学价值:本研究提出并验证了一种针对“高维小样本”生物医学数据(如基因表达数据)的有效处理框架。它为解决此类数据分类中的特征选择难题提供了一个新颖的混合式解决方案,证明了将过滤式(或嵌入式)特征选择与基于优化算法的封装式(wrapper)特征选择相结合,可以优势互补,提升最终模型的性能。

应用价值:该研究所开发的诊断工具原型,展示了利用机器学习从基因表达层面进行肺癌高精度分类的潜力。通过筛选出极少量的关键生物标志物(基因),不仅提高了诊断准确率,也为后续的生物学解释和临床检测试剂开发提供了更聚焦的目标,有助于推动肺癌的早期、快速、精准诊断。

六、 研究亮点

  1. 创新性的混合特征选择框架:本研究的主要亮点在于创新性地提出了SVM-RFE-ABC两阶段混合特征选择策略。该策略巧妙地将两种不同原理的特征选择方法串联,第一阶段负责快速降维和粗选,第二阶段负责精细搜索和优化,有效平衡了计算效率与特征子集质量。
  2. 显著的性能提升:在两个独立的数据集上,所提方法均取得了接近或超过98%的分类准确率,且使用的特征数量极少(100和70个),证明了该方法能够从海量基因中挖掘出强判别力的特征组合,模型泛化能力好。
  3. 针对性强:研究直指生物信息学中微阵列数据分析的核心痛点——高维度、小样本、高噪声,提出的方法具有明确的针对性和实用性。
  4. 详实的对比实验:研究设计严谨,通过设置无特征选择、单一方法特征选择和混合方法特征选择等多组对比实验,全面评估了不同方案的性能(准确率与运行时间),使结论具有说服力。

七、 其他有价值内容

研究还详细描述了SVM和ABC算法的数学模型与关键公式,如SVM的权重向量计算、优化问题的对偶形式,以及ABC算法中食物源更新、适应度计算和选择概率的公式。这为其他研究者复现或改进该方法提供了必要的技术细节。此外,论文明确说明了实验的软硬件环境(MATLAB R2017b, Windows 10, Intel Core i5处理器),确保了实验的可重复性。最后,论文指出该研究得到了印度尼西亚研究技术与高等教育部PDUPT 2018研究基金的资助。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com