随机森林变量选择方法在连续结果回归建模中的比较

背景介绍:变量选择在机器学习回归模型中的重要性 近年来,机器学习在生物信息学与数据科学领域的广泛应用极大推动了预测建模的发展。随机森林(Random Forest, RF)回归作为常用的集成学习算法,因其能有效提升预测准确性和模型稳健性,成为建构连续型结局预测模型的重要工具。然而,面对高维数据,模型中的预测变量越多,并不一定意味着预测性能的提升,反而可能导致信息冗余、模型过拟合,或影响实际应用的便利性。因此,“变量选择(Variable Selection/Feature Selection/Feature Reduction)”成为极为关键的建模步骤。 变量选择不仅能够减少变量冗余、提升预测性能和模型泛化能力,还能降低后续数据收集及模型部署的成本,提高模型的解释性与应用效率。以往学者提出了...

利用MHC II与肽序列预测干扰素-γ释放:多样化计算方法探索 —— 一项机器学习赋能的免疫学研究综述

学术背景与研究意义 近几十年来,治疗性蛋白(therapeutic proteins)由于其在医学领域的巨大潜力,成为生物制药行业的研究重点。治疗性蛋白药物以其高度的靶向性为优势,被认为对许多以往难以治疗的急性或慢性疾病(如某些自身免疫病、癌症等)提供了解决方案。从1880年代血清治疗的发现到1986年首个单克隆抗体药物muromonab-CD3的推出,治疗性蛋白市场持续扩大,预计将在2032年达到近474亿美元。然而,治疗性蛋白引发免疫反应(immunogenicity)这一问题却一直困扰着药物研发人员。免疫反应既可能带来有害副作用,也可能激活治疗机制,例如疫苗就是通过激发体内免疫应答以实现免疫保护。 在蛋白药物所引发免疫反应的分子机制中,MHC(major histocompatibil...

通过高通量合成和人工神经网络预测钙钛矿材料的化学空间-性质模型

通过高通量合成和人工神经网络预测钙钛矿材料的化学空间-性质模型

学术背景 钙钛矿材料因其在太阳能电池和其他电子器件中的广泛应用而备受关注。其光学性质(如带隙和晶格振动)可以通过调整化学组成来灵活调控。尽管从钙钛矿结构预测光学性质的研究已经较为成熟,但如何从光学数据反向预测化学组成却一直是一个难题。这一问题的解决对于加速钙钛矿材料的开发和生产具有重要意义,尤其是在大规模工业生产中,快速筛选和验证新材料的化学组成将极大地提高生产效率。 为了应对这一挑战,研究者们提出了一种结合高通量合成、高分辨率光谱技术和机器学习(特别是人工神经网络,ANN)的创新方法。通过这种方法,他们不仅能够高效合成多种化学组成的钙钛矿材料,还能够通过光学数据准确预测其化学组成。这一研究为钙钛矿材料的快速筛选和优化提供了新的工具。 论文来源 该研究由来自Michigan State Un...

稀疏贝叶斯委员会机器势能在含氧有机化合物中的应用

学术背景 在材料科学和化学领域,理解材料在原子层面的性质至关重要。然而,传统的原子间势能计算方法(如密度泛函理论,DFT)虽然精度高,但计算成本极高,难以应用于大规模系统。近年来,机器学习(ML)势能在原子模拟中的应用取得了显著进展,特别是基于高斯过程(Gaussian Process, GP)的ML势能,因其在主动学习、不确定性预测和低数据需求方面的优势而备受关注。然而,基于核函数的模型在处理大规模数据集时面临严重的扩展性问题,尤其是当数据集规模超过10^4时,计算复杂度急剧增加,难以实现真正的通用性。 为了应对这一挑战,Soohaeng Yoo Willow、Seungwon Kim等作者提出了一种新的稀疏贝叶斯委员会机器(Robust Bayesian Committee Machin...

硬件兼容的扰动训练算法的扩展研究

随着人工智能(AI)技术的快速发展,人工神经网络(Artificial Neural Networks, ANNs)在多个领域取得了显著成就。然而,传统的神经网络训练方法——尤其是反向传播算法(Backpropagation)——在硬件实现上存在诸多挑战。反向传播算法虽然在软件中高效,但在硬件中实现时,要求计算路径可逆、每个神经元需要大量内存,并且需要计算激活函数的导数,这些条件在硬件中难以满足。此外,传统的互补金属氧化物半导体(CMOS)硬件在训练和部署这些算法时,能源消耗巨大,限制了其扩展性和广泛应用。 为了解决这些问题,研究人员开始探索脑启发(brain-inspired)的硬件解决方案,尤其是模拟神经形态硬件(analog neuromorphic hardware)。这类硬件能够以...