随机森林变量选择方法在连续结果回归建模中的比较

背景介绍:变量选择在机器学习回归模型中的重要性 近年来,机器学习在生物信息学与数据科学领域的广泛应用极大推动了预测建模的发展。随机森林(Random Forest, RF)回归作为常用的集成学习算法,因其能有效提升预测准确性和模型稳健性,成为建构连续型结局预测模型的重要工具。然而,面对高维数据,模型中的预测变量越多,并不一定意味着预测性能的提升,反而可能导致信息冗余、模型过拟合,或影响实际应用的便利性。因此,“变量选择(Variable Selection/Feature Selection/Feature Reduction)”成为极为关键的建模步骤。 变量选择不仅能够减少变量冗余、提升预测性能和模型泛化能力,还能降低后续数据收集及模型部署的成本,提高模型的解释性与应用效率。以往学者提出了...

利用MHC II与肽序列预测干扰素-γ释放:多样化计算方法探索 —— 一项机器学习赋能的免疫学研究综述

学术背景与研究意义 近几十年来,治疗性蛋白(therapeutic proteins)由于其在医学领域的巨大潜力,成为生物制药行业的研究重点。治疗性蛋白药物以其高度的靶向性为优势,被认为对许多以往难以治疗的急性或慢性疾病(如某些自身免疫病、癌症等)提供了解决方案。从1880年代血清治疗的发现到1986年首个单克隆抗体药物muromonab-CD3的推出,治疗性蛋白市场持续扩大,预计将在2032年达到近474亿美元。然而,治疗性蛋白引发免疫反应(immunogenicity)这一问题却一直困扰着药物研发人员。免疫反应既可能带来有害副作用,也可能激活治疗机制,例如疫苗就是通过激发体内免疫应答以实现免疫保护。 在蛋白药物所引发免疫反应的分子机制中,MHC(major histocompatibil...

通过高通量合成和人工神经网络预测钙钛矿材料的化学空间-性质模型

通过高通量合成和人工神经网络预测钙钛矿材料的化学空间-性质模型

学术背景 钙钛矿材料因其在太阳能电池和其他电子器件中的广泛应用而备受关注。其光学性质(如带隙和晶格振动)可以通过调整化学组成来灵活调控。尽管从钙钛矿结构预测光学性质的研究已经较为成熟,但如何从光学数据反向预测化学组成却一直是一个难题。这一问题的解决对于加速钙钛矿材料的开发和生产具有重要意义,尤其是在大规模工业生产中,快速筛选和验证新材料的化学组成将极大地提高生产效率。 为了应对这一挑战,研究者们提出了一种结合高通量合成、高分辨率光谱技术和机器学习(特别是人工神经网络,ANN)的创新方法。通过这种方法,他们不仅能够高效合成多种化学组成的钙钛矿材料,还能够通过光学数据准确预测其化学组成。这一研究为钙钛矿材料的快速筛选和优化提供了新的工具。 论文来源 该研究由来自Michigan State Un...

稀疏贝叶斯委员会机器势能在含氧有机化合物中的应用

学术背景 在材料科学和化学领域,理解材料在原子层面的性质至关重要。然而,传统的原子间势能计算方法(如密度泛函理论,DFT)虽然精度高,但计算成本极高,难以应用于大规模系统。近年来,机器学习(ML)势能在原子模拟中的应用取得了显著进展,特别是基于高斯过程(Gaussian Process, GP)的ML势能,因其在主动学习、不确定性预测和低数据需求方面的优势而备受关注。然而,基于核函数的模型在处理大规模数据集时面临严重的扩展性问题,尤其是当数据集规模超过10^4时,计算复杂度急剧增加,难以实现真正的通用性。 为了应对这一挑战,Soohaeng Yoo Willow、Seungwon Kim等作者提出了一种新的稀疏贝叶斯委员会机器(Robust Bayesian Committee Machin...

硬件兼容的扰动训练算法的扩展研究

随着人工智能(AI)技术的快速发展,人工神经网络(Artificial Neural Networks, ANNs)在多个领域取得了显著成就。然而,传统的神经网络训练方法——尤其是反向传播算法(Backpropagation)——在硬件实现上存在诸多挑战。反向传播算法虽然在软件中高效,但在硬件中实现时,要求计算路径可逆、每个神经元需要大量内存,并且需要计算激活函数的导数,这些条件在硬件中难以满足。此外,传统的互补金属氧化物半导体(CMOS)硬件在训练和部署这些算法时,能源消耗巨大,限制了其扩展性和广泛应用。 为了解决这些问题,研究人员开始探索脑启发(brain-inspired)的硬件解决方案,尤其是模拟神经形态硬件(analog neuromorphic hardware)。这类硬件能够以...

利用可解释人工智能探测WS2单层纳米尺度结构扰动

背景介绍 二维材料(2D materials)因其独特的物理化学性质,在纳米电子学、光电子学等领域展现出巨大的应用潜力。然而,这些材料在纳米尺度上的结构扰动(structural perturbations)对其性能有着重要影响。传统的表征方法如拉曼光谱(Raman spectroscopy)虽然能够提供材料的结构信息,但其空间分辨率通常受到衍射极限的限制,难以在纳米尺度上精确探测结构变化。为了解决这一问题,研究者们开始探索将机器学习(machine learning, ML)与光谱技术结合,以提高空间分辨率并揭示纳米尺度的结构扰动。 本研究由来自Hanyang University、Sungkyunkwan University、Korea Advanced Institute of Sc...

人工智能在化学交换饱和转移磁共振成像中的应用

学术背景 化学交换饱和转移(Chemical Exchange Saturation Transfer, CEST)磁共振成像(MRI)是一种先进的非侵入性成像技术,能够提供活体组织的详细分子信息。CEST MRI通过选择性饱和特定代谢物的可交换质子,并将这种饱和转移到水分子中,从而实现对低浓度蛋白质和代谢物的检测和定量。尽管CEST MRI在神经退行性疾病和癌症等疾病的诊断中显示出巨大潜力,但其在临床中的应用仍面临诸多技术挑战,例如数据采集时间长、图像处理复杂以及解释难度大。这些问题限制了CEST MRI从研究环境向临床实践的过渡。 近年来,人工智能(Artificial Intelligence, AI)在医学影像领域的应用日益广泛,尤其是在处理大规模数据和提供精确诊断方面表现出色。AI...

混合机器学习技术在露天矿山爆破峰值粒子速度预测中的系统综述

露天矿山爆破作业在矿物提取中至关重要,但同时也伴随着显著的环境和结构风险。爆破过程中产生的峰值粒子速度(Peak Particle Velocity, PPV)是评估爆破振动对周围结构和环境影响的关键指标。准确的PPV预测对于优化爆破实践、减少环境破坏和确保结构安全具有重要意义。传统的预测方法在处理非线性关系和高维数据时存在局限性,而机器学习(Machine Learning, ML)技术,特别是混合机器学习方法,展现出在PPV预测中的巨大潜力。本文旨在系统综述混合机器学习技术在露天矿山爆破PPV预测中的应用,探讨其优势、挑战及未来研究方向。 论文来源 本文由Gundaveni Shylaja和Ragam Prashanth共同撰写,两位作者均来自VIT-AP University的计算机科...

人工智能驱动的云计算作业调度:全面综述

学术背景 随着云计算技术的快速发展,动态和异构的云环境对高效的作业调度需求日益增长。传统的调度算法在简单系统中表现良好,但在现代复杂的云基础设施中已无法满足需求。云环境的资源异构性、能源消耗和实时适应性等问题,促使研究者探索基于人工智能(AI)的解决方案。AI驱动的作业调度技术通过机器学习、优化技术、启发式技术和混合AI模型,提供了更高的适应性、可扩展性和能源效率。本文旨在全面回顾AI驱动的作业调度技术,分析现有方法的优缺点,并探讨如何通过AI克服传统算法的不足。 论文来源 本文由Yousef Sanjalawe、Salam Al-E’mari、Salam Fraihat和Sharif Makhadmeh共同撰写,发表在《Artificial Intelligence Review》期刊上,...

机器学习在纳米物联网中的应用:挑战与未来方向

学术背景 近年来,纳米技术和物联网(IoT)的快速发展催生了一个革命性的领域——纳米物联网(IoNT)。纳米物联网将纳米级设备与互联网连接,使其能够在农业、军事、多媒体和医疗等领域中发挥重要作用。然而,尽管纳米物联网和机器学习(ML)都取得了显著进展,但关于两者如何结合的全面研究却相对缺乏。现有的研究主要集中在纳米物联网的架构、通信方法和特定领域的应用上,而忽略了机器学习在数据处理、异常检测和安全方面的潜力。因此,本文旨在填补这一空白,通过深入分析纳米物联网与机器学习的结合,探讨机器学习在纳米物联网中的最新应用,并系统地讨论这一结合所面临的挑战。 论文来源 本文由Aryan Rana、Deepika Gautam、Pankaj Kumar、Kranti Kumar、Athanasios V....