关于《机器学习识别酵母菌亚门中抗真菌药物耐药性的新特征》研究的学术报告
一、 研究团队、发表信息与学术背景
本研究由 Marie-Claire Harrison(第一作者)、David C. Rinker(共同第一作者)、Abigail L. Labella、Dana A. Opulente、John F. Wolters、Xiaofan Zhou、Xing-Xing Shen、Marizeth Groenewald、Chris Todd Hittinger 以及通讯作者 Antonis Rokas 共同完成。研究团队来自美国范德堡大学、威斯康星大学麦迪逊分校、北卡罗来纳大学夏洛特分校、维拉诺瓦大学、中国华南农业大学、浙江大学以及荷兰的 Westerdijk 真菌生物多样性研究所等多个知名学术机构。该研究成果于2026年3月17日发表在开放获取期刊 PLOS Genetics 上,论文标题为《Machine learning identifies novel signatures of antifungal drug resistance in Saccharomycotina yeasts》。
二、 研究背景与目标
学术领域: 本研究属于微生物学、进化生物学、生物信息学与抗真菌药物耐药性研究的交叉领域,特别关注于利用大规模基因组学数据和机器学习方法探索真菌耐药性的进化机制。
研究背景与动机: 抗真菌药物耐药性已成为全球公共卫生的重大挑战。目前,我们对耐药性的理解主要来源于对临床分离株(如白色念珠菌 *Candida albicans*)中“获得性”耐药突变的研究。然而,在自然界中,许多酵母菌本身就具有“天然”耐药性,但其遗传基础尚不明确。一个核心科学问题是:驱动临床病原体获得性耐药的基因和突变,是否与在整个谱系中观察到的天然耐药性相同?为了回答这个问题,需要超越单一病原体的视角,在整个真菌进化谱系中进行系统性研究。
酵母菌亚门(Saccharomycotina)包含了巨大的生物多样性,其物种栖息环境广泛,是研究这一问题的理想模型。Y1000+ 项目为此提供了宝贵资源,它涵盖了该亚门几乎所有已知物种的基因组、生态和表型性状数据。同时,已有研究对532种酵母菌进行了针对八种临床相关抗真菌药物的耐药性表型测定。
研究目标: 本研究旨在整合上述大规模数据集,系统性地探究酵母菌亚门中抗真菌药物耐药性的进化模式。具体目标包括:1) 描绘八种不同药物耐药性在酵母系统发育树上的分布;2) 利用机器学习(随机森林算法)基于基因组、代谢和环境数据预测耐药性,并识别关键预测特征;3) 聚焦于关键药物靶点蛋白(如唑类药物的靶点 Erg11),深入解析与天然耐药性相关的序列变异特征,并与已知的临床耐药突变进行比较;4) 结合结构生物学和进化分析,揭示天然耐药相关变异的生物物理和进化约束特性。
三、 详细研究流程
本研究流程严谨,层层递进,主要包含以下几个核心步骤:
1. 数据整合与预处理: * 研究对象与样本量: 研究核心数据集整合了来自 Y1000+ 项目的1154株酵母菌(代表至少1051个物种)的基因组、代谢和生态数据。其中,532个物种拥有由 Desnos-Ollivier 等人测定的、针对八种抗真菌药物(氟康唑、伏立康唑、伊曲康唑、泊沙康唑、卡泊芬净、两性霉素B、特比萘芬、5-氟胞嘧啶)的耐药性表型数据。绝大多数菌株(93%)为自然环境分离株,仅7%分离自哺乳动物相关环境。 * 数据矩阵构建: * 基因组数据矩阵: 基于 InterProScan 基因功能注释,构建了一个包含1154个基因组中出现的所有 InterPro 蛋白结构域 ID 及其数量的矩阵(12,242个特征)。 * 代谢数据矩阵: 包含893个菌株在122种不同碳源、氮源及环境条件下的生长数据。 * 环境数据矩阵: 基于受控词汇表,将1088个菌株的分离环境信息转换为层次化的二进制特征矩阵。 * 基因序列数据矩阵: 使用隐马尔可夫模型从1150个酵母基因组中检索出 Erg11 蛋白(唑类药物的主要靶点)的直系同源序列,并使用 MAFFT 算法进行多序列比对,最终生成整数编码的序列矩阵。 * 耐药性数据矩阵: 根据 EUCAST 标准,将532个物种对八种药物的最低抑菌浓度(MIC)转换为“耐药”或“敏感”的二元表型。
2. 系统发育分布与进化信号分析: * 流程: 将532个物种的八种药物耐药性表型映射到其系统发育树上,直观展示耐药性的分布模式。随后,使用 Fritz 和 Purvis 提出的 D 度量方法,量化每种药物耐药性表型在系统发育树上的信号强度,检验其分布是随机的、由进化历史(布朗运动模型)完全解释的,还是介于两者之间。
3. 基于机器学习的耐药性预测与特征识别: * 算法与模型: 研究采用 XGBoost 实现的随机森林分类器作为核心机器学习工具。针对数据不平衡(耐药物种通常较少)的问题,采用了重复分层下采样策略。 * 预测流程: 分别使用三个独立的数据集(InterPro基因组特征、代谢特征、环境特征)作为输入,训练模型来预测对每种药物的耐药性。通过10折交叉验证评估模型预测的平衡准确率,并绘制受试者工作特征曲线(ROC曲线)和混淆矩阵。模型同时输出基于基尼不纯度计算的“特征重要性”,以识别对预测贡献最大的特征。 * 聚焦关键药物与靶点: 鉴于氟康唑耐药性最为普遍且模型预测准确率最高,研究后续聚焦于该药物。为了探究已知耐药靶点 Erg11 的贡献,研究者训练了新的随机森林模型,其输入包括:a) InterPro 特征 + Erg11 序列比对位点;b) 仅 Erg11 序列比对位点。此外,还测试了不同的序列编码方式(如 one-hot 编码、基于 k-mer 的方法)和比对算法(如 MUSCLE5、基于蛋白质结构模型的比对),以检验结果的稳健性。
4. 关键位点的实验验证与比较分析: * 与实验数据关联: 将机器学习模型识别出的 Erg11 关键预测位点,与已发表的针对白色念珠菌 Erg11 的深度突变扫描实验数据进行比对。该实验测量了206个位点上所有可能氨基酸替换对氟康唑耐药性的影响。 * 与临床突变比较: 系统收集了文献中报道的、在临床分离株中发现的、与氟康唑耐药相关的36个 Erg11 突变位点。从序列保守性(使用 Jensen-Shannon 散度度量)和空间位置(映射到白色念珠菌 Erg11 的晶体结构上)两个维度,比较机器学习识别的“天然耐药相关位点”与已知“临床耐药位点”的差异。
5. 生物物理约束分析(计算机深度突变扫描): * 方法: 使用 Rosetta 软件对白色念珠菌 Erg11 蛋白(PDB: 5V5Z)进行 in silico 深度突变扫描。计算该蛋白每一个位点发生所有可能氨基酸替换时,对蛋白质折叠自由能变化的预测影响(ΔΔG)。正值表示突变 destabilizing(去稳定化),负值表示 stabilizing(稳定化)。 * 分析内容: 比较四组氨基酸替换的 ΔΔG 分布:1) 在酵母菌亚门中自然存在的变异;2) 在酵母菌亚门中从未观察到的变异;3) 已知的临床或实验验证的耐药性突变;4) 机器学习模型识别出的最具信息量的前50个变异。
6. 系统发育关联检验: * 目的: 为了排除所识别的 Erg11 位点与耐药性的关联仅仅是由于物种间系统发育关系(而非功能关联)造成的假象。 * 方法: 对 Erg11 比对中的每一个位点,分别使用标准逻辑回归和考虑系统发育关系的逻辑回归模型,检验其氨基酸状态与氟康唑耐药表型之间的关联性。通过比较两种模型下位点显著性的变化,判断关联是否受系统发育影响。
四、 主要研究结果
1. 耐药性在酵母进化谱系中呈现多样化且非随机的分布模式: * 氟康唑耐药性最为普遍(34.2%的物种耐药),而5-氟胞嘧啶耐药性则主要集中在 Lipomycetales 和 Trigonopsidales 目,呈现谱系特异性。 * 对所有八种药物,耐药性的系统发育分布均既非完全随机,也非完全由进化历史决定(D 度量检验 p<0.05)。这表明耐药性在酵母进化过程中曾多次独立起源,很可能具有适应性意义。值得注意的是,这种反复进化现象在93%为非临床分离株的背景下尤为引人深思。
2. 机器学习模型成功预测耐药性并揭示非经典关联特征: * 使用 InterPro 基因组特征训练的随机森林模型,对八种药物耐药性的预测准确率在54%至75%之间,其中对氟康唑的预测准确率最高(75.2%)。 * 关键发现: 预测氟康唑耐药性的最重要基因组特征并非已知的耐药基因(如 ERG11 或其通路基因),而是与细胞壁相关的功能注释,例如:Flocculin type 3 repeat(絮凝蛋白3型重复结构域,介导细胞聚集)、X8 domain(与细胞壁合成相关)和 Myosin head domain(肌球蛋白头部结构域,可调节膜通透性)。这提示,影响细胞壁组成、菌落结构或膜通透性的因素,可能通过间接机制影响天然耐药性。
3. Erg11 蛋白序列变异足以提供与全基因组特征相当的预测力: * 仅使用 Erg11 蛋白多序列比对数据训练的模型,对氟康唑耐药的预测准确率达到73.6%,与使用全基因组 InterPro 特征的模型(75.2%)相当。这证实了 Erg11 作为唑类药物核心靶点在决定天然耐药性中的关键作用。 * 使用不同的序列比对和编码方法,均得到相似的预测准确率,并且一致地识别出同一组关键位点,证明了结果的稳健性。
4. 机器学习识别的关键 Erg11 位点与临床耐药位点截然不同: * 模型识别出的前10个最具预测价值的 Erg11 位点(如 Y477, A313, M372 等),与文献中报道的36个临床耐药位点无一重合。 * 序列保守性差异: 临床耐药位点在酵母菌亚门中高度保守(平均 JSD = 0.76),而机器学习识别的关键位点则变异度显著更高(平均 JSD = 0.64)。这意味着临床耐药突变在自然种群中极为罕见。 * 空间结构分离: 将这两组位点映射到 Erg11 蛋白三维结构上发现,它们位于空间上不同的区域。临床耐药位点紧密簇集在酶的活性位点或血红素结合口袋周围(12Å 范围内),而机器学习识别的位点则分布在其他区域。
5. 天然变异与临床变异的生物物理约束存在根本差异: * in silico 深度突变扫描显示,在自然种群中观察到的 Erg11 变异,其预测的 ΔΔG(去稳定化效应)显著低于从未观察到的变异。 * 核心结论: 已知的临床或实验验证的耐药突变,其预测的 ΔΔG 与“从未观察到的变异”组无差异,且都显著高于“自然存在的变异”组。而机器学习模型识别出的最具信息量的前50个变异,其 ΔΔG 值属于自然变异中最保守(即最稳定)的那一部分。 * 实验证据支持: 深度突变扫描实验数据证实,在模型识别的关键位点中,有多个位点(如 Y477F, A313L, V404T)的特定氨基酸替换确实能直接导致氟康唑耐药性增强。
6. 关键位点与耐药性的关联独立于系统发育历史: * 系统发育逻辑回归分析表明,模型识别出的绝大多数关键 Erg11 位点,其与氟康唑耐药性的关联在考虑物种亲缘关系后依然显著。更有趣的是,有四个位点只有在进行系统发育校正后才显示出显著关联,这表明随机森林模型本身在一定程度上能够“学习”并校正数据中的系统发育偏差。
五、 研究结论与意义
结论: 本研究通过对酵母菌亚门的大规模分析揭示,抗真菌药物(尤其是氟康唑)的天然耐药性广泛存在且多次独立进化。驱动这种天然耐药性的遗传特征,与在人类病原体临床分离株中发现的获得性耐药突变存在本质区别。机器学习方法成功地从全基因组层面和关键靶点蛋白(Erg11)的序列变异中,识别出了与天然耐药性稳健相关的特征。这些特征指向了细胞壁/膜相关功能,以及在 Erg11 蛋白上远离活性位点、进化上更可变、生物物理约束更小的位点。临床耐药突变则通常位于活性位点附近,具有高度的保守性和更强的去稳定化效应,这可能是在临床治疗中强效药物选择压力下产生的“代价高昂”的适应性突变。
科学价值与应用价值: * 理论价值: 提出了一个关于耐药性进化的新假说:天然环境与临床环境不同的选择压力(如药物浓度、暴露时间、生态复杂性)可能塑造了不同的耐药性进化路径。天然耐药可能更多由效应较小、对蛋白功能影响轻微的突变介导,以平衡耐药性与适应性;而临床获得性耐药则可能在强选择压下容忍甚至固定那些效应大但代价高的突变。 * 方法论价值: 展示了将大规模比较基因组学、机器学习、结构生物学和进化分析相结合的研究范式的强大能力。特别是在跨物种水平上,利用机器学习挖掘与复杂表型相关的序列特征,即使单个位点效应微弱,也能通过集成学习获得预测能力。 * 应用价值: 为抗真菌药物研发和耐药性监测提供了新视角。研究提示,监测自然环境中酵母菌的耐药性相关变异,可能有助于预测未来潜在病原体的耐药性进化趋势。此外,识别出的与天然耐药相关但不同于临床突变的新位点,可能成为新的药物设计或耐药性检测靶点。
六、 研究亮点
七、 其他有价值的内容
研究还讨论了新兴多重耐药病原体耳念珠菌(*Candida auris*)的例子,强调了解病原体自然生态和进化历史的重要性。作者指出,未来的研究应纳入更多的种内变异数据、非编码区变异以及其他基因组特征(如密码子使用偏好),并结合更多表型数据(如生物膜形成能力、细胞壁厚度),以构建更精准的预测模型。最终,全面理解抗真菌药物耐药性需要将临床获得性耐药研究与整个真菌谱系的天然耐药研究相结合。