分享自:

用于药物性肝损伤预测的大规模人类毒理基因组学资源

期刊:Nature CommunicationsDOI:10.1038/s41467-025-65690-3

学术研究报告:基于大规模人源毒理基因组学的药物性肝损伤预测新资源

一、 作者、机构、发表信息

本研究由 Cellarity Inc.(位于美国马萨诸塞州萨默维尔市)的研究团队完成。主要作者包括 Volker BergenKonstantia KodellaSreenath SrikrishnanOrnella BarrandonSara AndersonMax Rogers-GrazadoCasey FowlerHirit BeyeneNicole RobichaudTimothy FultonNina LapchykMauricio CortesNick PlugisMatthew GoddeerisMahdi Zamanighomi。该研究已于 2025年 发表于国际知名期刊 Nature Communications 上。

二、 学术背景与目标

1. 科学领域: 本研究属于 药物毒理学(Drug Toxicology)计算生物学(Computational Biology) 的交叉领域,具体聚焦于 药物性肝损伤(Drug-Induced Liver Injury, DILI) 的预测和机制解析。核心是利用 毒理基因组学(Toxicogenomics)——即通过分析药物暴露后基因表达的变化来研究毒性——结合 机器学习(Machine Learning) 技术,构建预测模型。

2. 研究动因与背景: DILI是新药研发中最严峻的挑战之一,是导致临床试验失败和药品撤市的主要原因,每年给每家制药公司造成约3.5亿美元的损失。其临床发生率低(常低于万分之一),且在人群中具有不可预测性,使得在临床研究中难以被发现。传统的临床前模型,尤其是动物实验,未能识别出大约一半最终在临床上表现出DILI的药物。现有的体外预测方法,如定量构效关系(QSAR)模型特异性低、缺乏机制见解;基于细胞系(如HepG2)或3D肝脏模型的检测虽然生理相关性有所提高,但其读数通常是低维度的(如ATP水平、LDH释放或有限的高内涵成像特征),无法捕捉到分子层面的全面响应,常常遗漏毒性机制。因此,亟需更全面、更准确且能提供机制见解的DILI预测工具。

3. 研究目标: 本研究旨在创建一个大规模、标准化的人源毒理基因组学资源库,并在此基础上开发一个机器学习框架,以实现以下目标: * 精准预测: 实现对Dili风险的准确、高特异性预测,并能提供剂量相关的安全边际(Safety Margin)。 * 机制洞察: 超越简单的“是/否”预测,提供Dili背后的分子通路和生物学机制解释。 * 覆盖盲区: 识别被传统动物实验和临床前模型所遗漏的Dili风险,特别是近期临床失败的药物和具有“特异质性”(idiosyncratic)反应特征的药物。 * 实际应用: 为药物研发早期阶段的候选化合物风险排序和安全剂量选择提供可操作的工具。

三、 详细研究流程

整个研究流程可以分为两大核心部分:1)创建毒理基因组学数据库DiliMAP;2)基于DiliMAP数据开发并验证机器学习预测模型ToxPredictor

(一)DiliMAP数据库的创建

1. 研究对象与样本规模: 研究核心是创建了一个名为 DiliMAP 的转录组学(RNA-Seq)数据库。该数据库包含了 300种化合物原代人肝细胞(Primary Human Hepatocytes, PHHs) 中的基因表达谱。PHHs被选为实验模型,因为它们是肝毒性研究的“金标准”,能保留关键的肝脏功能(如代谢活性和胆小管形成)。使用了一例37岁白人女性供体的高活性PHHs,以确保实验的一致性。

2. 实验设计与处理流程: * 剂量选择与筛选: 首先,对每种化合物进行六点浓度梯度的细胞毒性筛选(范围从0.01 μM到1 mM),使用乳酸脱氢酶(LDH)和三磷酸腺苷(ATP)释放实验测定细胞活力。确定最高耐受非细胞毒剂量(MTD,定义为导致细胞死亡≤10%的最高浓度)。随后,为RNA-Seq分析选择了四个浓度点:从治疗相关的血浆峰值浓度(Cmax)到略低于IC₁₀的MTD,以覆盖药理学相关范围。 * 暴露时间点: 选定24小时作为化合物暴露后的采样时间点。这是基于权衡信号强度(更早时间点如2或8小时转录反应较弱)和细胞活力/RNA完整性(更长时间孵育可能导致肝细胞去分化和RNA降解)后的决定。 * 培养与处理: PHHs以三明治构型培养于胶原I包被的96孔板中(覆盖Matrigel),成熟三天后,用化合物处理24小时。 * RNA提取与测序: 处理后,细胞被裂解用于总RNA提取。使用SMART-seq3方法构建文库,并在Illumina NovaSeq 6000平台上进行测序,获得了覆盖全转录组的RNA-Seq数据。 * 质量控制: 实施了严格的质量控制,包括总RNA读数>70万、线粒体RNA比例<9%、重复样本间相关性>0.99,并通过肝细胞标志物基因表达确认细胞类型保真度。 * 化合物分类: 基于DiliRank(FDA)和LiverTox(NIDDK)数据库,将300种化合物系统地分为六类:因Dili撤市、已知Dili、可能Dili、特异质Dili、不可能Dili、无Dili。前两类作为阳性对照,最后一类作为阴性对照用于模型训练,特异质和“不可能”类别因标签模糊而保留用于下游测试。 * 数据注释: 为支持全面的基准测试,为每种化合物提供了详细注释,包括临床Dili标签、Dili机制、分子信息、来自多项研究的共识血浆Cmax值,以及超过20项临床前研究的Dili分类结果。

(二)ToxPredictor模型开发与验证

1. 数据处理与特征工程: * 差异表达分析: 使用DESeq2软件对每个化合物-剂量组合,计算其与同板上DMSO对照样本之间的差异表达基因。 * 通路富集分析: 对差异表达基因进行通路富集分析(使用WikiPathways数据库),计算错误发现率(FDR)调整后的p值,并将其转换为-log10(FDR)得分,作为模型输入的特征。这些“通路水平签名”代表了化合物引起的系统性生物学扰动。

2. 模型开发: * 训练集构建: 使用DiliMAP中标签明确的111个Dili阳性(撤市、已知、可能)和52个Dili阴性化合物数据作为高置信度训练集。 * 模型选择与优化: 在八种机器学习模型类别中测试了193种配置,使用5折交叉验证,并采用“化合物水平”分层划分(即同一化合物的所有剂量和重复样本同时保留或用于验证),以模拟对全新化合物的预测场景。最终选择随机森林(Random Forest)分类器作为基础模型,因其在验证集上表现出高AUC、最小过拟合、跨折一致性高且可解释性强。 * 集成模型: 为提高泛化能力和预测稳定性,最终模型是一个包含30个随机森林模型的集成(Ensemble)模型,每个模型在不同的训练数据子集上训练。预测结果为30个模型输出的平均值。 * 参数优化: 在训练集上优化了两个关键阈值:Dili风险概率阈值(0.7)和安全边际(MoS)分类阈值(80)。MoS定义为预测出现Dili的最低剂量与治疗血浆Cmax的比值,是预测临床治疗窗口的替代指标。

3. 验证策略: * 交叉验证: 在整个DiliMAP训练集上进行5折交叉验证,评估模型在库内化合物上的泛化能力。 * 盲法验证: 这是最关键的一步。研究团队进行了一项独立的实验,使用全新的51种化合物(33个Dili阳性,14个Dili阴性,4个未知标签)作为盲法验证集。这些化合物在独立的实验板和新测序批次中完成测试,且在模型开发的任何阶段都未被使用。验证集特意丰富了近期因Dili撤市或失败的药物。

四、 主要研究结果

1. DiliMAP数据库的规模与质量: 成功构建了迄今为止最大的专注于Dili研究的毒理基因组学数据库,包含300种化合物、多浓度点的全转录组RNA-Seq数据。高质量的控制确保了数据的可靠性和生物学相关性,为后续建模奠定了坚实基础。

2. ToxPredictor模型的卓越预测性能: * 盲法验证性能: 在完全独立的51种化合物盲法验证中,ToxPredictor取得了88%的灵敏度(29/33 Dili阳性被检出)和100%的特异性(14/14 Dili阴性被正确分类)。其接收者操作特征曲线下面积(ROC AUC)高达0.96。 * 超越早期概念验证: 显著优于团队早期基于TG-GATES微阵列数据构建的概念验证模型(灵敏度62%,特异性92%)。性能提升归因于DiliMAP数据量更大、机制覆盖更广,以及RNA-Seq相比微阵列具有更高的分辨率和更宽的定量动态范围。 * 成功识别临床失败案例: 模型成功标记出近期III期临床试验因肝损伤失败或撤市的药物,包括Evobrutinib(BTK抑制剂)、TAK-875(糖尿病药物)和BMS-986142(BTK抑制剂),而这些药物在临床前动物研究中均未显示肝毒性。这表明模型具有识别传统模型盲点的独特能力。

3. 提供剂量分辨率与安全边际: 模型能够输出剂量依赖的Dili风险概率曲线。例如,它能区分不同风险等级的化合物:高风险(MoS ≤ 2.5)、中高风险(≤ 12.5)、中风险(≤ 80)和低风险(> 80)。这不仅提供了二元风险分类,还能为候选药物的安全剂量范围提供具体建议。

4. 揭示Dili的分子机制: * 关键通路识别: 模型分析揭示了与Dili风险高度相关的生物学通路,包括氨基酸代谢、脂肪酸生物合成、色氨酸代谢、铁死亡(ferroptosis)、核受体信号(如PXR/CAR/FXR)、一碳代谢和胆汁酸调节等。这些通路涉及氧化应激、代谢重编程、脂质积累等多个方面,为理解Dili的复杂机制提供了系统视图。 * 关键基因发现: 通过分析在Dili药物中频繁差异表达的基因,研究发现了大量与药物代谢(如CYP1A2, UGT1A8)、应激反应(如TXNRD1, HSP90AA1)、脂质代谢(如SREBF1, SCD)、线粒体功能、炎症和自噬等相关的新老基因。这些基因表达变化可能作为肝损伤的早期指标。 * 机制案例剖析: 以三种作用靶点相同(COX-2抑制剂)但Dili风险不同的非甾体抗炎药为例:模型预测Valdecoxib无风险(MoS >300),Sulindac(特异质Dili)有风险(MoS=31),而Lumiracoxib(已撤市)为高风险(MoS=1)。通路分析进一步显示,后两者均激活了与氧化应激、脂肪和胆固醇合成、胆汁酸调节相关的通路,而Valdecoxib则无此现象。这体现了模型将预测与具体生物学机制联系起来的能力。

5. 在现有临床前模型中的竞争优势: 研究将ToxPredictor与超过20种已发表的临床前Dili预测模型(包括基于高内涵成像的机制性检测、细胞毒性标志物、理化性质、生物活化、BSEP抑制等模型,以及最新的基于结构的硅学模型如DiliGNN、DiliPredictor、TxGemma)进行了头对头比较。 * 相比体外模型: 在重叠化合物集上,ToxPredictor的灵敏度普遍更高。例如,在66种Dili化合物中,ToxPredictor识别出46种,而Xu等人(2008)的高内涵成像(HCI)检测仅识别出27种。 * 相比基于结构的硅学模型: TxGemma、DiliGNN和DiliPredictor等模型在特异性上表现不佳(普遍低于40%),会产生大量假阳性(例如将生物素、维生素D等无肝毒性的药物标记为Dili阳性),且仅能提供二元输出,缺乏剂量和机制信息。而ToxPredictor在保持高灵敏度的同时实现了100%的特异性。 * 相比3D肝脏模型: 虽然3D模型生理相关性高,但其通常依赖低维度的细胞活力或成像终点,检测机制范围有限。比较发现,3D细胞毒性检测能独特识别一些引起急性细胞死亡的化合物(如Fialuridine),而ToxPredictor能独特识别出那些通过免疫激活、代谢应激等非细胞毒性机制引发Dili的化合物(如氟康唑、苯妥英)。这表明转录组学提供了更系统、更无偏的检测能力。

6. 对特异质Dili的检测能力: 模型对难以预测的“特异质”Dili化合物表现出良好的检测能力,在65例此类病例中识别出29例(44%),这是所有评估模型中最高的检出率,同时保持了88%的特异性。

五、 结论与价值

本研究成功创建并验证了 ToxPredictor,一个结合大规模人源毒理基因组学数据和机器学习的框架,用于预测药物性肝损伤。它不仅实现了高灵敏度、高特异性的精准预测,特别是能识别出传统模型遗漏的临床失败药物,更重要的是,它提供了剂量依赖的风险评估深入的机制性见解,超越了现有的二元预测模型。

科学价值: 1. 范式转变: 推动了Dili预测从依赖单一靶点或表型读数,向基于系统生物学视角的转变。证明了毒理基因组学结合机器学习是现有毒理学方法的重要增强。 2. 资源贡献: 公开的DiliMAP数据库(可通过dilimap.org获取)和模型代码,为领域提供了宝贵的研究资源和基准测试平台,将促进协作创新。 3. 机制探索: 系统性地揭示了与Dili风险相关的核心基因和通路网络,加深了人们对Dili复杂分子机制的理解。

应用价值: 1. 药物研发: 可集成到药物发现平台中,在临床前阶段早期识别和剔除具有肝毒性风险的候选化合物,优化安全剂量,从而降低后期临床失败风险和成本,提高研发效率。 2. 患者安全: 最终目标是减少上市药物引发的肝损伤事件,保障患者用药安全。 3. 决策支持: 提供的安全边际和机制信息,可帮助研究人员做出更明智、更可操作的安全性决策,例如对高风险化合物进行结构优化或终止开发。

六、 研究亮点

  1. 规模与质量空前的专用数据库: DiliMAP是目前最大的为Dili研究量身定制的毒理基因组学数据库,其系统性、标准化和高通量特点为模型的鲁棒性奠定了基础。
  2. 卓越的预测性能与临床验证: 盲法验证中达到88%灵敏度/100%特异性的高性能,并成功“预言”了多个传统方法未能预警的近期临床失败案例,证明了其实用性和前瞻性。
  3. 从预测到机制的闭环: 模型不仅输出风险评分,还通过通路和基因富集分析,将预测结果与潜在的生物学机制直接关联,提供了宝贵的科学洞察。
  4. 综合性基准测试: 研究进行了全面而严格的基准测试,与大量现有方法进行头对头比较,客观地展示了ToxPredictor在准确性和机制覆盖广度上的优势。
  5. 注重可重复性与开放性: 公开数据、模型代码和可重复性脚本,践行了开放科学原则,有利于研究的验证和进一步发展。

七、 其他有价值内容

研究还讨论了局限性,例如:2D肝细胞单层培养无法完全模拟体内复杂的细胞间互作(如免疫细胞激活);24小时暴露时间可能错过延迟或免疫介导的毒性;模型性能受限于数据库的覆盖范围,特别是对罕见特异质反应的覆盖可能不全。这些坦诚的分析为未来改进指明了方向,例如未来可将转录组学与更生理相关的3D共培养模型(包含库普弗细胞、肝星状细胞等)相结合,以捕捉免疫和纤维化相关的Dili机制。

总体而言,这项工作代表了预测毒理学领域的一项重要进展,为开发更安全的疗法和应对毒理学中最紧迫的挑战之一,提供了一个强大且有前景的工具。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com