通过整合因果提示大语言模型与多组学数据驱动的因果推理识别癌症基因
癌症基因的准确识别是癌症基础研究和精准医疗领域的核心难题。近日,Jilin University与Zhejiang Sci-Tech University的研究团队在《Briefings in Bioinformatics》期刊上发表了题为《Cancer gene identification through integrating causal prompting large language model with omics data–driven causal inference》的原创性研究论文。本文完整梳理了该论文的研究背景、学术创新、方法流程、研究结论及其深远意义。
一、学术研究背景
1. 多组学癌症基因识别的需求
癌症作为全球范围内死亡率最高的疾病之一,其发生和进展本质上是一个多层次、多组学(multi-omics)共同作用的复杂生物过程。基因异常突变、表观遗传改变、信号通路失调等,均可能影响癌症的发生。准确识别出真正“驱动”癌症发生、发展的“癌症基因”(cancer gene),既是理解肿瘤生物学机制、发现新型药物靶点、推动精准诊疗的必由之路,又是目前生命信息学领域最具挑战的问题之一。
2. 传统方法的局限与瓶颈
目前,主流的癌症基因识别方法大致分为两类:一是基于统计和机器学习的相关性分析方法;二是更进一步的深度学习方法。这两类方法虽然为癌症基因识别做出了重要贡献,但也存在显著的不足:它们往往关注统计相关,但忽略了混杂因素(confounders)、选择偏倚(selection biases)等实际影响,无法区分因果与伪相关,导致结果冗余、解释性弱、泛化能力有限。
3. 因果推断方法与其挑战
为了应对混杂变量问题,近年来出现了一系列基于因果推断(causal inference)的癌症基因识别方法。例如在转录组层面,通过条件独立性检验、因果模型等摸索基因和表型之间的直接因果联系。然而高维度数据下,因果结构的识别依旧面临巨大计算复杂性和可行性挑战。与此同时,基于统计方法的基因驱动突变(driver mutation)识别法难以去除患者临床特征、氧化应激等“隐性”混杂因素的影响。
4. 大语言模型的契机与困境
生物医学数据库和文献中已积累了丰富基因与癌症的关联信息。人工智能“大型语言模型”(Large Language Model, LLM)因其强大的文本理解与推理能力,被认为可能成为知识促进型基因识别的新工具。然而,LLM存在幻觉(hallucination)、过时知识、领域理解深度不足及“因果盲区”(causal blindness)等弊端,仅凭文本难以实现高可信度的因果识别。
因此,如何发挥大语言模型的强大推理能力,同时联合组学数据的因果推断,互补优势,集成出高可信度、高解释性的癌症基因识别体系,成为亟需回答的学术问题。
二、论文来源与作者团队
本研究由吉林大学人工智能学院、未来科学国际中心、吉林大学人工智能驱动人机智能工程研究中心与浙江理工大学生命科学与医学学院联合完成,通讯作者为Huiyan Sun博士,主要作者包括Haolong Zeng、Chaoyi Yin、Chunyang Chai、Yuezhu Wang、Qi Dai等。本论文发表于2025年《Briefings in Bioinformatics》(Volume 26, Issue 2, bbaf113)。
三、研究流程详解
1. 研究总体思路与创新
论文首次提出了ICGI(Integrative Causal Gene Identification)平台。该系统深度融合了两类主流智能技术—— - LLM驱动的因果推理(模块名为CGI-GPT),利用“因果提示”(causal prompting)引导大模型进行癌症基因因果判别与自然语言解释; - 数据驱动的本地因果结构学习(模块名为DML-CGI),基于去偏机器学习(Debiased Machine Learning, DML)算法,从转录组数据中直接发掘基因与疾病标签的因果关系。
该框架以互补方式整合前人知识和数据因果发现,兼顾解释性、准确性与创新性。
2. LLM因果基因识别模块(CGI-GPT)
a) 提示工程与链式思考设计
作者在LLM输入中精心设计了五层因果提示(prompt template):系统指令、领域洞见、任务描述、溯因指导、输出指示,并结合生物数据库自动检索的“基因信息上下文”。创新应用“链式思考提示法”(Chain-of-Thought Prompting)指导模型按科学逻辑,一步步推理某基因与指定癌症类型之间的因果联系,并输出可读、结构化因果解释。
b) 检索增强生成(Retrieval-Augmented Generation, RAG)
为避免LLM利用过时或幻觉知识,作者引入了基因数据库自动检索和同义词标准化机制,确保模型使用的是权威、生物信息学一致性强的知识源。具体代码和流程已公开在GitHub。
3. 数据驱动本地因果结构识别模块(DML-CGI)
作者在六种癌症类型的TCGA(The Cancer Genome Atlas)转录组数据集上,首先建立基因与疾病标签的统计“关联骨架”,再利用去偏机器学习(DML)策略逐一判定每个基因对癌症表型的直接因果作用,有效克服了传统因果探索算法“马尔可夫等价类”、“V结构限制”等难题,提高了高维组学数据下的可靠性及效率。
4. 实验对象与样本
- 转录组数据来源:TCGA六大类型癌症,人类样本总量>20,000个基因,涵盖肺腺癌(LUAD)、肺鳞癌(LUSC)、膀胱尿路上皮癌(BLCA)、乳腺浸润癌(BRCA)、肾透明细胞癌(KIRC)、肝细胞癌(LIHC);
- 基因权威标注:Malacards、COSMIC等权威数据库专家标注的癌症基因列表,用于比对和校验模型结果;
- 实验方法:多组学数据分析、LMM推理、交叉验证、功能富集分析等。
四、主要研究结果详解
1. LLM模块识别能力分析
- CGI-GPT筛选出的癌症基因数量明显少于Malacards数据库标注,但基本命中“核心驱动基因”;
- 与经典和最新7种driver gene识别算法(如DriverML、MutSigCV、CEBP等)对比,CGI-GPT在精准率上排第一,部分数据集命中率达到45%,显著高于MSEA、SCS等传统方法;
- LLM可输出每个癌症基因的依据解释,具备一定创新发现潜力,如LUAD中识别的RASSF1、MDM2,BRCA中的CD44、UBE2C等为目前通用驱动基因检测工具尚未覆盖的新候选基因。
- 对识别出的基因,使用TabPFN(一种集成因果先验的Bayesian神经网络方法)模型评估区分肿瘤/正常样本能力,平衡准确率与加权F1值均表现优秀,t-SNE降维后亦能清晰区分种群分布。
2. 功能富集与机制揭示
对乳腺癌样本用GO及KEGG通路分析,发现LLM识别出的基因高度富集于细胞周期调控、DNA损伤应答、PI3K-AKT信号通路、miRNA调控及病毒相关机制,支持其成因机制的合理性及科学性。
3. DML-CGI模块因果基因发现
- 与LCS-FS、ELCS、PCFRCIT、PSL、CMB等因果结构学习方法相比,DML-CGI在识别基因数量、准确性和计算效率上均表现出众;
- 特别是在BRCA、KIRC等数据集,DML-CGI以更少的基因实现了与更复杂结构学习方法相当或更高的癌症样本区分能力;
- t-SNE分析显示,DML-CGI识别的基因明显区分癌症与正常样本。
4. 在线服务平台部署
团队研发了基于Gradio的人机交互式在线系统(https://huggingface.co/spaces/icgi/icgi),用户只需输入基因和癌症类型,即可获得LLM与因果推断双重自动分析结果及机制解释,极大便利学者与临床科研人员。
五、研究结论、科学与应用价值
1. 结论
本研究构建了极具创新性的LLM+因果推断融合框架,不仅显著提升了癌症基因识别的精准性、泛化能力和解释性,还率先实现了“自动机理生成+数据因果挖掘”的互补验证。多组学场景下,ICGI系统兼顾了生物医学领域已有知识与新发现能力,明确指出LLM未来可与组学数据因果推断形成高效耦合的智能学科工具。
2. 科学价值
- 提供了一套多组学数据、文本智能和因果推断深度融合的通用路线,对复杂生命系统的因果变量挖掘、机制建模、功能注释等具有显著推动作用。
- 首次展示了链式思考提示、检索增强生成等LLM提示工程在生命信息学和生物因果推理领域的高价值应用。
3. 应用价值
- 网络平台极大推动生物医学研究者快速识别、验证关键基因,为下游CRISPR/Cas9基因编辑、RNA干扰等功能实验筛选提供高质量候选基因列表,降低实验成本。
- 为开发AI辅助癌症精准诊断和药物靶点预测等实际应用奠定扎实基础。
六、研究亮点与特色
- 方法创新:首次提出LLM因果提示与组学数据因果推断互补融合的癌症基因识别平台,为生信AI结合因果推断开拓了新范式;
- 解释性和泛化性兼顾:LLM模块具备链式推理、自然语言解释等优势,DML模块则确保数据主导的因果可靠性,互补不足;
- 实际可用性强:Web工具可快速集成应用,接口友好,数据与代码全部开放,便于后续学界复现与扩展;
- 科学意义明确:所发掘的新基因及机制已显示出较好可验证性,为后续功能实验和机制研究指明方向;
- 未来展望广阔:为LLM在多组学因果关系推理、模型可调优与知识创新结合方面提供了理论与应用基础。
七、其他重要信息
- 数据、算法与代码均在GitHub公开(https://github.com/verylucky01/icgi);
- 收录的多组学数据样本均来自TCGA等权威公共数据库,识别效果得到了专家组学“金标准”充分校验;
- 论文也特别指出了当前LLM模型在知识时新性、不确定性量化及干预执行等方面的局限,为行业进一步优化模型和数据集成提供了基础性视角。
本研究为AI与因果推断深度融合于癌症基因识别领域提供了全面、系统的学术范式和开放工具,推动了未来生物医学智能发展的新方向。