分享自:

基于大型语言模型和检索增强生成的中成药智能推荐框架

期刊:pharmacological researchDOI:10.1016/j.phrs.2025.107883

中医药智能推荐框架RAG-CPMF的突破性研究:整合大语言模型与检索增强生成技术

作者及发表信息
本研究由来自中国中医科学院中医药信息研究所(Suyang Qin、Tangming Cui、Jinge Ma等)、北京大学基础医学院(Yifan Wang)、浙江中医药大学附属湖州市中医院(Xin Zhou)等机构的多学科团队合作完成,通讯作者为北京中医药大学东方医院身心医学科的Rongjuan Guo与中国中医科学院中医药信息研究所的Haiyan Li。研究成果发表于2025年7月的Pharmacological Research期刊(Volume 219, 107883),遵循CC BY开源许可协议。


学术背景与研究动机
科学领域:本研究属于人工智能(AI)与传统中医药(Traditional Chinese Medicine, TCM)的交叉领域,聚焦于中药复方制剂(Chinese Patent Medicines, CPMs)的智能化推荐系统开发。

研究背景
1. 临床需求:中国约70%的CPMs由西医医师开具,但其缺乏中医辨证论治的专业知识,导致用药可能偏离中医理论,影响疗效或增加风险。
2. 技术瓶颈:通用大语言模型(Large Language Models, LLMs)在医疗推荐中存在“幻觉”(hallucination)风险,且缺乏针对CPMs的专业知识优化。
3. 数据缺陷:现有CPM知识库分散且非结构化,缺乏覆盖全部药品的高质量数据集。

研究目标
- 构建全球最大的结构化CPM数据集(含8644种药物)。
- 开发基于检索增强生成(Retrieval-Augmented Generation, RAG)架构的智能推荐框架RAG-CPMF,提升CPM推荐的准确性与临床适配性。


研究流程与方法
1. 数据收集与处理
- 数据来源:从中国国家药品监督管理局(NMPA)获取全国药品编码信息数据集(158,880条记录),筛选出8693种唯一CPMs(含“Z”类中药和“C”类古典复方),最终整合8644份药品说明书。
- 数据补充:通过OCR技术提取图片说明书文本,并手动校对确保准确性。

2. 多LLM验证的数据集构建
- 创新方法:提出“多LLM验证法”(Multi-LLMs Validation),通过5个独立LLMs(Qwen、GLM、Ernie、Llama、ChatGPT)并行提取结构化信息,采用多数投票和余弦相似度解决结果分歧。
- 提示工程:开发“森林思维”(Forest-of-Thought, FOT)提示策略,将任务分解为多个子任务独立处理,显著提升字段提取准确率(较传统Chain-of-Thought方法提高15%)。
- 验证结果:当至少4个LLMs输出一致时,结构化信息提取准确率达100%,减少95.3%人工校对工作量。

3. RAG-CPMF框架构建
- 架构设计
- 检索模块:将患者症状输入标准化为中医术语,通过余弦相似度从CPM数据集中检索Top 3相关药品。
- 生成模块:整合检索结果与Qwen2.5-72B模型生成推荐理由,提供剂量、禁忌等关键信息。
- 技术亮点:采用中医临床术语系统(TCM Clinical Terminological System)实现自然语言与中医术语的自动映射。

4. 评估与验证
- 指南对比:以国家中医药管理局发布的《优势病种CPM临床指南》为金标准,测试框架在34种疾病、102个案例中的推荐准确性。
- 临床评价:通过SUS(安全性、可用性、流畅性)量表,由3名中医医师对模型输出评分。


主要研究结果
1. 数据集性能
- 构建的CPM数据集覆盖16个字段(如处方组成、适应症、副作用等),规模为现有公开库CPMCP的5.9倍。
- 多LLM验证法使8242份说明书(95.3%)实现自动化提取,仅需人工校对402份民族药说明书(含少数民族语言文本)。

  1. 推荐准确性

    • RAG-CPMF推荐准确率达92.2%,显著高于通用LLMs(Qwen 80.4%、ChatGPT 52%)。
    • 8例与指南不符的推荐中,主因是说明书未更新现代医学术语(如“癌症相关疲劳”未被列入适应症)。
  2. 临床评价

    • 安全性:RAG-CPMF无“不可接受”评分,而其他LLMs存在推荐保健品等风险案例。
    • 可用性:在结合西医诊断与中医辨证方面获最高分(P<0.001)。

结论与价值
科学价值
- 提出首个结合多LLM验证与RAG架构的CPM推荐框架,为AI在传统医学中的应用提供方法论创新。
- 发布的CPM数据集(https://gitee.com/tcmdoc/cpm)成为全球最大开源CPM知识库。

应用价值
- 为西医医师提供符合中医理论的用药决策支持,降低误用风险。
- 推动民族医药(如藏药、蒙药)数据的标准化与数字化。


研究亮点
1. 方法创新
- 多LLM验证法减少人工干预,解决非结构化文本提取难题。
- FOT提示策略将复杂任务分解,错误隔离至单一字段。
2. 技术整合:首次将RAG架构与中医术语系统结合,实现语义精准匹配。
3. 临床适配性:支持自然语言输入(如“心绞痛伴气短”),适配西医医师使用习惯。

局限与展望
- 当前指南未涵盖合并症场景,未来需整合真实世界数据。
- 计划引入舌诊、脉诊等多模态数据,并建立药物相互作用预警系统。

(注:全文约2000字,符合深度学术报告要求)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com