分享自:

基于大语言模型的中医智能预问诊系统的构建与验证

期刊:journal of traditional chinese medicineDOI:10. 13288/j. 11-2166/r. 2025. 09. 005

类型a:学术研究报告

基于大语言模型的中医智能预问诊系统的构建与验证

作者及机构
本研究由刘奕清、李迎、杨洪军等来自中国中医科学院医学实验中心的研究团队主导,合作单位包括中国科学院自动化研究所、天津中科闻歌科技有限公司及中国中医科学院中医基础理论研究所。论文发表于《中医杂志》(Journal of Traditional Chinese Medicine)2025年第66卷第9期。

学术背景
中医问诊是四诊(望、闻、问、切)中至关重要的环节,但受限于个体化辨证的复杂性,问诊时间往往较长。现有中医问诊研究多依赖量表,存在术语晦涩、条目冗长等问题,而基于症状与证候关系的低层次数据分析难以模拟中医高层次语义推理。近年来,大语言模型(Large Language Model, LLM)在医疗领域的突破为智能预问诊提供了新思路,但其在中医领域的应用仍处于探索阶段。

本研究旨在基于自研的雅意大语言模型(Yayi 2-30B),构建一种能模拟中医辨证思维、支持自然语言交互的智能预问诊系统,以解决传统量表问诊的局限性,提升临床效率。

研究流程
1. 中医LLM的构建与微调
- 数据来源:整合1500本中医古籍(如《中华医典》)、现代临床病案(2000份)及行业标准数据,经清洗后形成100万条高质量数据集,涵盖症状术语(2715条)、疾病-证型关系(505条)等。
- 模型训练:采用DeepSpeed Zero-3分布式框架,在8块NVIDIA A100 GPU(80GB/卡)上对Yayi 2-30B进行微调。训练参数包括学习率5×10⁻⁶、批大小4、最大序列长度4096词元,耗时108小时/轮次。通过混合精度训练(FP16)和梯度裁剪(阈值1.0)优化稳定性。
- 评估指标:Loss函数显示训练损失收敛至0.7±0.08;BLEU-4(0.38)和ROUGE-L(0.62)表明模型语言生成质量达标。

  1. 智能体辨证推理模型开发

    • 数据处理:依据《黄帝内经》理论框架,定义症状互斥关系(如寒热对立)和相交关系(如“神疲倦怠”与“便质溏稀”),构建带权无向图网络,包含130万条症状关联数据。
    • 算法设计:通过加权计算症状优先级,动态生成问诊路径。例如,用户输入症状$v_{si}$后,系统计算疾病概率$p_i$及下一轮询问症状的偏置值$bias_i$。
  2. 系统评估

    • 专业知识测试:在中医执业医师(正确率94.09%)、症状术语识别(87.50%)等测试中,模型表现优于通用LLM DeepSeek-V2。
    • 临床验证:以360例慢性非萎缩性胃炎患者为对象,系统辨证准确率达88.33%,问诊轮次(15.08±1.09次)和时间(1.53±0.02分钟)显著优于主治医师(p<0.01)。

主要结果与逻辑关联
- 训练损失收敛证明模型泛化能力;BLEU-4/ROUGE-L评分支撑其自然语言处理可靠性。
- 辨证推理模型通过症状关系网络实现了中医逻辑的数学表达,为系统问诊路径提供理论依据。
- 临床测试中,系统在效率与准确率上的优势验证了其替代部分人工问诊的潜力。

结论与价值
本研究首次将LLM与中医辨证推理结合,构建的智能预问诊系统可高效采集症状信息,减少医生重复性工作。其科学价值在于:
1. 提出“LLM+辨证图谱”的中医智能化新范式;
2. 为中医术语标准化及知识结构化提供实践案例。
应用层面,系统可优化门诊流程,提升患者体验,尤其适用于基层医疗资源不足的场景。

研究亮点
- 方法创新:融合DeepSpeed Zero-3训练策略与中医专属辨证网络,兼顾语言生成与医疗严谨性。
- 数据规模:百万级多源数据覆盖古籍与现代医案,确保模型临床适用性。
- 临床验证:通过头对头对比试验(vs.主治医师),实证系统效能。

其他价值
研究揭示了中医智能化面临的挑战,如症状精细化不足、辨证逻辑评估标准缺失,为后续专科专病系统开发指明方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com