9.基于小语言模型隐含偏好与强化学习的可解释中医处方推荐方法

分享自：
9.基于小语言模型隐含偏好与强化学习的可解释中医处方推荐方法

人工智能
中医学与中药学
信息科学
医学
计算机科学
期刊:chinese medicineDOI:10.1186/s13020-025-01250-7
【点击此处】阅读全文、收藏及针对性提问
基于小语言模型隐式偏好强化学习的可解释中医处方推荐新方法本研究由来自南京中医药大学、江苏省中医院等机构的王新宇（Xinyu Wang）、孙小荷（Xiaohe Sun）、杨磊（Lei Yang）、张伊彤（Yitong Zhang）、杨涛（Tao Yang，通讯作者）、谢佳东（Jiadong Xie，通讯作者）和胡孔法（Kongfa Hu，通讯作者）共同完成，于2025年在期刊*Chinese Medicine*上发表。
一、 学术背景
本研究的核心科学领域是人工智能（AI）与中医（Traditional Chinese Medicine, TCM）的交叉应用，具体聚焦于利用大语言模型（Large Language Model, LLM）开发智能、可解释的中医处方推荐系统。
中医处方推荐的核心是“辨证论治”，强调根据患者在不同病程阶段的证候进行个体化的处方和治疗调整。虽然历代积累了丰富的医案记录，但中医理论的高度抽象性和治疗的个体化特点，使得从海量、异构的临床数据中提取既符合中医原理又具有可解释性的处方推荐逻辑，一直是一项关键挑战。近年来，以GPT-4o、Qwen2.5等为代表的大语言模型在自然语言理解和生成任务上表现卓越，并通过预训练、监督微调（Supervised Fine-Tuning, SFT）、强化学习（Reinforcement Learning, RL）等技术展现出强大的领域适应能力。其在上下文建模和思维链（Chain-of-Thought, CoT）推理方面的潜力，为中医领域的知识问答、诊断推理和处方推荐等任务带来了希望。
尽管已有如Lingdan、TCM-LLM-PR、Shennong-TCM、HuatuoGPT-O1等针对中医任务定制的大模型，它们仍面临显著局限：1) 结构化知识与可解释推理的整合存在缺陷，模型难以生成具备完整、可追溯逻辑链的处方，限制了推荐结果的可信度；2) 监督训练目标单一，模型仅拟合现有数据，缺乏对生成“高质量处方”的明确引导；3) 针对中医诊断任务的强化学习策略缺乏清晰且稳定的奖励机制，导致模型临床性能提升不可靠。
为了应对这些挑战，本研究提出了一种创新的两阶段训练框架，旨在同时提升中医处方推荐的可解释性和准确性。该框架的核心思想是：首先通过知识蒸馏（Knowledge Distillation）从大教师模型中获取高质量、带推理步骤的监督数据，以训练学生模型生成可解释的处方推荐；随后，利用一个小型轻量级模型的输出作为“隐式偏好”信号，通过直接偏好优化（Direct Preference Optimization, DPO）进行强化学习微调，引导大模型输出更优的处方。
二、 研究流程详述
本研究包含两个核心阶段：基于思维链知识蒸馏的监督微调，以及基于轻量模型隐式偏好的强化学习优化。总体流程可细分为以下步骤：
第一阶段：基于知识蒸馏与监督微调的可解释模型构建
高质量监督数据生成：
研究主体与方法：研究采用GPT-4o作为“教师”模型。研究团队设计了结构化的指令模板，引导GPT-4o对来自江苏省中医院、南京国医堂诊所等权威机构的约3700份高质量、去重、信息完整的首次就诊中医临床病历进行标准化解析。
数据处理与实验：通过少样本提示（few-shot prompting）技术，要求GPT-4o按照“症状分析→处方推荐→处方解释”的三段式逻辑链格式生成输出。例如，提示词中包含：“请严格遵循基于病例的格式，提供潜在的推理过程，包括三个部分：患者症状分析（从症状中得出中医诊断）、推荐处方（仅列出处方，不说明治疗效果，处方名称保持不变）以及处方解释。”此举旨在将抽象的病历信息转化为富含中医辨证论治思想的、结构化、可学习的数据样本。
质量控制：为确保数据质量，引入了专家审核机制。具有中医临床背景的专业人员对教师模型的输出进行系统性评估，检查辨证逻辑和药效匹配的合理性，剔除存在明显错误的实例并重新分析，从而保证训练数据集的准确性。
学生模型监督微调：
研究对象：选择Qwen2.5-7B作为基础“学生”模型。该模型基于仅解码器Transformer架构，在中文理解与生成任务上表现出色，其约18万亿token的多语言预训练语料适合处理中医文本。
方法与实验：研究采用低秩适应（Low-Rank Adaptation, LoRA）技术对Qwen2.5-7B进行监督微调。LoRA通过向选定层（本研究为最后两个隐藏层，并作用于q_proj, v_proj, o_proj模块）注入可训练的低秩矩阵，以极少的参数量更新实现有效的领域适应。具体配置包括：学习率0.00005，秩为8，缩放因子α为16，训练50个epoch。这一过程使学生模型能够有效内化从GPT-4o蒸馏出的诊断推理逻辑和临床知识，从而获得生成结构化输出（症状分析、处方推荐、解释）的能力。
第二阶段：基于BART模型隐式偏好与DPO的强化学习优化
隐式偏好数据构建：
偏好来源模型：研究训练了一个轻量级的BART（Bidirectional and Auto-Regressive Transformers）模型，作为“隐式偏好”的提供者。BART-large模型参数量约4.06亿，远小于LLM，但其编码器-解码器架构使其在序列到序列任务上表现高效。该模型在“症状-处方”配对数据上进行完全微调，专注于学习精确的映射关系，其生成的处方具有较高的准确性。
数据增强与候选生成：首先，利用GPT-4o对训练集中的患者症状描述进行增强，为每条原始症状生成四个语义多样的变体，以丰富对齐数据的多样性。然后，将增强后的症状输入第一阶段得到的知识蒸馏模型，在不同的解码温度（如0.70和0.95）下生成多个候选处方。
偏好对生成：将知识蒸馏模型生成的候选处方与BART模型针对相同输入生成的“参考处方”进行比较。通过计算每个候选处方与参考处方之间的F1分数作为相似度度量，根据相对质量构建“被选中的”（chosen）和“被拒绝的”（rejected）输出对，最终形成一个格式为“指令-输入-（被选中回答，被拒绝回答）”的偏好数据集，共包含11,664个偏好对。
基于DPO的强化学习微调：
方法与算法：研究采用直接偏好优化（DPO）算法对经过知识蒸馏的Qwen2.5-7B模型进行进一步的强化微调。DPO的核心优势在于无需训练额外的奖励模型或进行复杂的策略采样，它直接基于偏好对优化模型参数，简化了训练流程并增强了稳定性。其损失函数旨在增大模型生成偏好回答的概率，同时降低生成非偏好回答的概率，其中超参数β控制偏好信号的强度（本研究通过实验确定β=0.5时效果最佳）。
实验设置：在强化学习阶段，使用构建好的偏好数据集对模型进行1个epoch的微调，批次大小为2。
三、 主要研究结果
研究结果通过多个维度与广泛基线模型进行了系统比较，验证了所提方法的有效性。
整体性能对比：在与包括Huatuo-O1:7B、Lingdan-PR、GPT-4o、DeepSeek-V3、QwQ等众多开源中医模型和通用大模型的对比中，本研究提出的最终模型（KD+DPO）在P@k、R@k和F1@k等推荐精度指标上全面显著优于所有基线。例如，在F1@30指标上达到37.36%，比表现最佳的基线模型QwQ（12.94%）高出近24个百分点，充分证明了该两阶段框架在提升处方推荐准确性方面的强大能力。
知识蒸馏（KD）的效果验证：
与直接训练（DT）对比：在相同数据集上，比较了知识蒸馏模型、直接训练模型和原始Qwen2.5-7B基线的性能。结果显示，KD和DT模型均显著优于基线，证实了从临床数据中学习的有效性。在截断阈值较大时（如@30），KD模型表现优于或与DT模型相当，且统计检验显示无显著差异，表明KD没有损害模型的学习能力。更重要的是，KD模型在外部跨机构数据集（919份未见过的病历）上的F1@30（11.41%）显著优于DT模型（10.26%），配对t检验p值小于0.001。这证明通过GPT-4o生成的思维链样本，使学生模型不仅学习了表层的药-症匹配，更内化了可泛化的中医诊断推理模式，从而获得了更强的泛化能力。
文本生成质量：从自然语言生成角度评估，KD模型在BLEU-4和ROUGE-1指标上表现更佳，表明其输出与参考文本的词汇重叠度和句法一致性更高，语言更自然连贯，这得益于教师模型高质量样本的引导。
基于BART隐式偏好与DPO强化的效果分析：
BART作为偏好源的优越性：实验证实，微调后的BART模型在纯粹的处方匹配精度指标（如F1@30达44.61%）上超越了包括KD模型在内的所有大模型，证明了其作为高效“症状-处方”映射器的能力。这为其作为可靠“隐式偏好”信号源提供了坚实基础。
DPO带来的性能提升：最终的KD+DPO模型相较于单独的KD模型，在P@30、R@30和F1@30上分别提升了约1.58%、2.51%和2.01%，且配对t检验显示R@30和F1@30的提升具有统计显著性（p<0.001）。这表明，利用BART模型输出作为隐式偏好指导DPO训练，能够有效引导大模型生成更接近高质量参考处方的输出，从而进一步提升推荐精度。
参数与数据规模分析：对DPO中超参数β和偏好数据规模的消融实验表明，β=0.5时模型在偏好对齐与泛化间取得最佳平衡；使用100%的偏好数据集（即经过四倍增强的数据）能带来最佳性能，且与使用25%数据相比，在R@30和F1@30上的提升具有统计显著性，说明了较大规模偏好数据的重要性。
处方排序策略对比：研究比较了基于“君臣佐使”（SMAC）理论排序和基于全局草药频率排序两种方式。实验发现，在小截断范围（如@5, @10）内，频率排序法因其能捕获高频草药模式而表现更优；但在@30深度时，两种方法无显著统计差异。考虑到SMAC排序依赖GPT-4o分析可能存在不稳定性且未必完全反映真实医师逻辑，研究最终采用了更稳定、自动化的频率排序策略。
案例研究与专家评估：
案例研究：通过具体临床案例展示了模型输出。KD和KD+DPO模型均能生成包含“症状分析-推荐处方-处方解释”的完整、结构化输出，展现了良好的可解释性，且KD+DPO模型的处方推荐准确性更高。而BART和直接训练模型仅输出处方序列，缺乏解释。
专家评估：邀请两位中医专家对模型输出的20个随机案例进行评估。评分结果显示平均分为3.75（满分5），多数评分为4，表明专家对模型持积极肯定态度。错误分析显示，主要错误类型包括“诊断分析错误”、“关键草药缺失”和“草药冗余”，为模型后续改进指明了方向。
四、 结论与意义
本研究得出结论：所提出的集成知识蒸馏与基于轻量模型隐式偏好驱动强化学习的两阶段训练框架，不仅显著提升了中医处方推荐的质量和透明度，也为构建可信赖且具有临床适用性的中医智能决策支持系统提供了一条富有成效的策略。
科学价值与应用价值： 1. 方法论创新：提出了“知识蒸馏构建可解释性 + 小模型隐式偏好引导强化学习”的协同框架，为解决LLM在专业领域（尤其是数据标注稀缺领域）中面临的解释性不足和高质量偏好数据缺乏的双重挑战，提供了一个新颖且有效的解决方案。 2. 技术贡献：首次将DPO算法系统性地引入中医处方建模任务，简化了强化学习流程，并验证了利用轻量级专业模型输出作为隐式偏好信号来指导大模型优化的可行性，这避免了在大规模人工标注偏好数据上的高昂成本。 3. 应用前景：最终模型在保持良好可解释性的同时，实现了处方推荐准确性的显著提升，使其更接近临床实用化的要求。这有助于推动中医诊疗过程的智能化、标准化，辅助医师进行临床决策，并可能用于中医教学和传承。
五、 研究亮点
可解释性与准确性的双重提升：通过思维链知识蒸馏确保模型输出具备符合中医逻辑的推理过程，同时通过基于隐式偏好的强化学习持续优化推荐结果，实现了“既看得懂，又推得准”的目标。
巧妙的隐式偏好获取机制：创造性地利用轻量级BART模型作为高质量处方的“代理”，克服了中医领域缺乏大规模人类标注偏好数据的瓶颈，为数据稀缺领域的强化学习应用提供了新思路。
高效的训练框架：结合LoRA微调和DPO强化学习，在有限的计算资源下实现了对大模型的有效领域适配和性能优化，框架具有较好的实用性和可推广性。
严格的实验验证：不仅与多种前沿模型进行了横向对比，还通过消融实验、跨机构泛化测试、案例分析和专家评估等多维度验证了各组件（知识蒸馏、DPO、BART偏好）的有效性和模型的综合性能，研究设计严谨、论证充分。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问