知识图辅助的端到端医疗对话生成

分享自：
知识图辅助的端到端医疗对话生成

人工智能
信息科学
生物医学工程
计算机科学
医学
期刊:Artificial Intelligence in MedicineDOI:10.1016/j.artmed.2023.102535
【点击此处】阅读全文、收藏及针对性提问
本文旨在介绍Deeksha Varshney、Aizan Zafar、Niranshu Kumar Behera和Asif Ekbal（来自印度理工学院巴特那分校）于2023年在期刊 *Artificial Intelligence in Medicine*（第139卷，文章号102535，2023年3月在线发表）上发表的一篇原创性研究论文《Knowledge Graph Assisted End-to-End Medical Dialog Generation》。
一、 研究背景与动机 本研究隶属于医学人工智能领域，具体聚焦于自然语言处理中的对话系统生成技术。随着远程医疗和电子医疗的普及，智能医疗对话系统展现出巨大的潜力，它们可以扮演“虚拟医生”的角色，协助扩大医疗服务可及性、提升患者治疗质量并降低医疗成本。然而，现有的通用生成式对话模型在应用于医学领域时面临两大核心挑战：第一，它们倾向于产生通用、模糊、缺乏信息量的回复，导致对话单调且不具针对性；第二，这些模型缺乏必要的医学领域知识，难以生成在临床层面准确、可靠的医学对话内容。
因此，研究团队的目标是开发一种能够理解和生成高质量、事实准确的医学对话的端到端模型。他们提出，将大规模的外部医学知识（以知识图谱形式）与强大的预训练语言模型相结合，是解决上述问题的关键路径。本研究旨在验证这种结合方式的有效性，并推动医疗对话生成技术的发展。
二、 研究流程与方法论 本研究的核心是提出一个名为MedKGConv（Medical Knowledge-Grounded Conversation）的医疗知识感知神经对话模型。整个研究流程主要包含以下几个阶段：
第一阶段：数据处理与知识图谱构建 本研究使用了两个主要的数据集。第一个是MedDialog-EN数据集，这是一个大规模的英语医患对话语料库，包含约26万次咨询，涉及51种疾病和96个专科。第二个是研究团队自行扩展的Ext-CovidDialog数据集，他们在原始的CovidDialog数据集基础上，增加了与COVID-19症状（如发烧、咳嗽等）相关的对话，最终形成了一个包含约10,000次咨询的数据集。这些数据被划分为标准的训练集、验证集和测试集。
核心创新点在于将对话文本与外部医学知识库（Unified Medical Language System, UMLS）进行链接。研究团队使用QuickUMLS工具，从对话的每个词中提取相关的生物医学概念（如疾病、症状、实验室测试），并赋予其UMLS概念唯一标识符（CUI）。随后，利用UMLS的语义网络来确定这些概念之间的关系（如“关联”、“影响”、“部分属于”），为每个概念构建一个包含相关三元组（头实体、关系、尾实体）的知识图谱。例如，从句子“我患有咳嗽、喉咙感染”中，可以提取出“喉咙感染”和“咳嗽”等概念，并形成如（‘喉咙感染’, ‘associated with’, ‘咳嗽’）的知识三元组。
第二阶段：模型架构设计 MedKGConv模型采用了基于预训练模型BioBERT的编码器-解码器框架，并嵌入了专门设计的知识推理模块。 1. 编码器：输入是拼接了历史对话的序列。模型使用BioBERT作为编码器，将输入序列转化为上下文感知的隐藏状态向量。BioBERT本身是在大规模生物医学文本上预训练的，其词汇和语义空间更贴合医学领域。 2. 知识图谱推理模块：这是模型的核心创新部分。该模块接收编码器输出的上下文表示以及为当前对话构建的知识图谱三元组。首先，它使用预训练的BioWordVec词向量对三元组（头实体、关系、尾实体）进行初始化，并通过一个多层感知机（MLP）将三者融合为统一的“实体嵌入”表示。接着，提出了一个名为MedFact Attention的机制，这是一个基于多头注意力（Multi-Head Attention）的网络。该机制在对话上下文表示和知识三元组嵌入之间进行注意力计算，旨在识别出与当前对话语境最相关的医学知识实体。这个过程就像一个“资源调节器”，筛选并注入关键的医学事实信息，从而增强了模型对对话语义的理解能力。最终，通过一个前馈网络（FFN）生成富含医学知识的增强表示。 3. 解码器与门控生成机制：解码器同样基于BioBERT，用于自回归地生成回复词序列。为了灵活地从不同来源生成词汇，模型采用了一个双重门控机制。第一个门控用于决定一个词是从通用词汇表中生成，还是从对话历史中复制；第二个门控则用于进一步决定是依赖知识图谱推理模块的输出，还是依赖第一个门控的结果。这种机制确保了模型能够动态地结合领域知识和对话上下文，生成信息量更丰富、更准确的回复。 4. 训练策略：模型采用联合损失函数进行训练，包括标准的交叉熵损失和基于强化学习的自临界序列训练（Self-Critical Sequence Training, SCST）损失。SCST旨在通过优化离散评价指标（如BLEU和实体F1分数）的期望奖励，来缓解仅用交叉熵训练可能导致的“曝光偏差”问题，从而进一步提升生成质量。
第三阶段：实验与评估 为了验证MedKGConv的有效性，研究团队进行了全面的实验。 1. 基线模型：他们选择了多个强大的基线模型进行对比，包括传统知识对话模型（如CCM， ConKADI），通用预训练对话模型（DialogGPT-finetune），以及基于不同预训练架构的模型（BERT， BART， BioBERT）。这确保了比较的公平性和全面性。 2. 评价指标：评估分为自动评价和人工评价两部分。 * 自动评价：使用困惑度（PPL，越低越好）、BLEU-4分数（评估词重叠度）和F1分数（评估生成内容的流畅性和信息量）。此外，还使用了基于词向量的语义相似度指标（如Embedding Average， Greedy Matching）来评估生成回复的语义质量。 * 人工评价：邀请具有科学和语言学背景的评估者，对模型生成回复的流畅性、充分性（是否切题）和实体相关性（是否包含正确的医学实体）进行1-5分的打分。同时，还咨询了医学专家以验证生成回复的医学准确性。
三、 主要研究结果 实验结果表明，MedKGConv模型在两个数据集上的表现均显著优于所有基线模型。
在自动评价方面，在MedDialog-EN数据集上，MedKGConv相比最强的BioBERT基线，将F1分数提升了约3.3%（从20.8%到21.5%），BLEU-4分数提升了约6.3%（从0.048到0.051），同时获得了更低的困惑度（从21.47降至20.77）。在Ext-CovidDialog数据集上也观察到了类似的性能提升。所有嵌入语义指标也显示MedKGConv生成的回复在语义上更接近真实医生回复。使用SCST训练策略的模型变体（MedKGConv+SCST）进一步提升了实体相关的F1分数，这验证了强化学习策略在优化特定目标上的有效性。
在人工评价方面，MedKGConv在流畅性、充分性和实体相关性三个维度上均获得了最高分，显著优于BERT、BART和BioBERT基线模型。例如，在MedDialog数据集上，其流畅性得分达到3.46，而BioBERT为2.82。这直接证明了融合医学知识后，模型生成的回复不仅更准确，而且语言更自然、更贴合实际医疗咨询场景。
对结果的深入分析（包括案例分析）显示，基线模型（如BioBERT）有时会产生通用回复（如“感谢您的咨询，我理解您的担忧”），或遗漏关键的医学实体。而MedKGConv则能有效利用知识图谱中的三元组（如将“发烧”与“多喝水”关联），生成包含具体医学建议、诊断说明或治疗方案的回复，例如“这很可能是由于皮肤干燥引起的。请每晚涂抹药膏，持续5天”。这清晰地表明，外部医学知识的注入极大地改善了生成回复的临床相关性和信息量。
四、 研究结论与价值 本研究成功开发并验证了MedKGConv模型，证明了将大规模医学知识图谱与领域预训练语言模型相结合，能够显著提升端到端医疗对话生成系统的性能。模型通过MedFact Attention机制对知识进行有效推理和筛选，并通过门控机制灵活融合知识、上下文和词汇信息，最终生成在临床层面更准确、信息更丰富、语言更自然的医患对话回复。
本研究的科学价值在于提出了一套完整的、可复现的知识增强型医疗对话生成方法论，为自然语言处理与医学信息学的交叉研究提供了新的思路和强大的基线模型。其应用价值则直接体现在智能医疗助手、远程医疗咨询平台、医学教育工具等领域，有助于缓解医疗资源紧张、提升医疗服务效率和质量。此外，团队构建并公开的Ext-CovidDialog数据集，也为COVID-19及相关症状的对话生成研究提供了宝贵的资源。
五、 研究亮点与创新 本研究的亮点和创新之处主要体现在以下几个方面： 1. 首个在MedDialog-EN数据集上结合大规模医学知识图谱的尝试：据作者所知，这是首次在如此大规模的英语医疗对话数据集上系统地探索和验证知识图谱辅助生成的有效性。 2. 新颖的MedFact Attention机制：该机制能够对知识图谱中的三元组进行注意力计算，从而理解实体间的语义关联，并将这些关联信息注入到对话上下文中，实现了更深层次的语义理解和知识利用。 3. 提出了扩展的COVID-19对话数据集（Ext-CovidDialog）：通过关联COVID-19及其症状的对话，创建了一个更丰富、更具针对性的数据集，促进了疫情相关对话生成的研究，并展示了迁移学习的有效性。 4. 综合且严谨的评估体系：研究不仅采用了全面的自动评价指标，还进行了详细的人工评价和案例分析，从多个维度令人信服地证明了模型优势。统计显著性检验进一步巩固了结论的可靠性。 5. 端到端的可训练框架：整个模型是一个端到端的神经网络，知识整合过程是模型自身学习的一部分，而非依赖于分离的、复杂的流水线系统，这更便于优化和部署。
六、 其他 研究团队遵循了学术伦理规范，使用了公开数据集，并对其进行了合乎规范的扩展。他们已公开了模型代码，便于其他研究者复现和进一步研究。作者在文中也指出了模型的局限性，例如仍有约2%的案例会产生通用回复，约10%的案例存在非流利问题，以及约20%的案例可能预测出无关的医学实体。这些为未来的研究指明了改进方向，例如引入常识知识、对对话进行更细粒度的标注（如症状、疾病、检查类别）等。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问