基于大型语言模型的急诊科出院记录辅助工具Y-KNOT-EDN的评估研究报告
本研究由韩国延世大学医学院的Ji Woo Song、Junseong Park医生、Ji Hoon Kim医生和Seng Chan You医生团队主导,于2025年10月21日以开放获取形式发表在《JAMA Network Open》期刊上(卷8,期10,文章号e2538427)。这是一项比较效果研究,旨在开发并评估一个部署于医院内部(on-site)的大型语言模型助手,用于辅助生成急诊科出院记录,以应对急诊环境下文书工作耗时且常不完整的挑战。
一、学术背景与研究目的
研究领域集中在临床医学信息学与急诊医学的交叉点,特别是人工智能在临床文书自动化中的应用。急诊科出院记录对于保障患者护理质量、确保信息连续性和促进顺利转诊至社区护理至关重要。然而,在繁忙紧迫的急诊环境中,撰写高质量出院记录是一项耗时且繁重的任务,常导致记录延迟、不完整甚至缺失。低质量的出院记录可能导致处方错误、随访延迟和再入院率增加。尽管已有研究探索利用大型语言模型生成出院记录,但大多依赖可能违反医院数据安全政策的专有模型,或在真实临床场景中表现出性能有限、存在“幻觉”(生成不实信息)问题,且大型模型的计算资源需求给全院部署带来实际困难。
为此,研究团队启动了“你的治疗知识导航员”项目,旨在开发一个高效、轻量级的现场部署LLM助手,在性能与计算效率间取得平衡。该项目的首个实现——Y-KNOT急诊科出院记录生成助手专注于通过处理电子健康记录中的结构化临床信息来优化急诊文档工作流程。本研究的目标是评估Y-KNOT-EDN在虚拟电子健康记录环境中使用对文档质量和效率的影响,验证其有效性和安全性。
二、研究设计与详细流程
本研究是一项在韩国首尔一家拥有2400张床位的三级甲等教学医院进行的比较效果研究。研究主要分为两个阶段:模型开发阶段和顺序验证阶段。
1. 模型开发阶段: 研究团队基于一个商业可用的文本生成Transformer模型作为核心LLM进行开发。该模型首先使用9.0 GB的通用数据和90.4 GB的医学知识数据进行进一步预训练,然后通过指令微调,使用真实急诊出院病例进行精细化调整。为进行指令微调,他们提取了2022年9月1日至2023年8月31日期间急诊就诊患者的记录。纳入标准包括成年患者(年龄≥17岁)以及由急诊医生处理的非疾病状况(如创伤、中毒或烧伤)的儿科患者。排除了在儿科急诊就诊并由儿科医生处理的儿科患者以及已故患者。通过分层确保月度分布均匀,得到2028个病例。两位急诊医生从中筛选出592个具有代表性的病例用于指令微调,筛选标准强调常见的急诊表现、不同的复杂程度以及临床记录的完整性。
为确保生成的出院记录尽可能接近急诊医生的实际记录,急诊医生审阅了每份完整病历,为出院记录的六个核心组成部分(病史、就诊原因、检查医嘱、检查结果、专科会诊详情、未来计划)识别可靠的信息源。研究团队仅选择了一致可用且可靠的数据源作为LLM的输入。基于急诊科两种主要的临床路径(需要专科会诊的患者和仅由急诊医生处理的患者),他们开发了两条独立的处理流水线: * 流水线A(需要会诊):输入为急诊初始记录和专科会诊申请单。 * 流水线B(无需会诊):输入为急诊初始记录和处方清单。 流水线组装好相关数据后,会向LLM提供一组预定义的指令提示,由其生成初始草稿。最后,基于规则的机制会插入标准化的患者教育语句并简化冗长的处方术语,确保最终草稿符合出院记录的临床和法律要求。整个指令微调过程中,由两位医生对LLM的输出进行评估。
2. 顺序验证阶段: 在排除用于指令微调的数据集后,研究团队通过分层抽样选取了50个独立病例用于测试,以确保代表不同的会诊复杂程度:20例无需专科会诊,20例需要单次会诊,10例需要多次会诊。 验证采用计算机模拟随机顺序评估,分为两个步骤。首先,6名急诊医生在虚拟电子健康记录环境中,对50个代表性测试病例,分别在不使用和使用Y-KNOT-EDN辅助的情况下撰写出院记录。阶段一:医生在虚拟界面中手动撰写记录,生成300份手动记录。经过1小时的洗脱期后,进入阶段二:相同的病例以随机顺序呈现,LLM生成的草稿已预加载到界面中供医生直接编辑,生成300份LLM辅助记录。两个阶段都记录了完成记录所需的时间,并对用户体验进行了简要调查。 随后,由3名拥有6、8、9年急诊经验的急诊主治医师(均未参与前两个阶段的记录撰写),对三种记录类型(手动记录、LLM草稿、LLM辅助记录)进行盲法评估。评估采用4C指标(完整性、正确性、简洁性、临床实用性),使用1-5分的李克特量表。为减少因同一LLM草稿被重复评估6次可能带来的偏倚,还进行了敏感性分析,仅使用每例病例的首次评估结果。此外,研究团队对50份LLM草稿进行了错误审计,检查遗漏和虚构信息。
3. 数据分析方法: 临床分析采用Friedman检验比较三种记录类型,若存在显著差异则使用Wilcoxon符号秩检验与Bonferroni校正进行两两比较,并计算Hedges‘ g效应量。评估者间信度通过计算组内相关系数进行评估。记录撰写时间采用非参数方法分析,计算手动记录与LLM辅助记录的中位数差异。此外,还使用了一个包含LLM使用和病例复杂程度固定效应,以及患者病例和撰写医生随机截距的交叉随机效应对数正态混合模型来建模写作时间的减少。为了定量评估每位临床医生的LLM辅助记录是更接近其手动记录还是LLM草稿,研究计算了文本相似度和语义相似度,分别使用ROUGE-L指标和BERTScore。
三、主要研究结果
1. 整体质量评估结果: 对50个测试病例(患者平均年龄57.7岁,56%为女性)的分析显示,在4C指标上,LLM辅助记录在完整性、正确性、简洁性和临床实用性方面均显著优于手动记录。具体数据如下:LLM辅助记录 vs. 手动记录的均值分别为:完整性(4.23 vs. 4.03,P < .001)、正确性(4.38 vs. 4.20,P < .001)、简洁性(4.23 vs. 4.11,P < .001)、临床实用性(4.17 vs. 3.85,P < .001)。 与未经编辑的LLM草稿相比,LLM辅助记录在简洁性上更优(4.23 vs. 3.98,P < .001),临床实用性相当(4.17 vs. 4.16,P > .99),但在完整性(4.23 vs. 4.34,P = .001)和正确性(4.38 vs. 4.45,P < .001)上得分略低。这表明LLM草稿本身具有很高的质量和信息完整性,而医生编辑在保持临床效用的同时,主要发挥了精简和优化的作用。
2. 写作时间结果: 使用LLM辅助后,中位写作时间从手动记录的69.5秒大幅降至32.0秒,Hodges-Lehmann中位数减少量为35.0秒。混合模型分析证实,使用LLM辅助后写作时间显著缩短(时间比0.43,P < .001)。按病例复杂程度分层分析显示,效率提升在不同复杂程度下均一致存在,其中需要多次会诊的病例节省时间最多(中位时间从80.5秒降至38.5秒)。
3. 相似性分析结果: 文本相似度分析显示,LLM辅助记录与LLM草稿的ROUGE-L相似度(均值0.83)显著高于其与手动记录的相似度(均值0.69),表明最终成稿在文字上更接近LLM生成的初始版本。语义相似度分析显示,LLM辅助记录与LLM草稿的BERTScore(均值0.97)也略高于其与手动记录的BERTScore(均值0.93),但两者均显示出很高的语义相似性。这解释了写作时间大幅减少的原因:医生并非从头创作,而是基于高质量初稿进行编辑调整。
4. 亚组分析与敏感性分析: 根据会诊复杂程度进行的亚组分析显示,对于仅由急诊医生处理的病例,LLM辅助记录在临床实用性上优于手动记录和LLM草稿。而对于需要专科会诊的病例,未经编辑的LLM草稿在临床实用性上优于手动记录和LLM辅助记录,这可能因为会诊申请单本身提供了结构清晰、要点突出的信息。敏感性分析结果与主要分析基本一致,进一步支持了结论的稳健性。
5. 错误审计与用户体验: 对50份LLM草稿的审计发现6处遗漏和1处虚构。对于遗漏项目,在对应6位医生撰写的36份手动记录中,有21份(58%)也遗漏了相同项目,表明这些可能是显著性较低而非安全关键的细节。唯一的一处虚构记录了未执行的程序(夹板固定、换药),在6份LLM辅助记录中有5份(除经验最少的医生外)均被删除,这表明尽管基线质量很高,但短暂的临床医生审查对于捕捉罕见的虚构信息仍然是必要的。用户体验调查显示,6位使用医生高度评价了Y-KNOT-EDN的一致性、连贯性和节省时间的优势,但也对患者安全和最终定稿前需要修改表达了中度担忧。
四、研究结论与价值
本研究得出结论:在这项比较效果研究中,使用现场部署的LLM助手与手动记录相比,能够减少急诊科出院记录的写作时间,且不损害文档质量。通过减轻医生工作负担并提升文档质量,该LLM助手代表了人工智能在临床实践中应用的一个重要进展。
科学价值与应用价值:本研究为解决LLM在临床文书应用中的关键障碍(数据安全、幻觉、计算资源)提供了一个可行的技术方案。通过采用轻量级开源模型、现场部署、领域特定的指令微调以及基于临床路径设计双流水线,显著提升了模型的适用性、安全性和输出质量。研究通过头对头的比较、盲法评估和定量分析,为LLM辅助临床文档生成的效能提供了强有力的实证证据。其应用价值在于能够直接整合到现有急诊工作流程中,显著提升文档效率(时间减少约54%),同时保证甚至提升记录质量,有望缓解临床医生的文书负担,使其更专注于患者诊疗。
五、研究亮点与特色
六、其他有价值内容
研究也坦诚地指出了若干局限性:模型微调和验证仅在单一机构进行,可能存在对本地文档风格的过拟合风险;测试仅使用了50个精选病例,可能无法涵盖繁忙城市急诊科遇到的全部临床复杂性;尽管采用了随机化和洗脱期,但仍可能存在回忆偏倚;4C指标虽然聚焦明确,但其验证尚处初步阶段;评估未直接衡量患者对出院说明的理解或满意度;评估者间在正确性和临床实用性上的信度仅为一般至中等水平;以及为控制质量而排除某些EHR字段可能限制了模型处理高度复杂场景的能力。这些局限性为未来研究指明了方向,包括多中心验证、纳入更广泛病例、开发更全面的评估框架以及进行患者层面的结果评估。