评估大型语言模型简化医疗知情同意

分享自：
评估大型语言模型简化医疗知情同意

生物医学工程
信息科学
医学
消化系统
人工智能
期刊:npj digital medicineDOI:10.1038/s41746-026-02591-9
【点击此处】阅读全文、收藏及针对性提问
关于大型语言模型在临床医生参与下简化非英语医学知情同意书评估研究的学术报告
一、 研究作者、机构与发表信息
本研究由来自中国多家顶尖医疗机构的科研团队共同完成。主要作者包括 Jianchen Luo、Jing Ma、Yiwen Qiu、Tao Wang、Yi Yang、Guoteng Qiu、Hao Chen、Jiayuecheng Pang 以及通讯作者 Wentao Wang。作者单位涵盖了四川大学华西医院肝脏外科、四川大学华西医院心理卫生中心、四川省人民医院肝胆胰外科、西南医科大学附属医院普外科以及上海长海医院烧伤创伤与创面修复科。这项研究成果以题为《Evaluating large language models for simplifying non-English medical consent with clinician involvement》的论文形式，于2026年发表在 npj Digital Medicine 期刊上。该期刊是数字医学领域的知名期刊，这标志着该研究在医学人工智能交叉领域获得了重要认可。
二、 学术背景与研究目标
本研究属于医学信息学与临床医学的交叉领域，核心关注点是利用人工智能（AI）技术优化医患沟通，特别是提升医学知情同意书的质量。知情同意书不仅是法律文件，更是保障患者自主权和建立医患信任的关键工具。然而，现有研究普遍指出，知情同意书普遍存在文本冗长、结构混乱、医学术语过多等问题，严重影响了患者（尤其是健康素养较低的患者）的理解与信息保留。在中文语境下，正式书面语中常见的密集修饰结构和隐含逻辑关系进一步增加了普通读者的认知负担。因此，提升知情同意书的清晰度、可读性和信息传递效率，已成为改善医疗沟通的迫切需求。
近年来，以大型语言模型（LLM）为代表的人工智能技术，在医学文本生成、改写和简化方面展现出巨大潜力。已有初步研究探索使用LLM优化知情同意书的语言，在改善文本表达和可读性上显示出优势。然而，AI生成内容在语义准确性、医学信息完整性以及患者理解度方面仍存在疑虑，尤其在非英语语境下的系统性、多维度的实证评估仍然缺乏。现有研究多聚焦于通过文本简化提升可读性，较少在真实临床场景下，从文本结构、可读性指标、内容质量和外行人理解度等多个维度综合评估修订后的内容。
基于此背景，本研究旨在系统评估LLM在优化中文手术知情同意书方面的表现，并探索“人机协作”模式的价值。具体研究目标包括：1）评估LLM独立简化中文肝切除术知情同意书的效果；2）评估临床医生对LLM简化文本进行修订后，能否在保持可读性的同时提升内容质量；3）从文本结构、可读性、内容质量和外行人理解度四个关键维度，全面比较原始版本、LLM简化版本和LLM+临床医生修订版本之间的差异，为开发安全、清晰、以患者为中心的LLM辅助知情同意生成系统提供理论支持和实践见解。
三、 详细研究流程
本研究设计严谨，流程清晰，主要包括以下几个核心步骤：
1. 数据收集： 研究团队从中国九家医院收集了目前临床正在使用的、标准化的肝部分切除术中文知情同意书原件。这些医院分布在中国东部、中部和西部，涵盖不同级别和类型，增强了研究结果的代表性和普适性。所有文档均包含完整的手术目的、操作细节、潜在风险、替代治疗方案和术后注意事项等关键要素。这九份文档被随机标记为文本A至I，作为后续比较分析的基础。
2. 文本版本生成： 这是本研究的核心干预步骤，旨在创建三个对比版本。 * 原始版本： 直接从医院收集的未经任何修改的知情同意书。 * LLM简化版本： 使用ChatGPT-4o（通过公共网页界面访问），对所有原始文本进行简化。采用的标准化提示词（Prompt）为：“以下是一份用于向患者解释肝部分切除术的知情同意书。请以高中生能理解的方式重写它，同时确保保留所有关键信息。” 此提示词参考了CO-STAR框架（包含情境、目标、风格、语气、受众和响应格式），以确保任务明确且符合临床实际使用场景。通过网页界面生成简化文本，旨在模拟临床实践中低成本、易获取的真实使用场景。 * LLM+临床医生版本： 由一位经验丰富的肝胆外科医生对LLM生成的简化文本进行审阅和修订。修订遵循三大原则：恢复关键的风险相关信息、纠正不准确之处、提高术语精确性。目标是确保医学准确性和专业性，同时保留LLM输出的简化结构。
此外，为探索生成随机性（如温度参数）对文本简化的影响，研究还进行了一项探索性分析：使用API接口，在低温度（0.1）和高温度（0.9）设置下，用相同的提示词重新生成了所有九份文档的简化版本，并由两位肝胆外科医生进行了独立评估。
3. 评估维度与指标： 研究从四个维度对三个文本版本进行系统评估： * 文本结构分析： 采用八个量化指标，包括字符数、词数、句子数、平均句长（词/句）、平均词长（字符/词）、难词比例（基于HSK词汇等级1-4级）、嵌套句比例以及李-杨可读性指数。这些指标综合反映了文本的基本结构特征以及词汇和句法复杂度。 * 可读性分析： 主要使用李-杨可读性指数这一综合指标来评估中文文本的整体阅读难度。 * 内容质量评估： 采用由Decker等人提出的评估框架，包含四个维度：风险（术中术后风险描述的准确性和完整性）、获益（预期手术结果的清晰度和具体性）、替代方案（可用治疗方案的充分性）以及总体印象（内容的专业性、组织性和连贯性）。每份知情同意书由四位具有五年以上肝胆外科临床经验的医生进行独立盲评，采用5点李克特量表（1=非常差，5=优秀），取平均分作为每个维度的最终得分。 * 外行人理解度评估： 由四位志愿者（两位非肝胆外科医生和两位无医学背景的本科及以上学历公众）独立盲评。他们评估对每份文本中关键术语和核心信息的理解程度，同样使用5点李克特量表（1=完全无法理解，5=完全理解），取平均分作为最终理解度得分。
4. 统计分析： 采用多种统计方法对数据进行分析： * 描述性统计与成对比较： 计算各版本在各指标上的均值和标准差。对于符合正态分布的变量，使用配对t检验进行三组间的两两比较；否则使用Wilcoxon符号秩检验。 * 线性混合效应模型： 为控制评分者个体差异和文档间差异带来的变异，构建了线性混合效应模型。将文本版本作为固定效应，评分者和文档ID作为交叉随机截距。该模型分别对内容质量的四个维度和外行人理解度进行了建模分析，计算了β系数、95%置信区间和边际R²值。 * 预先设定主要结局： 为降低多重比较导致的I类错误风险，预先将李-杨可读性指数、总体印象得分和理解度得分设为主要结局指标，其他指标视为探索性指标。
四、 主要研究结果
研究结果系统揭示了LLM简化及临床医生修订对知情同意书各项指标的影响：
1. 文本结构与可读性结果： 与原始版本相比，LLM简化版本在结构上实现了显著简化。字符数从1722.56显著减少至1212.11，词数从1031.56减少至748.11，平均句长从24.01词/句降低至18.31词/句，难词比例从0.78降至0.66，李-杨可读性指数从28.04显著降低至22.90（指数越低表示越易读）。这些变化表明LLM有效缩短了文本长度，使用了更常见的词汇，降低了语言负担。然而，嵌套句比例从0.30略升至0.36，但未达统计学显著性，这可能与中文将多层信息压缩进复合句的语言习惯有关。 与LLM版本相比，LLM+临床医生版本在字符数和词数上有小幅但显著的回增，但可读性指数（23.37）与LLM版本无显著差异，且仍显著优于原始版本。这表明临床医生的修订在恢复必要医学内容的同时，基本维持了LLM带来的可读性提升。
2. 内容质量与外行人理解度结果： 在内容质量方面，LLM简化带来了复杂影响。风险维度得分从3.61显著下降至3.28，总体印象得分从3.53显著下降至2.86。这表明LLM在提高可读性的同时，可能遗漏或弱化了关键的医学信息，尤其是风险信息。获益和替代方案维度得分也有下降趋势，但不显著。 然而，在外行人理解度上，LLM版本带来了显著提升，平均分从2.64大幅提高至3.53。这证实了简化文本确实增强了非专业人士的理解能力。 临床医生的介入有效扭转了内容质量的下降。LLM+临床医生版本在风险维度得分恢复至3.69，总体印象得分恢复至3.64，均显著高于LLM版本，并与原始版本无显著差异。同时，外行人理解度进一步小幅提升至3.81（与LLM版本相比接近显著）。这证明了“LLM简化+临床医生修订”模式能够兼顾信息的准确性与文本的可理解性。
3. 线性混合效应模型分析结果： 该模型控制了评分者和文档的随机效应，结果与上述描述性分析一致且更为稳健： * LLM vs 原始版本： LLM版本在风险（β = -0.33）和总体印象（β = -0.67）上得分显著更低，而在理解度上显著更高（β = 0.89）。 * LLM+临床医生 vs LLM版本： 修订版本在风险（β = 0.42）、总体印象（β = 0.78）和理解度（β = 0.28）上均显著优于纯LLM版本。 * LLM+临床医生 vs 原始版本： 修订版本在内容质量的各个维度上与原始版本均无显著差异，但在理解度上显著更高（β = 1.17）。所有模型的组内相关系数均极低（<0.01），表明评分者间变异很小，结果可靠。
4. 探索性分析结果： 通过API控制温度参数的生成结果显示，在不同温度设置下，LLM均能实现文本结构简化。但专家评审发现定性差异：低温（0.1）设置下生成的文本保留了更多技术性难词；而高温（0.9）设置下则出现了更广泛的词汇替换和重新表述，伴随更大的语义变异性。这提示在实际应用中，生成参数的选择可能影响输出文本的风格和信息保留度。
五、 研究结论与价值
本研究系统评估了LLM在优化中文手术知情同意书方面的表现，并得出了明确结论：LLM能够独立有效地改善文本的可读性和外行人的理解度，但这是以牺牲部分医学信息（尤其是风险信息）的完整性为代价的。然而，引入临床医生对LLM输出进行审阅和修订，能够有效弥补这一缺陷，在恢复甚至提升内容质量的同时，保持较高的文本可读性和患者理解度。
该研究的价值体现在多个层面： * 科学价值： 首次在非英语（中文）临床语境下，对LLM简化医学知情同意书进行了多维度的系统性实证评估。研究超越了传统的可读性分析，构建了涵盖文本结构、可读性、内容质量和外行人理解度的综合评估框架，为后续相关研究提供了方法论参考。 * 应用价值： 明确提出了“LLM生成 + 临床医生审核”的人机协作范式，为临床开发安全、可靠、高效的AI辅助知情同意生成系统提供了清晰的实践路径。这有助于减轻临床医生撰写文书负担，同时生成更易懂、更准确的患者沟通材料，最终提升医疗质量和患者体验。 * 重要观点： 研究强调了在医疗AI应用中，自动化生成与专业人工监督相结合的必要性。单纯的AI简化可能带来信息失真风险，而纯人工撰写又效率低下。人机协作是实现“清晰、准确、以患者为中心”的医疗文书智能化的关键。
六、 研究亮点
研究对象的创新性与真实性： 研究基于从中国九家医院收集的真实、正在使用的临床知情同意书，极大增强了研究结果的外部效度和临床相关性。
评估框架的综合性： 首创性地将文本结构、可读性、内容质量和外行人理解度四个维度整合到一个评估体系中，提供了对LLM生成医疗文本更全面、立体的评价视角。
引入“人机协作”临床路径： 不仅评估了LLM的独立表现，更重要的是设计并验证了“LLM初步简化 + 临床专家修订”这一贴合实际工作流程的协作模式，明确了AI与人类专家的互补角色。
方法学的严谨性： 采用了线性混合效应模型来控制评分者和文档的随机效应，并使用预先设定的主要结局指标，增强了统计结论的可靠性。
关注非英语语境： 聚焦中文这一特定语言和文化背景下的医疗文书挑战，填补了该领域的研究空白，其发现对具有类似语言特点的医疗体系具有借鉴意义。
七、 其他有价值的内容
研究还坦诚地讨论了其局限性，为未来研究指明了方向： 1. 样本量较小： 仅包含9份文档，可能影响统计效能和结果的普适性。 2. 未纳入真实患者： 虽然使用了“外行人理解度”评分，但评估者并非真正的患者，未来研究需要直接让患者参与评估，以验证简化文本是否真正改善了其知情决策。 3. 提示词与生成参数的敏感性： 研究采用了固定的提示词和公开网页界面（无法控制温度等参数），未来需要系统评估不同提示策略和生成参数对输出质量的影响。 4. 病种单一： 仅针对肝切除术，未来需扩展到更多外科手术和临床场景。 5. 评估中的潜在主观偏差： 尽管评分者经过培训或具有医学背景，但主观因素可能仍对内容质量评分产生影响。
这些局限性并未削弱本研究结论的价值，反而使其发现更具启发性，并为后续更深入、更广泛的研究奠定了基础。总体而言，这项研究为人工智能在改善医患沟通、特别是优化知情同意流程方面的安全有效应用，提供了重要的实证依据和可行的实践蓝图。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问