选择并微调模型用于ICD-10-CM编码

分享自：
选择并微调模型用于ICD-10-CM编码

生物医学工程
工程学
期刊:npj digital medicineDOI:10.1038/s41746-026-02541-5
【点击此处】阅读全文、收藏及针对性提问
关于《Evaluating real-world deployment of an HL7-CDA-aligned LLM for ICD-10-CM coding》研究的学术报告
一、 研究团队与发表信息
本研究由一支来自台湾多个学术与医疗机构的跨学科团队合作完成。主要作者包括：戴弘杰（国立高雄科技大学智能系统实验室）、李政豪（同前）、吕安泰（高雄医学大学附设医院病历室）、苏旻毅（台东马偕纪念医院心脏内科）、Shain, Bo-tsz（国立高雄科技大学）、李明达（高雄医学大学附设医院病历室）、王丽莉（高雄医学大学附设医院医学人工智能创新与应用中心）、王光特（台东马偕纪念医院心脏内科）、刘沛康（高雄医学大学附设医院眼科）、Doan, Vu Thinh（国立高雄科技大学/芽庄大学）以及蔡明儒（高雄医学大学附设医院胸腔暨重症医学科）。通讯作者为戴弘杰博士与蔡明儒博士。这项研究已于2026年发表在《npj Digital Medicine》期刊上，目前处于“in press”状态（文章已接受，待正式出版）。
二、 研究学术背景
本研究属于医学信息学与临床人工智能交叉领域，聚焦于利用大型语言模型（Large Language Model， LLM）解决现实世界医疗环境中的国际疾病分类第十版临床修订本（International Classification of Diseases, Tenth Revision, Clinical Modification， ICD-10-CM）编码自动化难题。ICD-10-CM编码是医院运营、账单结算和流行病学监测的基础，但人工编码耗时费力且易出错。尽管早期基于深度学习的自动编码方法取得进展，但多数研究依赖于ICD-9数据集或缺乏真实世界临床文档的结构化信息。近年来，LLM为医疗代码生成提供了新机遇，但其在真实临床工作流中的部署面临诸多挑战：模型可能产生无效代码（幻觉）、对ICD分类体系理解不足、与临床上下文对齐不佳，且其实际性能、工作流整合及用户接受度鲜有在真实医院环境中得到系统评估。
与此同时，HL7临床文档架构（Clinical Document Architecture， CDA）标准的普及使得电子病历能够被分割为结构化的章节（如出院诊断、病史、手术记录），这为基于结构的AI建模提供了可能，但相关研究尚不充分。此外，临床文档存在高度冗余，可能影响模型训练效果；而预训练基础模型的选择繁多，在资源有限的医院IT环境中进行穷举式微调不切实际。
因此，本研究旨在开发并评估一个模块化、基于临床的ICD-10-CM自动编码流程，并探究其在真实世界部署中的效果。具体研究目标包括：1）开发一个结合了原则性基础模型选择、冗余感知训练和HL7-CDA对齐章节提示的流程；2）通过随机对照试验（Randomized Controlled Trial， RCT）评估AI辅助工作流对编码效率（研究问题RQ1）和编码专家满意度（研究问题RQ2）的影响。
三、 研究详细工作流程
本研究工作流程是一个系统性的模块化管道，主要包括数据准备、模型选择与优化、模型评估以及临床部署试验四大阶段，具体如下：
第一阶段：数据收集与预处理 研究团队从台湾两家医院（高雄医学大学附设中和纪念医院， KMUH；台东马偕纪念医院， TMMH）收集了符合HL7-CDA R2标准的匿名出院摘要数据集。主要开发数据集来自KMUH（2019年4月至2021年3月），包含125,820条记录，涉及11,991个独特的ICD-10-CM代码。通过与认证编码专家（Certified Coding Specialists， CCSs）协商，确定了五个对编码最关键的结构化章节：出院诊断（Dischgdiag）、病史（Medhist）、手术记录（Opnote）、病理报告（Pathrep）和治疗过程（Treatcous）。数据经过清洗、去重后，按8:1:1的比例进行分层分割，形成训练集（100,656）、验证集（12,582）和内部测试集（12,582）。为应对LLM的输入长度限制（2048个标记），采用了基于CCSs推荐的章节优先级进行截断的策略。此外，研究创新性地应用了冗余感知采样策略：使用句子嵌入和近似最近邻搜索技术，识别并移除了那些ICD代码相同且语义高度相似（相似度阈值τ=0.9）的冗余记录，仅保留语言复杂度更高或更长的样本，以提高训练效率和模型泛化能力。
第二阶段：原则性基础模型选择 为避免对众多候选模型进行昂贵的全量微调，研究提出了一种基于内在评估的筛选方法。研究选取了5个参数量在70亿以下的仅解码器LLM作为候选：PubMedGPT-2、Llama2-7B、Mistral-7B Instruct及其生物医学领域适配变体MedLlama2和BioMistral-7B。评估任务不是直接编码，而是让每个模型为训练集中出现频率最高的50个ICD-10-CM代码生成临床定义。随后，使用一个轻量级LLM（Atla Selene Mini）作为“法官”，对这些模型生成的成对定义进行两两比较，判断哪个更符合语义忠实度和临床适当性。比较结果形成一个有向图（包含平局）。最后，采用Plackett-Luce模型对这些不完全的成对比较结果进行聚合，推断出全局偏好排序。该方法作为一种低成本的启发式方法，旨在筛选出与ICD-10-CM定义语义对齐度最高的基础模型，以供后续微调。
第三阶段：章节感知的指令微调与模型训练 将筛选出的最佳基础模型用于下游ICD-10-CM编码任务的监督微调。研究采用了章节感知的指令提示模板，将HL7-CDA章节（如### Dischgdiag:）及其内容明确结构化地输入模型，引导模型区分不同部分的临床信息。研究训练了两种类型的模型：1）通用模型：使用统一的提示模板，对于缺失的章节用“nil”标记，使其能灵活处理各种章节组合的文档；2）章节组合特定模型：针对固定的章节组合（如仅Dischgdiag， Dischgdiag+Medhist等）分别训练专用模型。此外，为了对比，研究还训练了多种基线模型，包括传统的深度学习模型（如BiGRU, HAN）和编码器模型（如BERT, PLM-ICD），所有模型均在相同的数据分割和实验设置下进行训练与评估，以确保公平比较。
第四阶段：真实世界部署与人类参与式随机对照试验 为评估AI辅助工作流的实际效果，研究在KMUH进行了一项为期13周的前瞻性、人类参与式（human-in-the-loop）试点RCT。10名CCSs参与其中。试验采用每周轮换的随机化方案，将CCSs分配到四种工作流之一：无AI辅助（手动编码，对照组）或三种AI辅助工作流（分别使用HAN、PubMedGPT-2和BioMistral模型）。AI辅助界面集成到现有编码系统中，当CCS处理病历时，模型会推荐ICD-10-CM代码，由CCS进行审核、修改并最终确认。研究自动记录每份摘要的编码时间（从激活界面到保存），并随机触发5点李克特量表满意度调查。工作流级别的采用率（使用AI辅助编码的病历比例）也被跟踪记录。试验后期因全台ICD-10-CM版本升级而提前终止，导致模型暴露未完全平衡。
数据分析工作流：对于模型性能，采用精确率（Precision）、召回率（Recall）和F1分数进行评估，并在内部测试集和两个外部数据集（KMUH RCT期间收集的前瞻性数据、TMMH的回顾性数据）上进行测试。对于RCT数据，使用Welch’s ANOVA和Games-Howell事后检验比较不同工作流间的平均编码时间差异。使用多项逻辑回归分析模型类型和CCS背景特征（如经验年资、认证等级、教育背景、代际 cohort）对满意度的影响。
四、 主要研究结果
1. 模型选择与性能结果： * 内在评估结果：Plackett-Luce模型聚合结果显示，BioMistral获得最高的选择概率（44.1%），其次是MedLlama2（22.6%）和Mistral（19.2%），表明BioMistral在ICD-10-CM定义生成任务上表现最佳，因此被选为下游微调的基础模型。 * 下游编码性能：微调后的模型性能排序与内在评估排名一致，验证了该筛选方法的实用性。在内部测试集上，解码器基LLM（尤其是BioMistral）在完整代码和Top-50代码预测任务上均优于传统的深度学习和编码器基线模型。BioMistral在完整代码上取得了最高的F1分数（0.780）。 * 冗余感知采样的效果：使用去重数据集训练的BioMistral模型，相比使用全数据集训练的基线模型，在性能上（F1分数从0.780提升至0.786）和训练效率上（训练时间减少10.2%）均有提升。 * 章节内容的影响：包含更多HL7-CDA章节能普遍提升模型性能，其中病史（Medhist）章节贡献最大。通用模型在处理异构文档结构时表现出比章节组合特定模型更好的鲁棒性。结合所有章节后，BioMistral的F1分数进一步提升至0.798。 * 跨机构泛化能力：在外部数据集（TMMH）上，所有模型性能均有所下降，这反映了机构间文档惯例和代码分布的差异。然而，解码器基LLM（特别是BioMistral）表现出更强的稳健性，性能下降幅度远小于非解码器架构，展示了其在真实世界异构环境下的实用潜力。
2. 随机对照试验（RCT）结果： * 编码效率（RQ1）：所有三种AI辅助工作流均显著降低了平均编码时间（p < 0.001）。PubMedGPT-2带来的时间减少最多，其次是BioMistral和HAN。这证实了假设H1，即AI辅助能提升工作效率。 * 用户满意度与接受度（RQ2）：在收集的1947份有效满意度反馈中，满意度因模型类型和CCS背景特征而异。 * 模型类型影响（H2a）：BioMistral获得了最高比例的正面评价，其次是PubMedGPT-2和HAN。多项逻辑回归分析表明，与BioMistral相比，使用HAN和PubMedGPT-2的工作流获得“满意”或“中性”评级的几率显著更低。这与模型的技术性能排名一致，表明领域专业化模型能带来更高的用户接受度。 * 编码专家背景影响（H2b）：分析揭示了复杂的模式。与预期不同，经验少于10年的初级CCS比经验超过25年的资深CCS满意度更低。持有高级认证的CCS满意度更高。具有医疗相关学术背景的CCS比具有医疗管理背景的CCS满意度更低。在代际方面，Gen Y（千禧一代）的满意度最低，而Gen X和Gen Z的满意度更高，呈现U型模式。这些发现挑战了“数字原生代更易接受技术”的简单假设，提示满意度与专业经验、角色安全感及AI建议与既有工作流的契合度密切相关。 * 工作流采纳率：在部门领导支持、IT协作和用户培训的推动下，AI辅助工作流的采用率从10月的37.26%稳步上升至12月的90.59%，表明其能成功整合到日常临床工作流程中。
五、 研究结论与价值
本研究成功开发并验证了一个模块化、基于HL7-CDA的LLM驱动流程，用于真实世界的ICD-10-CM自动编码。研究得出结论：成功的AI采纳是一个多层级的过程，涵盖文档基础设施（HL7-CDA标准化）、工作流级采纳（整合与使用率）和用户级接受度（满意度与信任）。仅凭模型精度不足以确保实际影响。
其科学价值在于：1）提出了一个结合原则性模型选择、冗余感知训练和结构化章节提示的可扩展框架；2）通过人类参与式RCT，提供了关于AI辅助临床工作流效率提升和用户接受度影响因素的实证证据；3）强调了在评估临床AI时，需同时考虑算法性能、工作流契合度及人为因素。
其应用价值显著：该流程能显著减轻编码专家负担，提升医院编码操作的效率与可扩展性。研究证明，经过方法论奠基、结构信息化的LLM系统能够在临床文档工作流中实现稳健、公平且具有操作意义的性能。
六、 研究亮点
创新性的模块化流程：研究设计了一个从数据准备、模型选择、训练到部署的完整、可复现的管道，特别是引入了基于LLM-as-Judge和Plackett-Luce模型的原则性基础模型筛选方法，为资源受限环境下的模型选择提供了实用启发。
紧密结合真实世界临床环境：研究未使用公开基准数据集，而是基于两家真实医院的HL7-CDA结构化病历，并进行了跨机构验证，极大提升了研究的生态效度和外部有效性。
深入探究“采纳”的多维度性：研究超越了传统的模型性能评估，通过前瞻性RCT，同时测量了工作流效率（时间）和用户中心结果（满意度），并深入分析了不同背景编码专家的接受度差异，为AI在临床中的成功整合提供了关键见解。
对冗余和文档结构的系统性处理：提出的冗余感知采样策略和章节感知提示方法，有效提升了模型训练效率和泛化能力，并揭示了不同临床章节对编码任务的信息贡献度。
揭示了用户接受的复杂性：研究发现用户满意度并非与年龄或技术熟悉度简单线性相关，而是受到专业经验、认证水平、教育背景和代际因素的复杂交互影响，这对未来设计以人为本的AI系统具有重要指导意义。
七、 其他有价值内容
研究还讨论了局限性：LLM-as-Judge评估可能存在固有偏差；模型在遇到训练语料库中未出现的新代码（如COVID-19相关代码Z86.16）时会失败，反映了标签覆盖的局限性；跨机构错误部分源于文档惯例差异（如诊断信息在不同章节的分布）；RCT的周轮换设计可能引入时间混杂因素；以及现实世界部署会受到外部政策变化（如ICD版本更新）的干扰。这些讨论为未来研究指明了方向，包括需要持续词汇扩展、机构感知校准、后部署监控以及更健壮的试验设计。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问