分享自:

TRIPOD-LLM:用于大型语言模型研究的透明报告指南

期刊:nature medicineDOI:10.1038/s41591-024-03425-5

TRIPOD-LLM共识声明:为医疗健康领域大语言模型研究制定报告规范

引言

随着大型语言模型在医疗健康领域的快速应用,为确保研究的透明度、可重复性和临床应用价值,亟需一套标准化的报告指南。为此,一个由来自麻省理工学院、哈佛医学院、牛津大学、斯坦福大学医学院等全球顶尖学术机构的跨学科专家团队,于2025年1月在《Nature Medicine》(第31卷,第60-69页)上联合发布了《TRIPOD-LLM声明》。该声明是TRIPOD(个体预后或诊断多变量模型透明报告)倡议框架的扩展,专门针对大语言模型在生物医学应用中的独特挑战而设计。

核心目标与背景

TRIPOD-LLM的核心目标是填补现有报告指南的空白。传统的TRIPOD及其人工智能扩展版(TRIPOD+AI)主要针对预测模型,而LLM作为生成式人工智能,其运作模式、评估方法和应用场景(如文本生成、总结、问答)存在本质区别。LLM在医疗领域的部署(如生成患者沟通草稿、总结医疗文档、辅助诊断)带来了新的复杂性,包括模型“幻觉”、输出不可靠性、可解释性差、隐私问题以及可能放大社会偏见等风险。这些风险可能对临床决策和患者护理产生不利影响。同时,LLM的开发与评估方法(如提示工程、指令微调、基于人类反馈的强化学习)以及其生成的非结构化文本输出的评估,都缺乏统一的报告标准。因此,TRIPOD-LLM旨在通过提供一份详尽的清单,指导研究者完整、透明地报告LLM研究的各个方面,从而提升该领域研究的质量和可信度。

TRIPOD-LLM指南的主要特点与内容

TRIPOD-LLM并非一个规定如何开发或评估LLM的方法学手册,也不是质量评估工具,而是一份最低限度报告建议的清单。其设计遵循了“活文件”的理念,旨在随着该领域的快速发展而迭代更新。指南的主要特点与内容可概括为以下几点:

  1. 模块化框架与全面清单:指南的核心是一个包含19个主项目和50个子项目的检查清单,覆盖了从标题、摘要、引言、方法、结果到讨论的完整论文结构。其中,14个主项目和32个子项目适用于所有LLM研究设计和任务类别。考虑到LLM研究的多样性,指南引入了模块化格式。研究者需根据其具体的研究设计(如“从头开始的LLM开发”、“LLM方法学研究”、“LLM评估”、“医疗环境中的LLM评估”)和LLM任务类别(如“分类”、“长篇问答”、“文档生成”、“总结与简化”、“机器翻译”等),选择需要报告的相关项目。这种设计确保了指南的广泛适用性和灵活性。

  2. 强调透明性与人类监督:透明度是TRIPOD-LLM的基石。指南要求在模型生命周期的每个阶段进行详细记录。这包括:

    • 数据:清晰说明训练、微调和评估数据集的来源、时间范围、预处理步骤以及如何处理缺失和不平衡数据。这对于理解数据潜在偏见和模型的时间相关性至关重要。
    • 模型与过程:报告所使用的LLM名称、版本、训练截止日期、架构细节、微调过程、对齐策略(如强化学习)以及提示工程的具体方法(包括提示设计、使用的数据和推理设置,如随机种子、温度参数等)。这确保了研究的可重复性和公平比较。
    • 人类参与:强调人类洞察和监督的重要性。要求报告数据标注过程中标注者的资质、标注指南、以及评估LLM输出时评估者的背景、提供的指令和评估者间的一致性。这有助于捕捉文本评估的细微差别,确保对模型安全性和性能进行可靠评估。
  3. 关注任务特异性性能报告:由于LLM可用于多种任务,且其输出常为非结构化文本,评估尤为复杂。指南要求:

    • 选择合适的评估指标:报告能够捕捉生成输出质量的指标,如一致性、相关性、准确性以及与金标准相比的错误类型。对于无法归结为结构化标签的任务(如信件生成、总结),需明确所使用的自动化指标(如BLEU、ROUGE)的局限性,并辅以人工评估。
    • 明确性能评估环境:详细说明评估设置,包括使用的指令、界面以及参与评估人群的特征。这有助于判断LLM性能评估是否贴近真实世界应用场景,衡量其实用性。
    • 说明性能比较基准:明确如何将LLM的性能与其他LLM、人类表现或其他基准进行比较。
  4. 新增关键报告项目:相较于之前的TRIPOD指南,TRIPOD-LLM引入了多项针对LLM特性的新要求,包括:

    • 提示工程:要求详细报告提示设计、优化和选择的过程及所用数据。
    • 指令微调/对齐:如果使用了指令微调或对齐策略,需报告所使用的指令、数据、评估界面以及评估人群的特征。
    • 计算资源:报告模型训练、微调或评估所需的计算成本或代理指标(如计算时间、浮点运算次数)。
    • 开放科学实践:要求提供研究数据、代码的获取方式,以及研究方案和注册信息(如适用)。
    • 上下文中的可用性:在讨论部分,要求描述LLM在特定任务和领域背景下的已知挑战(如数据代表性、缺失、偏见),并定义其预期用途、最终用户和所需的人类监督水平。

制定过程与“活文件”机制

TRIPOD-LLM的制定采用了加速德尔菲法结合专家共识。首先,由指导小组和专家小组基于TRIPOD-2015、TRIPOD+AI及相关文献生成了初步项目列表。随后,邀请了来自全球9个国家、涵盖人工智能、机器学习、临床信息学、自然语言处理、临床医学、期刊编辑、政策制定者等多个领域的专家参与了两轮德尔菲调查,就每个项目的必要性进行评分和评论。2024年4月,通过线上共识会议对调查结果进行讨论,最终确定了检查清单的内容和模块化结构。

鉴于LLM领域发展迅猛,TRIPOD-LLM被设计为一份“活文件”。专家小组将每三个月召开一次会议,根据最新的文献、公众反馈(通过GitHub仓库、TRIPOD-LLM网站等渠道收集)和领域专业知识,对指南进行审查和更新。更新可能涉及对项目内容、研究设计类别或LLM任务类别的修改、合并、拆分或淘汰。新版本的声明将通过TRIPOD-LLM网站、TRIPOD主站、EQUATOR网络等渠道发布,确保用户始终能获取最新指南。

意义、应用与展望

TRIPOD-LLM指南的预期用户和受益者包括:(1)撰写论文的学术和产业界研究者;(2)评估研究论文的期刊编辑和同行评审人;(3)更广泛的利益相关者(如研究机构、政策制定者、资助机构、监管机构、患者和公众)。指南的广泛应用将有助于: * 提升研究质量与透明度:使读者能够更好地理解和评价LLM研究的方法学质量。 * 促进可重复性与可复制性:详细的报告要求为其他团队复现研究结果提供了必要信息。 * 助力临床转化与实施:通过明确模型的预期用途、局限性和所需的人类监督,为LLM在临床环境中的安全、负责任部署奠定基础。 * 减少研究浪费:鼓励研究者在项目规划阶段就考虑完整的报告流程,确保研究资源得到有效利用。

指南鼓励期刊编辑、出版商和资助机构在作者指南中引用TRIPOD-LLM,并在投稿、评审过程中要求遵循其建议。同时,指南也可为医疗AI认证实验室(如Coalition for Health AI)的模型验证标准提供参考,以满足日益增长的AI监管要求(如美国拜登政府的AI行政命令、欧盟AI法案等)。

局限性与未来方向

TRIPOD-LLM当前的版本也存在一些局限性。其制定过程采用了加速德尔菲法,虽保证了及时性,但可能在共识广度和输入多样性上存在局限。为此,“活文件”机制被引入以持续改进。此外,该指南主要针对纯文本LLM设计。随着视觉-语言模型等多模态模型的快速发展,未来的版本可能需要纳入对图像等非文本数据处理的报告要求。目前,对于包含LLM作为主要组件的多模态模型研究,建议用户参考TRIPOD-LLM,并基于可重复性、可理解性和透明度的原则,决定如何适用其中的相关项目。

结论

总而言之,TRIPOD-LLM共识声明是为应对医疗健康领域LLM研究爆炸式增长而及时推出的一份关键性报告规范。它通过模块化、透明化、强调人类监督和任务特异性评估的设计,为研究者、评审者、期刊和监管机构提供了一个坚实的共同框架。作为一份“活文件”,它承诺将随着技术的演进而不断进化,其最终目标是增强LLM研究的严谨性、可信度和临床价值,最大化其对改善人类健康的积极影响。为方便使用,团队还开发了交互式网站(https://tripod-llm.vercel.app/),研究者可根据其研究设计和任务动态筛选需要填写的检查项目,并生成可供提交的PDF报告。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com