类型b
这篇论文由Bashar Zaidat、Nancy Shrestha、Ashley M. Rosenberg、Wasil Ahmed、Rami Rajjoub、Timothy Hoang、Mateo Restrepo Mejia、Akiro H. Duey、Justin E. Tang、Jun S. Kim和Samuel K. Cho撰写,所有作者均来自纽约西奈山伊坎医学院骨科手术系。该研究发表在《Neurospine》期刊上,时间是2024年。
本文主要探讨了大型语言模型ChatGPT(聊天生成预训练变换器)在脊柱手术中抗生素预防指南生成中的表现。随着人工智能(AI)技术在医疗领域的广泛应用,自然语言处理(NLP)模型如ChatGPT已被用于各种医学任务,包括影像分析、临床决策支持、患者结果预测等。本研究旨在评估ChatGPT的两个版本——GPT-3.5和GPT-4.0——在回答与脊柱手术相关的抗生素预防问题时的表现,并将其与北美脊柱协会(NASS)发布的循证临床指南进行比较。
文章首先介绍了ChatGPT的基本情况,这是一种由OpenAI开发的拥有1750亿参数的大型语言模型,自2022年11月发布以来因其“类人”文本回复而广受关注。尽管ChatGPT未经过专门的医学数据训练,但它在通过美国医学执照考试(USMLE)方面表现出色,因此被认为可能在医学教育和临床决策支持中发挥作用。
研究方法部分详细描述了如何使用NASS指南中的16个问题来测试ChatGPT的表现。每个问题分别输入到GPT-3.5和GPT-4.0模型中,每次提问都重新开启一个新的对话以避免先前提示带来的偏倚。如果问题未提及脊柱手术,则对其进行修改以包含相关词汇。研究人员记录并总结了每个模型的回答,并将其与NASS指南推荐内容进行准确性比较。对于没有明确推荐意见的问题,若ChatGPT能够得出同样无法提供具体建议的结论,则判定其回答正确。此外,为确保指南的时效性,研究人员还查阅了近十年的相关文献,以验证ChatGPT的回答是否符合最新的研究成果。
研究结果显示,在16个NASS指南问题中,GPT-3.5模型有10个回答(62.5%)准确,而GPT-4.0模型则有13个回答(81%)准确。GPT-3.5模型在回答关于抗生素疗效、再给药、伤口引流、身体习惯和并发症的问题时表现较好,但在抗生素协议、停药和共病问题上的表现较差。相比之下,GPT-4.0模型在几乎所有类别中都表现优异,仅在抗生素协议、停药和共病问题上各有一个错误回答。值得注意的是,GPT-3.5模型中有25%的回答被认为是过于自信的,而GPT-4.0模型中有62.5%的回答直接引用了NASS指南作为证据。
讨论部分深入探讨了不同问题类别中的具体表现。例如,在抗生素疗效问题上,两种模型都能准确回答大多数问题,但GPT-3.5模型在估计SSI发生率时给出了不准确的数据。在抗生素协议问题上,GPT-3.5模型未能明确指出没有任何单一药物、剂量或给药途径被推荐,而GPT-4.0模型则准确回答了所有三个问题。此外,GPT-4.0模型在引用NASS指南方面表现出色,16个问题中有10个问题直接引用了指南作为证据。
本文强调了ChatGPT在临床应用中的潜力和局限性。虽然GPT-4.0模型在回答准确性方面显著优于GPT-3.5模型,并且能够引用相关文献支持其回答,但其回答仍存在不可预测性和不一致性。特别是在面对非结论性证据时,ChatGPT倾向于给出看似合理但实际上缺乏依据的回答,这种现象被称为“人工幻觉”。此外,ChatGPT的回答可能会因重复提问而发生变化,这进一步增加了其在临床环境中应用的难度。
本文的重要意义在于,它不仅展示了大型语言模型在生成临床指南方面的潜力,还揭示了其在实际应用中的挑战。未来的研究应继续评估这些模型的表现,特别是在最新版本的ChatGPT中,以提供基于证据的指导方针供医务人员参考。此外,研究人员还需深入探讨提示工程(Prompt Engineering),即通过优化提示结构来提高模型的理解能力,从而减少回答中的重大差异。实际临床应用中,这些模型可用于回答常见患者问题和自动分析医疗记录,但仍需解决数据隐私和回答准确性等问题。
本研究表明,尽管ChatGPT在引导用户查找基于证据的研究方面具有广阔前景,但目前在临床环境中使用时仍需谨慎。医务人员不应完全依赖ChatGPT提供的临床建议,尤其是在脊柱手术中抗生素预防方面,必须仔细审查相关医学文献。