分享自:

人工智能工具在结直肠癌筛查指南传播中的比较分析:早期筛查教育的新视角

期刊:International Journal of SurgeryDOI:10.1097/js9.0000000000002951

本研究由来自滨州医学院烟台附属医院肿瘤中心(Zheng Zhang、Zheng-Chao Zhang、Shu-Ping Zhang等)、川北医学院附属医院胃肠外科第二科室(Xiao-Long Tang)以及江门市新会区人民医院肿瘤科(Si-Xiang Lin)等多个机构的科研团队共同完成,成果发表于《International Journal of Surgery》2025年第111卷。研究首次系统评估了三种人工智能(AI)工具(ChatGPT-4o、Claude 3.5和DeepSeek)在向非医学人群传播结直肠癌(colorectal cancer, CRC)筛查指南中的表现,为中国临床肿瘤学会(CSCO)2024版指南的公众教育提供了实证依据。

学术背景

结直肠癌是全球第三大常见恶性肿瘤,早期筛查可显著降低死亡率。尽管CSCO等机构制定了详细的筛查指南,但公众认知度不足仍是实施障碍。随着基于Transformer架构的大语言模型(large language models, LLMs)如ChatGPT-4o、Claude 3.5和DeepSeek的快速发展,AI在医疗知识传播中的应用潜力亟待验证。本研究旨在评估这三种LLMs在CRC筛查指南传播中的准确性、清晰性和严谨性,为公共卫生教育提供工具选择依据。

研究流程与方法

研究采用两阶段标准化评估框架(图1):
第一阶段:内容生成
- 统一指令:要求各AI工具“根据CSCO 2024标准,为非医学人群提供简明的CRC筛查指南分步解释”。
- 研究对象:ChatGPT-4o(OpenAI)、Claude 3.5(Anthropic)和DeepSeek(杭州深度求索公司开发的LLM)。

第二阶段:交叉评估
1. 三维度评分体系:以CSCO 2024指南为金标准,构建准确性(accuracy)、清晰性(clarity)和严谨性(rigor)评估维度,采用10分制Likert量表(1-10分,10分为完全符合)。
2. 交叉互评机制:每款AI工具需评估其他两款工具的输出内容,并提交评分及优缺点分析(表1)。
3. 量化分析工具:开发了AI交叉评分量表(补充材料表S3),通过定性(文字评价)与定量(分数)结合的方式标准化评估流程。

主要结果

  1. 准确性差异

    • ChatGPT-4o:起始年龄标准过时(未更新至CSCO 2024推荐的45岁),高危人群筛查方案过于简化(表2)。
    • Claude 3.5:框架完整但缺失关键细节(如未明确粪便潜血试验频率应为每年1次)。
    • DeepSeek:区域适应性最佳(特别针对中国人群优化),但筛查阈值准确性需提升(如息肉分类标准表述模糊)。
  2. 清晰性与严谨性

    • ChatGPT-4o:逻辑清晰但缺乏术语解释(如未定义“FIT”即粪便免疫化学检测)和地域相关性说明。
    • Claude 3.5:语言通俗但过于简单化,缺少专业定义(如未解释“IBD”即炎症性肠病与CRC的关联)。
    • DeepSeek:结构最严谨,涵盖中国区域因素(如农村地区筛查资源差异),但部分细节需补充(如未提及结肠镜检查禁忌症)。
  3. 交叉评分数据

    • DeepSeek对ChatGPT-4o评分最低(6.5/10),指出其“年龄标准不符最新指南”;而ChatGPT-4o对DeepSeek评分最高(9/10),认可其“逻辑严密性”(表1)。

结论与价值

  1. 科学意义

    • 首次实证比较主流LLMs在CRC指南传播中的效能,证实AI可作为医学知识转化的辅助工具。
    • 揭示当前AI工具的共性局限:需临床验证以规避数据偏差(如ChatGPT-4o的过时标准)、需补充实施细节(如Claude 3.5缺失的遗传咨询建议)。
  2. 应用价值

    • 为医疗机构选择AI教育工具提供依据:DeepSeek适合中国本土化推广,ChatGPT-4o需配合术语解释,Claude 3.5需强化细节。
    • 提出“动态监管框架”:建议通过多学科协作(临床医生、伦理委员会、AI开发者)优化算法,平衡科学精确性与公众可及性。

研究亮点

  1. 方法创新性

    • 首创“AI互评”机制,通过工具间相互校验提升评估客观性。
    • 开发量化评分量表(补充材料表S3),为后续研究提供标准化模板。
  2. 发现独特性

    • DeepSeek展现出“区域适配优势”,能主动建议“如何改进以更适合中国公众宣传”(补充材料表S4)。
    • 揭示AI工具在“高危人群协议”和“遗传风险沟通”等关键环节的普遍不足,指向未来优化方向。

其他有价值内容

  • 伦理与监管:研究强调AI输出需经临床审核,并呼吁建立“生成内容验证流程”(如与官方指南比对)。
  • 局限性:出版商对AI应用仍持谨慎态度(如部分期刊限制AI生成内容),需进一步探索伦理边界。

(注:全文参考文献及补充材料索引详见原文献,此处从略。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com