本研究由来自滨州医学院烟台附属医院肿瘤中心(Zheng Zhang、Zheng-Chao Zhang、Shu-Ping Zhang等)、川北医学院附属医院胃肠外科第二科室(Xiao-Long Tang)以及江门市新会区人民医院肿瘤科(Si-Xiang Lin)等多个机构的科研团队共同完成,成果发表于《International Journal of Surgery》2025年第111卷。研究首次系统评估了三种人工智能(AI)工具(ChatGPT-4o、Claude 3.5和DeepSeek)在向非医学人群传播结直肠癌(colorectal cancer, CRC)筛查指南中的表现,为中国临床肿瘤学会(CSCO)2024版指南的公众教育提供了实证依据。
结直肠癌是全球第三大常见恶性肿瘤,早期筛查可显著降低死亡率。尽管CSCO等机构制定了详细的筛查指南,但公众认知度不足仍是实施障碍。随着基于Transformer架构的大语言模型(large language models, LLMs)如ChatGPT-4o、Claude 3.5和DeepSeek的快速发展,AI在医疗知识传播中的应用潜力亟待验证。本研究旨在评估这三种LLMs在CRC筛查指南传播中的准确性、清晰性和严谨性,为公共卫生教育提供工具选择依据。
研究采用两阶段标准化评估框架(图1):
第一阶段:内容生成
- 统一指令:要求各AI工具“根据CSCO 2024标准,为非医学人群提供简明的CRC筛查指南分步解释”。
- 研究对象:ChatGPT-4o(OpenAI)、Claude 3.5(Anthropic)和DeepSeek(杭州深度求索公司开发的LLM)。
第二阶段:交叉评估
1. 三维度评分体系:以CSCO 2024指南为金标准,构建准确性(accuracy)、清晰性(clarity)和严谨性(rigor)评估维度,采用10分制Likert量表(1-10分,10分为完全符合)。
2. 交叉互评机制:每款AI工具需评估其他两款工具的输出内容,并提交评分及优缺点分析(表1)。
3. 量化分析工具:开发了AI交叉评分量表(补充材料表S3),通过定性(文字评价)与定量(分数)结合的方式标准化评估流程。
准确性差异
清晰性与严谨性
交叉评分数据
科学意义:
应用价值:
方法创新性:
发现独特性:
(注:全文参考文献及补充材料索引详见原文献,此处从略。)