人工智能工具在结直肠癌筛查指南传播中的比较分析：早期筛查教育的新视角

分享自：

人工智能工具在结直肠癌筛查指南传播中的比较分析：早期筛查教育的新视角

肿瘤学

公共卫生

医学

信息科学

人工智能

期刊:International Journal of SurgeryDOI:10.1097/js9.0000000000002951

【点击此处】阅读全文、收藏及针对性提问

本研究由来自滨州医学院烟台附属医院肿瘤中心（Zheng Zhang、Zheng-Chao Zhang、Shu-Ping Zhang等）、川北医学院附属医院胃肠外科第二科室（Xiao-Long Tang）以及江门市新会区人民医院肿瘤科（Si-Xiang Lin）等多个机构的科研团队共同完成，成果发表于《International Journal of Surgery》2025年第111卷。研究首次系统评估了三种人工智能（AI）工具（ChatGPT-4o、Claude 3.5和DeepSeek）在向非医学人群传播结直肠癌（colorectal cancer, CRC）筛查指南中的表现，为中国临床肿瘤学会（CSCO）2024版指南的公众教育提供了实证依据。
学术背景结直肠癌是全球第三大常见恶性肿瘤，早期筛查可显著降低死亡率。尽管CSCO等机构制定了详细的筛查指南，但公众认知度不足仍是实施障碍。随着基于Transformer架构的大语言模型（large language models, LLMs）如ChatGPT-4o、Claude 3.5和DeepSeek的快速发展，AI在医疗知识传播中的应用潜力亟待验证。本研究旨在评估这三种LLMs在CRC筛查指南传播中的准确性、清晰性和严谨性，为公共卫生教育提供工具选择依据。
研究流程与方法研究采用两阶段标准化评估框架（图1）：
 第一阶段：内容生成
 - 统一指令：要求各AI工具“根据CSCO 2024标准，为非医学人群提供简明的CRC筛查指南分步解释”。
 - 研究对象：ChatGPT-4o（OpenAI）、Claude 3.5（Anthropic）和DeepSeek（杭州深度求索公司开发的LLM）。
第二阶段：交叉评估
 1. 三维度评分体系：以CSCO 2024指南为金标准，构建准确性（accuracy）、清晰性（clarity）和严谨性（rigor）评估维度，采用10分制Likert量表（1-10分，10分为完全符合）。
 2. 交叉互评机制：每款AI工具需评估其他两款工具的输出内容，并提交评分及优缺点分析（表1）。
 3. 量化分析工具：开发了AI交叉评分量表（补充材料表S3），通过定性（文字评价）与定量（分数）结合的方式标准化评估流程。
主要结果准确性差异
ChatGPT-4o：起始年龄标准过时（未更新至CSCO 2024推荐的45岁），高危人群筛查方案过于简化（表2）。
 
Claude 3.5：框架完整但缺失关键细节（如未明确粪便潜血试验频率应为每年1次）。
 
DeepSeek：区域适应性最佳（特别针对中国人群优化），但筛查阈值准确性需提升（如息肉分类标准表述模糊）。
 
清晰性与严谨性
ChatGPT-4o：逻辑清晰但缺乏术语解释（如未定义“FIT”即粪便免疫化学检测）和地域相关性说明。
 
Claude 3.5：语言通俗但过于简单化，缺少专业定义（如未解释“IBD”即炎症性肠病与CRC的关联）。
 
DeepSeek：结构最严谨，涵盖中国区域因素（如农村地区筛查资源差异），但部分细节需补充（如未提及结肠镜检查禁忌症）。
 
交叉评分数据
DeepSeek对ChatGPT-4o评分最低（6.5/10），指出其“年龄标准不符最新指南”；而ChatGPT-4o对DeepSeek评分最高（9/10），认可其“逻辑严密性”（表1）。
 
结论与价值科学意义：
首次实证比较主流LLMs在CRC指南传播中的效能，证实AI可作为医学知识转化的辅助工具。
 
揭示当前AI工具的共性局限：需临床验证以规避数据偏差（如ChatGPT-4o的过时标准）、需补充实施细节（如Claude 3.5缺失的遗传咨询建议）。
 
应用价值：
为医疗机构选择AI教育工具提供依据：DeepSeek适合中国本土化推广，ChatGPT-4o需配合术语解释，Claude 3.5需强化细节。
 
提出“动态监管框架”：建议通过多学科协作（临床医生、伦理委员会、AI开发者）优化算法，平衡科学精确性与公众可及性。
 
研究亮点方法创新性：
首创“AI互评”机制，通过工具间相互校验提升评估客观性。
 
开发量化评分量表（补充材料表S3），为后续研究提供标准化模板。
 
发现独特性：
DeepSeek展现出“区域适配优势”，能主动建议“如何改进以更适合中国公众宣传”（补充材料表S4）。
 
揭示AI工具在“高危人群协议”和“遗传风险沟通”等关键环节的普遍不足，指向未来优化方向。
 
其他有价值内容伦理与监管：研究强调AI输出需经临床审核，并呼吁建立“生成内容验证流程”（如与官方指南比对）。
 
局限性：出版商对AI应用仍持谨慎态度（如部分期刊限制AI生成内容），需进一步探索伦理边界。
 
（注：全文参考文献及补充材料索引详见原文献，此处从略。）

上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com

【点击此处】阅读全文、收藏及针对性提问