本研究是一项评估ChatGPT在癫痫术前评估中临床应用价值的原创研究。以下是关于这项研究的详细学术报告。
一、 研究作者、机构与发表信息
本研究由来自多个国际知名机构的学者合作完成。主要作者包括Yaxi Luo(美国史蒂文斯理工学院计算机科学系)、Meng Jiao(美国史蒂文斯理工学院系统与企业系)、Neel Fotedar(美国凯斯西储大学医学院及克利夫兰大学医院神经内科)等,通讯作者为美国史蒂文斯理工学院的Feng Liu博士。该研究于2025年发表在*Journal of Medical Internet Research*期刊上,论文题目为“Clinical Value of ChatGPT for Epilepsy Presurgical Decision-Making: Systematic Evaluation of Seizure Semiology Interpretation”。
二、 学术背景与研究目的
本研究的科学领域横跨神经病学(特别是癫痫学)与人工智能(自然语言处理)。对于药物难治性局灶性癫痫患者,手术切除致痫区是控制癫痫发作的有效方法。准确定位致痫区至关重要,通常通过包括发作症状学解释、脑电图、磁共振成像在内的综合术前评估来实现。然而,发作症状学的解读极具挑战性,因为它高度依赖专家知识,且症状描述往往不一致、不连贯,导致术前评估存在差异性和局限性。
近年来,以ChatGPT为代表的大型语言模型在处理复杂文本信息方面展现出强大能力,为解决上述挑战提供了新工具。尽管已有研究探讨ChatGPT在医学问答、诊断支持等方面的潜力,但其在癫痫术前评估这一特定、复杂任务中的临床价值尚不明确。因此,本研究旨在系统评估ChatGPT基于发作症状学描述定位致痫区的性能,并将其与癫痫病学专家的表现进行比较,从而明确其在癫痫术前决策支持中的潜在应用价值。
三、 详细研究流程
本研究设计严谨,流程包含数据收集、模型评估、专家对比和统计分析等多个关键步骤。
1. 数据队列构建: 研究构建了两个数据队列用于评估ChatGPT的性能。 * 公开来源队列: 研究人员通过PubMed系统性检索了过去20年发表的同行评议期刊文章,关键词包括“seizure”、“seizure semiology”、“epilepsy”和“epileptogenic zones”。从309篇出版物中,排除了116篇致痫区描述不明确(如仅提及半球水平)的研究。最终从193篇研究中提取出852个“发作症状学-致痫区”配对案例。所有案例均包含详细的症状学描述和经过良好手术结局验证的致痫区信息。 * 私有来源队列: 为确保评估的客观性,避免测试数据可能已用于ChatGPT训练的问题,研究还构建了一个来自台湾远东纪念医院的私有队列。该队列基于2017年至2021年的电子健康记录,经过数据清洗和验证,最终包含184个经过验证的“发作症状学-致痫区”配对案例。 两个队列均使用实验室计算神经影像皮层脑叶数据集分类系统,将致痫区标准化为六个脑区:额叶、颞叶、顶叶、枕叶、扣带皮层和岛叶皮层。数据分布显示,在两个队列中,额叶和颞叶都是最常见的致痫区,而扣带皮层和岛叶皮层的病例则相对罕见。
2. ChatGPT响应生成与评估方法: 研究选用性能更优的ChatGPT-4作为主要评估模型,并采用了两种提示策略: * 零样本提示: ChatGPT仅接收包含患者症状学(及可用的人口统计学信息)的查询句子,不提供任何先验示例,完全依赖其内部知识进行预测。 * 少样本提示: 在查询中,除了当前病例的症状学描述,还额外提供三个随机选取的“症状学-致痫区”示例对,以引导模型更贴近真实情况。 所有查询被格式化为固定句式(如“一名[利手][性别]患者,年龄[年龄],表现为症状学:[症状描述]”),并要求ChatGPT以“EZ1, EZ2, …”的格式,按可能性降序列出最可能的致痫区位置,不提供解释。 为量化评估性能,研究定义了三个核心指标: * 区域敏感性: 衡量模型或专家在特定脑区识别正确致痫区的准确率(真阳性数 /(真阳性数 + 假阴性数))。 * 加权敏感性: 考虑到六个脑区病例数分布不均(类别不平衡),该指标通过加权各区域的敏感性来计算整体准确率,能更公平地反映跨区域的综合性能。 * 净正向推断率: 该指标针对单个病例查询进行评估,计算方式为(真阳性数 - 假阳性数 - 假阴性数)/(真阳性数 + 假阴性数)。其值越接近1,表示推断越完全正确;小于0则表示推断可能具有误导性。
3. 癫痫病学专家调查: 为了与人类专家进行对比,研究招募了8名来自不同癫痫中心的执业癫痫病学专家参与一项在线调查。调查使用了从自建数据库中随机选取的100个覆盖所有六个脑区的症状学记录。专家们需要根据提供的症状学描述,从六个选项中选择最可能的致痫区。最终,选取了其中5名完成全部调查的专家(临床经验从7年到35年不等)的结果作为基准,与ChatGPT的表现进行比较。
4. 统计分析: 研究使用上述三个指标对ChatGPT(两种提示策略)和癫痫病学专家的响应进行了系统评估和比较。对于区域敏感性和加权敏感性的组间差异,研究采用了基于1000次自助采样法的t检验来确定统计显著性。
四、 主要研究结果
1. ChatGPT在公开与私有队列上的表现: 在公开来源队列上,ChatGPT-4在零样本提示和少样本提示下均表现出色。对于最常见的额叶和颞叶致痫区,其区域敏感性达到了80%至90%的高水平。对于顶叶、枕叶和岛叶皮层,敏感性降至20%至47%。而对于最罕见的扣带皮层,敏感性仅为3%。加权敏感性在两种提示策略下均超过67%。净正向推断率的均值在零样本提示下为-0.21,在少样本提示下提升至0.03,表明其推断通常包含至少一个正确区域,但也可能包含误导性区域。 在私有来源队列上的评估结果与公开队列高度一致:额叶和颞叶的区域敏感性在81%-87%之间,扣带皮层的敏感性为0。加权敏感性约为73%-74%。这一致性有力地证实了ChatGPT在不同数据源上解释发作症状学的能力具有可重复性。
2. ChatGPT与癫痫病学专家的对比结果: 在针对100个调查病例的直接对比中,ChatGPT-4展现出与专家相当乃至更优的性能。 * 区域敏感性: ChatGPT在额叶和颞叶(最常见的致痫区)的区域敏感性显著高于癫痫病学专家组。在顶叶、枕叶和岛叶皮层,其表现与专家相当或略低。在扣带皮层,ChatGPT的表现则逊于专家。 * 加权敏感性: ChatGPT-4(零样本提示:0.61;少样本提示:0.63)的加权敏感性显著高于5位癫痫病学专家(范围:0.49-0.51)。这表明ChatGPT在所有脑区上的整体准确率更高,表现更稳定。 * 净正向推断率: ChatGPT与癫痫病学专家在该指标上的表现无统计学显著差异,均值均在0附近,表明两者在单个病例推断的可靠性方面表现相近。 * 统计显著性检验: 自助采样t检验证实,ChatGPT在额叶和颞叶的区域敏感性以及整体加权敏感性上均显著优于癫痫病学专家组。专家之间的表现也存在显著差异,且其临床经验年数与表现水平未呈现一致相关性。
五、 研究结论与价值
本研究得出结论:ChatGPT在解读发作症状学以辅助癫痫术前致痫区定位方面具有临床价值。研究证实,ChatGPT在识别最常见致痫区(额叶、颞叶)方面可以达到甚至超过人类专家的准确性,并且在整体加权敏感性上表现更优。随着大型语言模型的持续进步,其可靠性和准确性有望进一步提升。 该研究的价值体现在多个层面: * 科学价值: 首次系统性地将先进的大型语言模型应用于癫痫症状学解读这一专业临床任务,并建立了严谨的评估框架和量化指标(如净正向推断率),为后续研究提供了方法论参考。 * 应用价值: 为临床实践提供了新的决策支持工具。在资源丰富的癫痫中心,ChatGPT可作为“人工智能副驾驶”,帮助癫痫病学专家提高诊断效率,减少主观差异。在资源有限的医疗环境中,它可辅助全科医生或非专科医生进行初步的癫痫分类和决策,从而改善癫痫护理的可及性。研究指出,鉴于80%的真实世界病例致痫区位于额叶和颞叶,ChatGPT在此类常见病例中的高准确性使其具有直接的临床应用潜力。
六、 研究亮点
七、 其他有价值的内容
研究也坦诚地讨论了其局限性,并指出了未来研究方向: * 局限性: (1)基于症状学定位的是“症状产生区”,可能与真实的“致痫区”不完全重合;癫痫发作的异常电活动传播也可能导致误判。(2)用于评估的数据集中,扣带皮层、岛叶皮层等罕见区域的样本量不足。(3)ChatGPT的训练语料可能缺乏专门的医学信息,且存在地域、经济水平等潜在偏差。(4)参与对比的癫痫病学专家数量有限。 * 未来工作: (1)计划收集更多罕见癫痫区域的数据,并利用癫痫特异性语料对大型语言模型进行微调,以改善数据偏差问题。(2)指出未来研究应利用发作症状学的时序描述信息,来刻画癫痫脑网络的传播路径,这将是一个更有深度的研究方向。
这项研究为人工智能在神经病学精准医疗中的应用提供了一个优秀范例,证明了像ChatGPT这样的大型语言模型在特定、复杂的临床推理任务中能够达到专业水平,并具备融入临床工作流程、辅助医生决策的切实潜力。