该文档属于类型b:一篇发表于学术期刊的评论文章,并非单一原创研究报告。
关于ChatGPT对科学研究影响的评论文章介绍
本文题为“ChatGPT: five priorities for research”,发表于2023年2月9日的《Nature》期刊。作者团队包括Eva A. M. van Dis, Johan Bollen, Robert van Rooij, Willem Zuidema & Claudi L. Bockting,他们来自荷兰阿姆斯特丹大学医学中心(Amsterdam UMC)、阿姆斯特丹大学高级研究所(Institute for Advanced Study)以及其他学术机构。文章的核心议题是探讨以ChatGPT为代表的大型语言模型(Large Language Models, LLMs)对科学研究实践带来的革命性影响、潜在风险,并为研究界如何应对提出了五项优先行动建议。
文章开篇指出,自ChatGPT发布以来,这类人工智能(AI)技术已显示出将对研究人员的工作方式产生巨大影响。它既能帮助撰写论文、科学摘要、识别研究空白、编写代码,未来甚至可能参与设计实验、撰写手稿、进行同行评审。这种对话式AI有可能通过加速创新进程、缩短发表时间、帮助人们流畅写作来促进科学公平和多样性。然而,它也可能降低研究的质量和透明度,传播错误信息,并从根本上改变人类研究者的自主性。作者们认为,禁止使用这项技术是行不通的,研究界必须就这项颠覆性技术的含义展开辩论。为此,他们概述了五个关键问题并提出了行动起点。
第一,坚持人工验证的必要性。 尽管LLMs能生成复杂且看似智能的文本,但将其用于专业研究很可能引入不准确、偏见和剽窃问题。作者们通过自身测试揭示了ChatGPT的局限性:当被问及“有多少抑郁症患者在治疗后经历复发?”时,它最初生成了一个过于笼统且错误的回答,声称治疗效果通常是持久的,而大量高质量研究显示复发风险在治疗后第一年为29%至51%。在要求ChatGPT总结作者本人参与撰写的一篇关于认知行为疗法(CBT)对焦虑相关障碍有效性的系统综述时,它捏造了一个包含多项事实错误、曲解和错误数据的回答,例如错误地声称综述基于46项研究(实际为69项),并夸大了CBT的有效性。这些错误可能源于训练数据中相关文章的缺失、提炼相关信息失败或无法区分可信与不可信来源。文章指出,导致人类出错的相同偏见(如可得性偏见、选择偏见、确认偏见)在对话式AI中被复制甚至放大。因此,研究者若使用ChatGPT,可能被虚假或有偏见的信息误导,并将其融入自己的思考和论文中。粗心的评审者可能因其优美、权威的行文而被“光环效应”所迷惑,接受AI撰写的论文。此外,由于该技术通常在生成文本时不可靠地引用原始来源,使用者存在无意中剽窃大量未知文本甚至泄露自己创意的风险。作者强调,即使未来LLMs能够准确地进行总结、评估和评审,高质量的期刊也应考虑加入人工验证步骤,或禁止某些应用。为了防止人类自动化偏见(即过度依赖自动化系统),强调问责制至关重要,人类应始终对科学实践负责。
第二,制定问责规则。 当前已有工具可以预测文本来自机器或人类的可能性,这类工具有助于检测论文工厂和掠夺性期刊使用LLMs制造内容的行为,但检测方法很可能被进化的AI技术和巧妙的提示所规避。与其陷入AI聊天机器人和AI检测器之间无休止的军备竞赛,不如让研究界和出版商共同制定如何以诚信、透明和诚实的方式使用LLMs。具体建议包括:研究论文中的作者贡献声明和致谢部分应清晰、具体地说明作者是否以及在多大程度上使用了ChatGPT等AI技术来准备手稿和分析,并指明使用了哪些LLMs。这将提醒编辑和审稿人更仔细地审查手稿中潜在的偏见、不准确和不当的文献引用。同样,科学期刊在选择投稿稿件时若使用了LLMs,也应保持透明。研究机构、出版商和资助方应采纳明确的政策,提高人们对在可能成为出版记录的所有材料准备中使用对话式AI的认识,并要求透明度。出版商可以要求作者认证其遵守了相关政策。目前,LLMs不应成为手稿的作者,因为它们无法对自己的工作负责。但未来,研究者可能越来越难精确界定LLMs在其研究中的具体角色。LLMs可能被集成到文本处理、编辑工具、搜索引擎和编程工具中,从而在作者未必意识到其贡献性质和程度的情况下参与科学工作。这挑战了当前关于作者身份、剽窃和文献来源的二元定义。政策必须适应,但完全的透明度始终是关键。对于AI撰写或辅助完成的手稿,研究界和法律界还需厘清文本权利的归属问题。
第三,投资于真正开放的大型语言模型。 目前,几乎所有最先进的对话式AI技术都是少数几家拥有AI开发资源的大型科技公司的专有产品。这引发了重大的伦理关切,其中最直接的问题之一是缺乏透明度。ChatGPT及其前身模型的底层训练集和模型并未公开,科技公司可能隐藏其对话式AI的内部工作原理。这与科学透明和开放科学的趋势背道而驰,并使得难以揭示聊天机器人知识的来源或空白。例如,作者测试发现,ChatGPT能详细描述一些h指数(衡量工作影响力的指标)约为20的研究人员的工作,却对几位被高引、h指数超过80的知名科学家的工作完全无法生成任何信息。为了对抗这种不透明性,应优先开发和实施开源AI技术。作者主张,科学资助机构、大学、非政府组织(NGOs)、政府研究设施以及联合国等组织,连同科技巨头,应对独立的非营利项目进行大量投资,以开发先进的开源、透明和受民主控制的AI技术。已有主要由学术合作推动的项目(如BigScience)构建了名为BLOOM的开源语言模型。学术出版商应确保LLMs能够访问其全部档案,使模型产生的结果更准确和全面。
第四,拥抱人工智能的益处。 随着学术界工作量和竞争的增加,使用对话式AI的压力也随之增大。聊天机器人为快速完成任务提供了机会,从博士生完成论文到研究者为基金申请进行快速文献综述,再到时间紧迫的同行评审。如果AI聊天机器人能协助这些任务,成果可以更快发表,使学者能腾出时间专注于新的实验设计,从而可能显著加速许多学科的创新并带来突破。作者认为,只要解决当前与偏见、来源和准确性相关的初期问题,这项技术具有巨大潜力。重要的是检验并推进LLMs的有效性和可靠性,以便研究者知道如何在特定的研究实践中明智地使用该技术。尽管有人认为聊天机器人仅仅学习训练集中词汇间的统计关联而非理解其含义,因此只能复述和合成人类已完成的工作,无法体现科学过程中的人类方面(如创造性和概念性思维),但作者认为这是一种为时过早的假设。未来AI工具或许能够掌握今天看来遥不可及的科学过程的某些方面。人与智能技术之间的“智能伙伴关系”可能超越人类能力,将创新加速到前所未有的水平。AI技术可能重新平衡学术技能组合:一方面,它可以优化学术训练(例如通过提供反馈改进学生的写作和推理技能);另一方面,它可能减少对某些技能(如进行文献检索的能力)的需求,并引入新的技能(如提示工程)。虽然某些技能的丧失未必是问题(例如大多数研究者不再手工进行统计分析),但作为一个共同体,我们需要仔细考虑哪些学术技能和特质对研究者仍然至关重要。
第五,扩大辩论范围。 鉴于LLMs的颠覆性潜力,研究界需要组织一场紧迫且广泛的辩论。首先,建议每个研究小组立即召开会议讨论并亲自尝试ChatGPT(如果尚未尝试)。教育者应与本科生讨论其使用和伦理问题。在缺乏外部规则的早期阶段,负责任的小组负责人和教师需要决定如何以诚实、正直和透明的方式使用它,并商定一些参与规则。应提醒所有研究贡献者,无论其工作是否由ChatGPT生成,他们都需对其负责。每位作者都应负责仔细核查其文本、结果、数据、代码和参考文献。其次,呼吁立即建立一个关于LLMs用于研究的发展和负责任使用的持续国际论坛。作为第一步,建议召开一次相关利益攸关方峰会,包括不同学科的科学家、科技公司、大型研究资助者、科学院、出版商、非政府组织以及隐私和法律专家。类似峰会在应对其他颠覆性技术(如人类基因编辑)时也曾组织,以讨论和制定指南。理想情况下,这次讨论应能为所有相关方产生快速、具体的建议和政策。文章列举了一系列可供论坛讨论的问题清单,例如:哪些研究任务应该或不应该外包给LLMs?哪些学术技能和特质对研究者仍然至关重要?AI辅助研究过程中哪些步骤需要人工验证?研究诚信和其他政策应如何修改以应对LLMs?如何将LLMs纳入研究者的教育和培训?研究者和资助者如何帮助开发独立开源LLMs并确保模型准确代表科学知识?对LLMs应期待何种质量标准(例如透明度、准确性、偏见和来源引用)?哪些利益相关者对这些标准以及LLMs负责?研究者如何确保LLMs促进研究公平,避免加剧不平等风险?如何利用LLMs来增强开放科学原则?LLMs对科学实践有何法律影响(例如与专利、版权和所有权相关的法律法规)?需要解决的一个关键问题是对研究多样性和不平等的影响。LLMs可能是一把双刃剑,既能通过消除语言障碍帮助公平竞争,但也可能像大多数创新一样,被高收入国家和特权研究者迅速利用,从而加速他们自己的研究并扩大不平等。因此,辩论必须包括研究中代表性不足的群体以及受研究影响的社区成员,将人们的生活经验作为重要资源。
文章的意义与价值 本文是一篇及时且重要的评论文章,它系统性地剖析了以ChatGPT为代表的生成式AI技术涌入科学界所带来的双重影响。其价值在于:首先,它超越了单纯的技术惊叹或恐慌,以审慎、平衡的视角,基于具体的测试案例(如对抑郁症复发率、系统综述总结的查询),实证地指出了当前LLMs在科学研究应用中的严重缺陷,特别是其产生“看似合理但错误”信息的倾向,为研究者敲响了警钟。其次,文章提出的五项优先事项(坚持人工验证、制定问责规则、投资开放模型、拥抱技术益处、扩大辩论范围)构建了一个全面、务实的行动框架,涵盖了从个体研究伦理到共同体政策、从技术发展到全球治理的多层次思考。这些建议并非空泛的呼吁,而是包含了诸如要求在作者贡献声明中明确AI使用情况、推动开源模型发展、召开国际峰会等具体可操作的步骤。第三,文章将讨论提升到了科学哲学和价值观的层面,触及了人类研究者的自主性、创造力、科学发现本质以及可能出现的技能重组等深层问题。它促使科学界反思:在自动化程度日益提高的未来,哪些人类特质是科学事业不可或缺的核心?最后,文章强调包容性辩论,关注技术对科研公平性的潜在影响,体现了其社会责任感。总体而言,这篇评论为正处于适应期的全球科研共同体提供了关键的路线图,旨在引导科学界在充分利用AI强大工具潜力的同时,坚守研究的严谨性、透明性和人类主导的核心价值,确保科学在这场技术革命中继续作为一项深刻而有益的事业蓬勃发展。