该研究由Jian Gao(香港大学社会科学学院、西北大学科学科学与创新中心、凯洛格管理学院、瑞安复杂性研究所)和Dashun Wang(西北大学科学科学与创新中心、凯洛格管理学院、瑞安复杂性研究所、麦考密克工程学院)共同完成,发表于2024年12月的《Nature Human Behaviour》期刊(Volume 8, pp. 2281–2292),DOI: 10.1038/s41562-024-02020-5。
学术背景
本研究属于科学计量学与人工智能交叉领域。随着人工智能(AI)技术的快速发展,其在科学研究中扮演的角色日益重要,但学界缺乏对AI在科学研究中实际应用及其潜在益处的系统性量化评估。既往研究多聚焦AI对劳动力市场和经济的影响(如Brynjolfsson & Mitchell 2017),而AI如何推动科学进步尚不明确。研究团队旨在开发测量框架,量化AI在科学研究中的直接使用情况及其关联效益,揭示学科差异、教育与应用的错位以及人口统计学差距。
研究方法与流程
研究分为四个核心环节:
数据构建
- 使用微软学术图谱(Microsoft Academic Graph, MAG)数据库,涵盖1960–2019年间7,460万篇论文,涉及19个学科和292个领域;整合美国专利商标局(USPTO)710万项专利(1976–2019)。
- AI文献识别:通过MAG的五个AI相关领域标签(如”machine learning”、”computer vision”)筛选AI论文,并通过标题和摘要提取n-grams(如”deep learning”、”convolutional neural network”)。
- 专利数据:基于专利分类代码和关键词识别AI专利。
测量框架开发
- 直接使用指标(AI n-gram框架):计算各领域论文中AI相关n-grams的频率加权得分,公式为:
[ S_t^d = \sum \hat{g}_t^b \cdot \hat{g}_t^{ai} ] 其中(\hat{g}_t^{ai})为AI文献n-grams频率向量,(\hat{g}_t^b)为目标领域n-grams频率向量。
- 潜在效益指标(AI能力-领域任务框架):
- 从AI论文和专利标题中提取动词-名词对(如”learn representation”),通过自然语言处理(NLP)依赖解析算法量化AI能力。
- 计算领域任务与AI能力的对齐度,公式为:
[ S_t^p = \frac{\sum \hat{t}_t^b \cdot \hat{c}_t^{ai}}{\sum \hat{c}_t^{ai} \cdot \hat{c}_t^{ai}} ] 使用TF-IDF降低常见动词-名词对的权重。
教育与合作分析
- 教育匹配度:分析420万份大学课程大纲(Open Syllabus Project),计算各学科大纲引用AI论文的比例。
- 跨学科合作:统计非计算机科学领域的AI论文中,领域专家与计算机科学家合作的比例(1980–2019)。
人口统计学分析
- 基于美国博士调查(Survey of Doctorate Recipients, SDR)数据,关联学科性别/种族比例与AI使用效益的关系。
主要结果
AI使用的普遍性与增长
- 2015年后AI使用率显著上升(如计算机科学领域AI使用得分从2000年0.5%增至2019年1.3%)。
- 提及AI n-grams的论文成为高被引论文(hit papers)的概率更高(19个学科中18个学科的AI/非AI论文高被引比>1,均值1.816)。
- 生物学、经济学等非传统AI学科的AI使用增速显著(图1g,h)。
潜在效益的学科差异
- 生物学子领域”biological system”(AlphaFold相关)在非计算机科学领域中潜在效益排名第七(图2d)。
- 学科内部异质性显著:医学整体AI效益中等,但其子领域”nuclear medicine”效益突出(补充图8)。
教育与应用的错位
- 计算机科学、数学、工程外的学科,AI教育水平与使用率相关性减弱(Pearson’s r=0.493, p=0.074)。
- 工程领域跨学科合作比例从199年21%升至2019年44%(图3f)。
人口统计学差距
- 女性科学家比例高的学科AI使用效益更低(Pearson’s r=-0.555, p=0.032)。
- 黑人科学家所在学科的AI效益得分比白人科学家低78–86%(图4g,h)。
结论与价值
科学价值
- 提出首个量化AI科学效益的双框架模型,揭示AI作为通用技术(general-purpose technology)在跨学科研究中的渗透规律。
- 证实AI可通过任务对齐(如”predict protein structure”)驱动非传统领域突破(如AlphaFold)。
政策意义
- 指出AI教育需与领域需求匹配,建议加强跨学科合作(如生物学与计算机科学联合培养)。
- 警示AI可能加剧科学界的性别/种族不平等,需针对性支持弱势群体参与AI研究。
研究亮点
- 方法创新:融合n-gram和动词-名词对分析,突破传统文献计量局限。
- 动态追踪:揭示2015年后AI科学应用的拐点现象,与深度学习技术爆发期吻合。
- 社会洞察:首次量化AI效益的人口统计学差异,为科研公平性提供证据。
局限性
- 数据截止2019年,未涵盖大语言模型(LLM)等近期突破;
- 专利数据仅限美国,可能低估全球AI技术扩散;
- 动词-名词对分析可能忽略任务上下文差异。
该研究为AI科学政策制定提供了数据基石,后续可结合基金会模型(foundation models)拓展动态评估框架。