本文属于类型b,即一篇综述性论文,主要探讨了人工智能(AI)和机器学习技术(MLTs)在系统文献综述(SLR)中的应用。
本文的主要作者是Cameron F. Atkinson,来自澳大利亚塔斯马尼亚大学社会科学学院、灾害韧性研究组以及澳大利亚自然灾害研究中心。该论文于2024年发表在《Social Science Computer Review》期刊的第42卷第2期,页码为376-393。
本文的主题是探讨如何利用人工智能和机器学习技术来提高系统文献综述的效率、严谨性和透明度。文章旨在为有编程经验的研究者提供一种结合无监督机器学习技术和定性分析方法的新方法,以加速SLR中的数据合成和抽象过程。
系统文献综述被认为是证据收集和合成的“黄金标准”,但其过程通常耗时且成本高昂。随着研究文献的指数级增长,手动进行SLR变得越来越困难。此外,SLR的时效性也是一个问题,因为它们可能会在完成之前就变得过时。因此,本文提出利用AI和MLTs来自动化SLR的某些阶段,以提高其效率、透明度和可重复性。
支持证据: - SLR的耗时性:SLR通常需要数月甚至数年的时间完成(Larsen et al., 2019; Tsafnat et al., 2014)。 - 文献增长:研究文献的指数级增长使得SLR的进行更加复杂(Gusenbauer & Haddaway, 2020)。
AI和MLTs可以自动化SLR中的多个阶段,包括搜索策略的制定、文献筛选、数据提取以及数据合成和抽象。通过结合无监督机器学习技术和已有的定性分析方法(如演绎定性分析,DQA),研究者可以加速SLR的进行,并减少研究者的主观偏见。
支持证据: - 自动化工具:如ChatGPT、ASReview和ChatPDF等工具已经被用于SLR的不同阶段(Wang et al., 2023; van de Schoot et al., 2021)。 - 无监督学习:通过结合无监督学习技术(如主题建模)和DQA,研究者可以更高效地合成和抽象数据(Gilgun, 2014)。
数据合成和抽象是SLR中最耗时的阶段之一,且容易受到研究者主观偏见的影响。本文提出利用自然语言处理(NLP)和主题建模(如潜在狄利克雷分配,LDA)来自动化这一过程。通过LDA,研究者可以从大量文本中提取潜在主题,并将复杂的数据集简化为更易分析的形式。
支持证据: - LDA的应用:LDA是一种常用的主题建模方法,能够从文本中提取潜在主题,并生成主题-词分布(Blei et al., 2003)。 - 数据抽象:通过LDA,研究者可以将复杂的数据集简化为更易分析的形式,从而提高数据合成的效率(Mohan & Kumar, 2022)。
本文提出将演绎定性分析(DQA)与MLTs结合,以在SLR中实现数据合成和抽象的自动化。DQA允许研究者在研究开始前对数据进行预结构化,并在研究过程中根据新信息更新数据结构。这种方法特别适合与MLTs结合,因为它为数据的编码和分类提供了明确的方向。
支持证据: - DQA的优势:DQA在预结构化数据编码和更新数据结构方面具有优势,特别适合与MLTs结合(Gilgun, 2014)。 - MLTs的应用:通过结合DQA和MLTs,研究者可以更高效地合成和抽象数据,从而加速SLR的进行(Atkinson, 2022)。
本文详细介绍了如何使用Python编程语言实现LDA主题建模,并将其应用于SLR中的数据合成和抽象。通过LDA,研究者可以从SLR提取的文本中生成主题集群,并生成主题间的距离图,从而帮助研究者更好地理解数据中的潜在主题。
支持证据: - LDA的实现:本文提供了详细的Python代码,展示了如何使用LDA进行主题建模(Tavora, 2018; Prabhakaran, 2018)。 - 主题聚类:通过LDA,研究者可以生成主题集群,并生成主题间的距离图,从而帮助研究者更好地理解数据中的潜在主题(Rahgozar & Inkpen, 2019)。
本文提出了一种结合AI和MLTs的新方法,以加速系统文献综述的进行。通过自动化SLR中的数据合成和抽象阶段,研究者可以显著减少SLR的时间和成本,同时提高其严谨性和透明度。这种方法特别适合有编程经验的研究者,并且可以为未来的研究提供新的工具和方法。
本文还讨论了AI和MLTs在SLR中的其他应用,如搜索策略的制定、文献筛选和数据提取。这些工具和方法可以为未来的研究提供新的思路和工具,从而进一步推动SLR的自动化进程。