分享自:

基于BERTopic主题模型的数据要素价值化热点主题及演化分析

期刊:知识管理论坛DOI:10.13266/j.issn.2095-5472.2025.037

学术研究报告:基于 BERTopic 主题模型的数据要素价值化热点主题及演化分析

一、 作者、机构与发表信息 本研究由上海理工大学管理学院的陈婉铭(硕士研究生)与刘媛华(副教授,博士,硕士生导师,通信作者)共同完成。研究论文以《基于bertopic主题模型的数据要素价值化热点主题及演化分析》为题,发表于《知识管理论坛》(英文刊名:Knowledge Management Forum)期刊2025年第10卷第6期,具体发表日期为2025年12月15日,属于开放获取文章。

二、 学术背景与研究目标 本研究隶属于信息科学与管理科学交叉领域,具体聚焦于知识图谱构建、科学计量与数据要素的经济管理研究。研究的现实背景源于数字经济时代的深刻变革。2019年,中共中央首次明确将数据列为与劳动、资本等并列的生产要素,标志着数据要素价值化成为国家战略核心议题。随后,《“数据要素×”三年行动计划(2024—2026年)》等政策密集出台,彰显了国家与社会对于激活数据要素潜能、驱动经济发展的迫切需求。尽管学术界已对数据要素的内涵、意义与挑战展开广泛探讨,但对于其价值实现的核心机制、研究领域的知识结构与动态演化路径,仍缺乏系统性的理论归纳和深度分析。传统文献综述方法难以应对海量文献的系统挖掘,尤其缺乏运用深度学习模型进行自动化主题挖掘与演化分析的研究。

因此,本研究旨在弥补上述空白,其核心目标是:引入并应用 BERTopic 这一先进的深度学习主题模型,对2019年至今中国知网(CNKI)收录的“数据要素价值化”相关学术文献进行深度挖掘,系统性地识别该领域的核心研究主题、追踪主题的演化路径、揭示前沿动态,从而为该领域的理论深化与实践指导提供一个宏观、客观的综合性知识图谱。

三、 详细研究流程 本研究采用了严谨的计算文本分析流程,主要包含数据准备、模型构建与主题分析三大阶段,共计六个核心步骤。

第一步:数据来源与清洗 研究以中国知网数据库为数据源,设定了明确的文献筛选标准。检索主题为“数据要素”并与“数据价值化”等相关关键词组合,时间范围限定为2019年至2025年(检索截止于2025年2月25日),文献类型限定为学术期刊论文。通过高级检索获得初始文献1785篇。随后进行二次筛查,剔除了摘要文本缺失、时间信息不完整的无效记录,最终构建了包含1735篇文献摘要及其元数据的样本集,作为后续分析的语料库。

第二步:文本预处理与向量化 在模型处理前,对摘要文本进行了停用词剔除和分词等标准化预处理,以降低噪音。文本向量化是主题建模的基础,也是本研究方法新颖性的关键。研究者没有使用传统的词袋模型或TF-IDF,而是采用了基于深度学习的预训练语言模型来获取文本的语义嵌入向量。具体而言,研究使用了 BERT-base-Chinese 架构的 Sentence-BERT 框架。该框架通过 Transformer 神经网络的自注意力机制,将每篇摘要文本转换为一个高维的稠密向量。这种向量能够深刻捕捉文本的上下文语义信息,例如“数据市场”与“数据交易”在语义上的关联性,远优于仅基于词汇共现的传统方法。

第三步:降维处理 由于BERT模型生成的语义向量维度极高,直接进行聚类效率低且效果不佳。因此,研究引入了均匀流形近似与投影(Uniform Manifold Approximation and Projection, UMAP)算法对高维向量进行降维。UMAP的优势在于它能较好地保留高维数据在低维空间中的局部流形结构和全局拓扑关系,这意味着语义相近的文档在降维后的二维或三维空间中仍然会彼此靠近,为后续的密度聚类创造了理想的条件。研究者采用了公式(1)所示的交叉熵损失函数来优化降维过程,确保降维前后数据分布的相似性。

第四步:密度聚类生成主题簇 在UMAP降维得到的低维空间上,研究采用了层次密度空间聚类(Hierarchical Density-Based Spatial Clustering of Applications with Noise, HDBSCAN)算法进行聚类。与需要预设簇数量的K-means等算法不同,HDBSCAN能够自动识别数据中密度较高的区域作为簇(即潜在主题),并自适应地确定最佳主题数量。同时,它能有效识别并过滤掉不属于任何密集区域的噪声点(离群文档)。研究对HDBSCAN的核心距离度量公式(2)和簇稳定性度量方式进行了说明,确保了聚类结果既具有语义一致性,又能自动优化主题数量,避免了传统主题模型中需要人工预设主题数的难题。

第五步:主题表征与关键词提取 每个由HDBSCAN生成的文档簇被视为一个初步的主题。为了解释这些主题,研究者采用了基于类的TF-IDF(Class-based TF-IDF, C-TF-IDF)方法为每个主题提取代表性关键词。具体做法是,将一个主题簇内的所有文档连接起来视为一个“大类文档”,然后计算每个词在这个“大类文档”中的TF-IDF权重(公式(3))。权重越高,表明该词对该主题越具代表性。为进一步提升关键词的多样性和区分度,研究还引入了最大边际相关性(Maximum Marginal Relevance, MMR)算法对候选关键词进行筛选和排序,最终为每个主题生成一组具有高代表性和低冗余度的关键词列表。

第六步:主题合并、命名与演化分析 BERTopic模型初始自动生成了9个主题簇和少量(23篇,占比1.33%)噪声文档。为了得到更具概括性和解释力的宏观主题框架,研究者进行了人工干预的主题合并。他们综合运用了三种量化与可视化工具作为合并依据:1)主题分层聚类图(图4),用于观察主题间的层次和亲疏关系;2)主题相似度热力图(图5),通过颜色梯度量化主题间的语义相似度;3)文档-主题分布散点图(图2),直观展示文档在二维空间中的聚集情况。只有那些在层次上接近、相似度高且在空间中邻近的主题才被合并。最终,9个二级主题被归纳为5个更具概括性的一级主题。每个主题的名称是根据其排名靠前的关键词人工提炼命名的。最后,研究引入时间变量,将文献按年份划分,计算每个时间片上各主题的C-TF-IDF强度或文档数量,从而绘制主题随时间演化的趋势图(图7),分析不同时期的研究热点变迁。

四、 主要研究结果 通过上述流程,研究获得了关于中国数据要素价值化研究领域的系统性发现。

1. 热点主题识别结果:五大核心主题 经过主题合并与人工解读,研究最终确定了五个核心研究主题,并提取了每个主题的前20个代表性关键词(见表2)。这五大主题构成了当前该领域研究的主体框架: * 主题一:企业创新与数据要素市场培育。 该主题关注企业在数字经济中的作用,核心关键词包括“企业”、“数据要素市场”、“新质生产力”、“创新”、“政策”等。这表明研究焦点在于企业如何利用数据驱动创新,以及政策如何引导和培育数据要素市场。 * 主题二:数据基础制度与产业数字化转型。 该主题聚焦于支撑数据要素流通和价值化的底层制度,关键词如“数据基础制度”、“产业”、“数字化转型”、“数字中国”。它强调了制度构建(如产权、流通、分配制度)是产业实现数字化转型的基础和引擎。 * 主题三:要素市场化配置与体制改革。 此主题关注宏观层面的市场化改革,关键词包括“生产要素”、“体制”、“要素市场化配置”、“改革”。它将数据要素置于传统的劳动力、资本等生产要素体系中,探讨如何通过体制改革实现数据与其他要素的协同市场化配置。 * 主题四:数据交易制度与市场竞争机制。 该主题深入到市场运行的具体规则层面,关键词如“数据交易”、“竞争”、“法律”、“定价”、“治理”。核心议题是设计公平、安全、高效的数据交易规则与市场竞争机制,解决流通中的定价、垄断、安全与合规问题。 * 主题五:数据赋能生产率提升与监管平衡。 此主题关注数据要素应用的最终经济效应与治理挑战,关键词包括“生产率”、“监管”、“数字经济发展”、“创业活力”、“收入分配”。它探讨数据如何提升全要素生产率,同时如何在激励创新与实施有效监管、平衡效率与公平之间取得平衡。

主题词得分图(图6)进一步验证了“数据要素市场”是多个主题共有的核心关键词,凸显了其在价值化过程中的枢纽地位。主题聚类图(图3)显示主题一和主题二是出现频率最高、影响力最大的两个主题。

2. 主题演化分析结果:三阶段演进路径 基于时序分析(图7),研究发现数据要素价值化研究呈现清晰的动态演进路径: * 奠基期(2019-2021年): “要素市场化配置与体制改革”(主题三)是绝对主导。这符合政策起点(2019年十九届四中全会)的逻辑,初期研究集中于宏观层面的理论探讨,思考如何将数据这一新型要素纳入现有的生产要素市场体系与体制改革框架中。 * 发展期(2022-2023年): 研究重点从宏观转向中观。主题三的热度下降,而“企业创新与数据要素市场培育”(主题一)和“数据基础制度与产业数字化转型”(主题二)迅速崛起。这对应了“数据二十条”等基础制度文件的出台与讨论,研究焦点下沉至数据要素市场本身的培育机制以及支撑市场运行的制度体系建设。 * 高峰期(2024年): 主题一和主题二的关注度达到顶峰。这表明随着顶层设计逐步完善,学术界的焦点完全转向如何通过市场机制驱动企业层面的创新实践,以及如何将基础制度转化为产业数字化转型的具体动能。同时,“数据赋能生产率提升与监管平衡”(主题五)的关注度在2024年显著增长,反映出研究开始深入数据价值化的经济效应与伴随的治理难题。

五、 研究结论与价值 本研究的主要结论是:当前中国数据要素价值化研究聚焦于上述五个核心主题,它们分别从微观企业行为、中观市场与制度、宏观体制改革以及效应与治理等不同维度,构成了一个多维度协同的研究体系。更重要的是,该领域研究呈现出一个从“宏观制度探讨”到“中观市场与制度构建”,再进一步聚焦“微观创新应用与效应评估”的清晰动态演进机制。这揭示了数据要素价值化是一个技术驱动、制度重构与产业优化系统性耦合的过程。

本研究的价值体现在:科学价值方面,首次将 BERTopic 这一先进的深度学习主题模型系统性地应用于数据要素价值化领域的文献计量,提供了一种超越传统文献综述和LDA主题模型的分析框架,能够更精准地捕捉海量文献中的复杂语义主题及其演化关系,为领域知识图谱的绘制提供了方法论创新和实证依据。应用价值方面,研究梳理出的五大主题和三个阶段演化路径,为政策制定者把握该领域的研究全貌、识别关键议题、预见发展趋势提供了宏观视角和客观参考;也为后续研究者快速定位研究空白、把握学术前沿、选择研究方向提供了清晰的“学术地图”。

六、 研究亮点 1. 方法创新: 率先在数据要素价值化研究领域引入并完整应用了 BERTopic 主题模型。该方法融合了预训练语言模型的深度语义理解(BERT)、UMAP的流形结构保持降维以及HDBSCAN的自适应密度聚类,克服了传统主题模型在处理短文本、需预设主题数、语义捕捉能力弱等方面的局限,实现了更精准、更自动化的主题挖掘。 2. 系统性的演化分析: 不仅进行了静态的主题识别,还创新性地引入了时序分析维度,清晰揭示了该领域研究热点随国家政策演进和时间推移的动态变化规律,总结出具有说服力的三阶段演进路径,增强了研究的动态性和预见性。 3. 深度的主题解读与整合: 没有停留在模型自动生成的粗糙主题上,而是结合层次聚类、相似度矩阵和空间分布图等多种可视化与量化工具,进行了科学的人工主题合并与命名,使最终得到的五个一级主题具有高度的概括性、区分度和现实解释力,构建了一个层次清晰、逻辑严谨的主题框架。 4. 研究对象的时效性与重要性: 聚焦“数据要素价值化”这一国家重大战略和学术前沿热点,选取2019年(政策起点)至今的最新文献,确保了研究结论能够反映最新的学术动向和政策响应,具有强烈的现实意义。

七、 其他有价值内容 研究在讨论部分指出,数据要素价值化的本质是“技术创新驱动、制度体系重构与产业生态优化的系统性耦合过程”。未来研究重点将转向如何在推动创新和市场化的同时保持监管平衡,跨境数据流动和全球数据治理规则将成为关键议题。这为后续研究指明了潜在的方向。此外,论文详细阐述了BERTopic模型相较于潜在狄利克雷分配(Latent Dirichlet Allocation, LDA)、元胞传输模型(Cell Transmission Model, CTM)等传统方法的优势,为同行在方法选择上提供了有价值的参考。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com