本文发表于学术期刊 materials today communications 第26卷(2021年),文章编号为102032,已于2021年1月13日在线发表。该研究由Yingli Liu、Changhui Yao、Chen Niu、Wuliang Li、Jiancheng Yin和Tao Shen*为主要作者,其中Tao Shen为通讯作者。作者主要来自昆明理工大学信息工程与自动化学院和云南省计算机技术应用重点实验室,部分成员来自昆明理工大学材料科学与工程学院。此项研究聚焦于材料信息学与自然语言处理的交叉领域,旨在利用文本挖掘技术解决材料基因组计划中的数据瓶颈问题。
随着材料基因组计划的提出,数据驱动模型已成为现代材料研发的核心。然而,机器学习所需的海量、高质量材料数据难以通过现有的公开共享数据库便捷获取,这极大地制约了材料性能预测与新材料设计的发展。尽管已发表的大量材料科学文献蕴含着丰富的材料数据(如成分、工艺、性能),但由于缺乏成熟的自动化信息提取方法,这些“知识宝库”尚未被有效利用。
自然语言处理是文本挖掘的常用方法,而命名实体识别作为NLP的关键任务,能够从非结构化文本中自动识别并提取出具有特定意义的实体信息(如人名、地名、化学物质名等)。将NER技术应用于材料领域,即材料实体识别,可以高效地从文献中抽取材料成分、性能、制备方法等关键数据。然而,该领域存在一个根本性挑战:缺少公开的、高质量的、专门针对材料实体标注的语料库数据集,使得研究人员难以直接训练和验证适用于材料领域的NER模型。
因此,本研究设定了以下目标: 1. 构建特定材料领域的实体数据集:以“喷射沉积过共晶Al-Si合金”这一具体材料体系为例,构建一个经过人工精准标注、可用于MER研究的公共数据集——过共晶Al-Si合金实体数据集。 2. 开发低标注成本的高效MER方法:针对材料领域初始标注数据稀缺的现状,提出一种结合主动学习的MER方法框架,旨在利用尽可能少的人工标注,训练出高性能的实体识别模型,从而低成本、高效率地从文献中挖掘有效材料数据。 3. 验证方法有效性:通过具体实验,证明该方法能够显著提升模型识别精度与泛化能力,为MGI研究者快速获取材料数据提供一条有效的技术路径。
本研究的工作流程环环相扣,分为数据准备与数据集构建、结合主动学习的材料实体识别两大核心阶段。
第一阶段:数据准备与HASE数据集构建 1. 文献收集与处理:研究人员手动检索并下载了大量与过共晶Al-Si合金相关的科学文献,并将材料制备方法限定为“喷射沉积”。最终筛选出89篇相关文献。由于文献多为PDF格式,研究者结合格式转换工具与人工调整,将所有文档转换为纯文本格式,以便后续处理。 2. 实体类别定义:在过共晶Al-Si合金领域专家的指导下,根据合金材料研究中通常关注的信息类型,将实体划分为五大类: * 材料:过共晶Al-Si合金的材料名称或牌号。 * 元素:材料中各组分的元素名称。 * 成分百分比:合金中各元素的组成百分比。 * 方法:文献中进行的实验与测试方法名称,如“喷射沉积”、“拉伸测试”。 * 性能:合金的主要物理与机械性能,如“硬度”、“热膨胀系数”。 3. 人工标注与数据集形成:使用专用的序列标注工具Yedda,采用BIO标注格式对文献中选定的段落进行精细的人工标注。BIO格式中,“B-实体类型”表示实体开始,“I-实体类型”表示实体内部,“O”表示非实体。经过此步骤,构建了初始的HASE数据集,共包含5635个句子,8845个手动标注的材料实体。
第二阶段:结合主动学习的材料实体识别 此阶段的核心是在初始标注数据有限的情况下,通过迭代过程逐步扩充训练数据,提升模型性能。其整体工作流程是一个“训练-评估-选择-标注-再训练”的循环。
初始数据划分与扩展集准备:
材料实体识别核心模型(BigRU-CRF):
主动学习循环(数据扩充机制): 这是本研究的创新与关键环节,旨在用最少的人工介入最大化地扩充高质量标注数据。
本研究得出以下核心结论: 1. 方法论价值:提出的结合主动学习的材料实体识别方法,有效降低了专业领域内人工标注数据的成本,同时提升了模型对未知文本的实体识别能力(召回率达到78%)。这种“人机协同”的半自动化数据扩充范式,为解决材料信息学及其他垂直领域中小样本下的NLP任务提供了可行的技术方案。 2. 技术有效性:针对过共晶Al-Si合金文本的特性,综合运用基于规则、字典和模型的混合自动标注策略,使得最终的MER模型F1值达到84%,超过了预设目标,验证了该混合方法在材料实体识别任务中的有效性。 3. 领域应用价值:本研究构建的HASE数据集是材料领域首个公开的、针对特定合金体系的细粒度实体标注数据集,可为后续相关研究提供基准。所训练的模型能够自动从海量文献中精准提取材料成分、工艺、性能等结构化数据,为构建材料知识图谱、加速材料发现与设计提供了直接的数据支持,具有重要的理论意义与实际应用价值。
研究团队在文中也指出了该方法的可扩展性。他们强调,虽然本研究以过共晶Al-Si合金为例,但所提出的结合主动学习的MER方法框架具有普适性,可以推广应用于其他材料体系(如铜合金、钛合金、高分子材料等)的文献文本挖掘中。这为整个材料科学领域利用历史文献知识加速创新提供了通用的技术工具。