分享自:

基于双种群遗传编程与主动元学习的协同本体匹配

期刊:IEEE Transactions on Evolutionary ComputationDOI:10.1109/TEVC.2025.3569336

关于《协作式本体匹配:基于双种群遗传编程与主动元学习》的学术研究报告

本报告旨在向中文研究界介绍并解读由Xingsi Xue、Jerry Chun-wei Lin和Zhaohang Jiang共同完成,发表于2026年6月《IEEE Transactions on Evolutionary Computation》第30卷第3期的一项创新性研究工作。该研究聚焦于语义网与知识工程领域的核心挑战——本体匹配(Ontology Matching, OM),提出了一种名为DPGP-AML(Dual Population Genetic Programming with Active Meta-Learning)的新型混合方法,旨在通过构建高质量的组合相似性特征来提升匹配的准确性与效率。

一、 研究团队与发表信息

  • 主要作者与机构
    • Xingsi Xue(通讯作者),IEEE高级会员,工作于福建理工大学大数据挖掘与应用福建省高校重点实验室。
    • Jerry Chun-wei Lin,IEEE高级会员,工作于波兰西里西亚工业大学分布式系统与IT设备系。
    • Zhaohang Jiang,工作于太原理工大学电气与动力工程学院。
  • 发表期刊与时间:本研究发表于计算机科学领域的顶级期刊《IEEE Transactions on Evolutionary Computation》(IEEE进化计算汇刊),2026年6月,第30卷第3期。文章于2025年5月12日在线发布,2026年6月1日确定为当前版本。

二、 学术背景与研究动机

本体(Ontology)作为一种结构化的领域知识表示语言,在数据集成、信息交换和智能系统互操作中扮演着关键角色。然而,不同组织独立开发的本体之间存在异构性(如术语、结构、语言差异),阻碍了知识的有效融合。本体匹配(OM)正是解决这一问题的核心技术,其核心任务是识别不同本体中表示相同现实世界概念的实体(如类、属性、实例)之间的等价关系,并生成对齐(Alignment)。

当前OM任务常被视为一个二分类问题,即判断一对来自不同本体的实体是否等价。分类的依据是计算实体间的相似性特征(Similarity Features, SFs),例如基于字符串编辑距离的语法相似度、基于同义词词库(如WordNet)的语义相似度,以及基于本体图结构的结构相似度。然而,单一的相似性特征往往无法全面捕捉复杂异构性下的实体相似性。因此,如何从众多基础SF中自动选择并组合,构建出能够综合多维度信息的高层SF,是提升匹配质量的关键。

遗传编程(Genetic Programming, GP)作为一种进化算法,在特征构造领域已展现出强大能力,可被用于自动发现有效的SF组合表达式。然而,直接将GP应用于OM面临两大挑战:1) 搜索空间巨大且复杂,GP容易陷入局部最优,难以找到全局最优的SF组合;2) 依赖完整标准对齐进行评估,而获取大规模本体的完整标准对齐需要领域专家大量人工标注,成本高昂且易出错。

与此同时,完全自动化的OM方法在精度上已接近瓶颈。近年来,交互式OM结合了自动匹配工具与领域专家反馈,通过主动学习(Active Learning, AL)策略选择性咨询专家,以较少的交互成本显著提升结果质量。但在多人协作验证场景中,专家意见可能存在分歧或错误,如何有效聚合多位专家的投票以形成可靠的最终判断,成为一个新的难题。元学习(Meta-Learning)为利用专家历史行为优化投票聚合模型提供了可能,但这一思路在协作式OM中尚未得到充分探索。

基于上述背景,本研究旨在解决三个核心问题:1) 如何设计更强大的GP算法以克服搜索空间难题,构建更优的高层SF?2) 如何设计高效的主动学习策略,以最小化专家工作量并最大化其反馈价值?3) 如何利用元学习技术,在存在专家错误的情况下,鲁棒地聚合多位专家的验证结果?为此,研究团队提出了DPGP-AML方法。

三、 研究方法与详细工作流程

DPGP-AML是一个集成了双种群遗传编程、主动学习和加权随机森林元学习的复杂系统。其工作流程主要包含三个创新组件,相互协作以完成高质量的SF构建与本体对齐。

第一组件:双种群遗传编程(Dual Population GP, DPGP) DPGP是本研究提出的核心进化算法,用于自动构建高层SF。它包含三个新颖设计: 1. 双层个体表示:传统的GP将SF构造和实体对分类视为两个分离阶段,可能导致次优解。本研究设计了一种统一的GP树结构,包含底层“构造层”和顶层“分类层”。构造层通过算术运算(加、减、乘、除、取大、取小)组合基础SFs(如编辑距离、Jaccard相似度、WordNet相似度、结构相似度等),生成新的复合SF值矩阵。分类层则通过阈值函数(如大于、小于)将连续的SF值矩阵转换为二进制的对齐矩阵(1表示等价,0表示不等价)。这种表示法允许GP同时优化SF的构造形式和分类规则。 2. 基于部分标准对齐的适应度函数:由于完整标准对齐不可得,DPGP使用一个“部分标准对齐”(Partial Standard Alignment, PSA)来近似评估个体(即一个SF构造方案)的优劣。PSA是通过分析本体中“is-a”和“part-of”关系图的节点中心度(入度与出度之和),选取最重要的概念,并利用高效字符串匹配方法SMOA初步确定的高置信度锚点映射集合。基于PSA,研究者定义了近似召回率(基于PSA计算)和近似精确率(综合考虑映射的平均相似度值与正确率),进而计算近似的F值作为适应度,引导进化方向。 3. 双种群协同进化机制与种群多样性增强:算法维护两个种群:一个“较优种群”和一个“较劣种群”。在每一代进化中,较优种群采用确定性交叉操作,即子代只有优于其语义最相似的父代时才替换父代,侧重于利用已有好解;较劣种群采用随机变异操作,侧重于探索新区域。两个种群定期交换精英个体。此外,当某个种群的精英个体连续多代未改进时,会触发种群多样性增强策略:将该种群中“最拥挤”(与其邻居个体语义相似度最高)的部分个体,替换为另一个种群中“最不拥挤”的个体,从而有效帮助算法跳出局部最优。

第二组件:主动学习模型 当DPGP的全局精英个体连续θ代没有改进时,表明进化可能停滞,此时触发主动学习过程。 1. 确定待验证映射:算法从当前最优个体产生的对齐中筛选出“可疑映射”,分为两类:a) 在部分对齐中违反“一对一”对齐原则的映射(即一个实体对应多个实体);b) 不在部分对齐中,但相似度值超过阈值tsim的潜在正确映射。同时,应用局部一致性原则过滤掉逻辑上矛盾的映射对,以减少需要专家验证的数量。 2. 专家验证与PSA更新:将筛选出的可疑映射提交给多位领域专家进行验证(正确/错误)。根据验证结果,更新PSA:将确认为正确的映射加入PSA,将确认为错误的映射从PSA中移除(如果是PSA原有映射)或记录为负例。更新后的PSA为DPGP提供了新的、更准确的搜索指引,从而引导其朝更可靠的方向进化。

第三组件:基于加权随机森林的元学习模型 在多人协作验证场景下,专家可能犯错。为了鲁棒地聚合多位专家的投票,本研究设计了一个加权随机森林(Weighted Random Forest, WRF)元学习模型。 1. 构建专家投票档案:将历史上每次专家对可疑映射的投票记录(每位专家一票,0或1)以及该映射的最终正确标签(由权威或后续验证确定)收集起来,形成专家投票档案(Expert Vote Archive, EVA)。 2. 训练加权随机森林:将EVA作为训练数据,其中特征为各位专家的投票,标签为映射的正确性。首先训练一个标准的随机森林(由多个决策树组成)。与传统RF给所有树平等投票权不同,WRF为每棵决策树分配一个可学习的权重。 3. 使用紧凑遗传算法优化权重:将决策树权重的分配问题建模为一个优化问题,目标是最大化WRF在验证集上的聚合准确率。研究者采用紧凑遗传算法(一种基于概率模型的进化算法)来高效地搜索最优的权重组合。优化后的WRF能够根据每棵决策树(可视为对专家投票模式的一种学习)的历史表现来加权聚合其预测,从而在专家存在错误时,也能得出更可靠的最终验证结果。这个训练好的WRF模型被用于在主动学习环节聚合当前轮次多位专家的投票,以决定可疑映射的最终标签。

整个DPGP-AML算法在上述三个组件的循环迭代中运行:DPGP进化构建SF -> 进化停滞 -> 主动学习筛选可疑映射 -> WRF聚合专家投票 -> 更新PSA -> 新的PSA指导DPGP继续进化,直至达到最大进化代数。

四、 实验结果与分析

研究在权威的国际本体对齐评估倡议(Ontology Alignment Evaluation Initiative, OAEI)的交互式匹配任务数据集上进行了全面实验,主要使用了会议(Conference)和解剖学(Anatomy)两个经典数据集,并在大型生物医学(Large Biomed)数据集上测试了可扩展性。实验将DPGP-AML与OAEI中先进的交互式OM系统(如AML、LogMap、KEPLER等)进行了对比,并设置了不同的模拟专家错误率(0.0, 0.1, 0.2, 0.3)。

主要结果如下: 1. 整体性能领先:在两个主要数据集上,DPGP-AML在F值(F-measure)和平衡准确率(Balanced Accuracy)两项核心指标上均显著优于所有对比方法。例如,在专家错误率为0的设定下,DPGP-AML在会议数据集上平均F值达到0.841,在解剖学数据集上达到0.959,且所需的交互请求总数(20.8和22.1)相对较少,实现了更高的“每次请求平均改进量”。即使在专家错误率升高至0.3时,其性能下降幅度也小于其他方法,显示了强大的鲁棒性。 2. 双种群策略的有效性验证:通过将DPGP与单种群GP(SPGP)以及另一种流行的多样性保持算法ALPS进行对比实验,结果表明DPGP在绝大多数测试案例上的性能均显著优于SPGP,并与ALPS相当或更优。收敛曲线图显示,DPGP能以更快的速度达到更高的性能平台。这证明了双种群协同进化与多样性增强机制在避免早熟收敛、提升搜索能力方面的关键作用。 3. 加权随机森林聚合的有效性验证:通过将DPGP-AML中的WRF聚合器替换为其他分类器(如逻辑回归、朴素贝叶斯、SVM、决策树、标准随机森林),进行了消融实验。结果表明,采用CGA优化权重的WRF在几乎所有实验设定下都取得了最佳的F值和平衡准确率。这验证了元学习框架通过分析专家历史行为来优化投票聚合策略,能够有效抵御专家错误,提升最终对齐质量。 4. 在大规模任务上的可扩展性:在包含数万级别概念的大型生物医学本体(FMA, SNOMED, NCI)匹配任务中,DPGP-AML依然表现出色,其F值和平衡准确率大幅领先于其他参赛系统。虽然其运行时间不是最短,但在可接受范围内(例如FMA-NCI任务约1221秒),且所需的交互请求数远低于某些竞争对手,展现了良好的效率与效果平衡。

五、 研究结论与价值

本研究成功提出并验证了DPGP-AML这一用于协作式本体匹配的创新框架。其主要结论与价值体现在: * 科学价值:1) 提出了一种新颖的双种群GP框架,通过双层个体表示、PSA适应度函数及协同进化机制,有效解决了OM中SF构造的复杂优化问题,为进化计算在复杂组合优化问题中的应用提供了新思路。2) 开创性地将主动学习与元学习结合用于OM的交互式验证环节,设计了一种能够容忍专家错误、智能聚合群体智慧的协作验证机制,为人机协同知识工程提供了方法论参考。 * 应用价值:DPGP-AML系统能够以更少的专家交互成本,获得更高精度、更鲁棒的本体对齐结果。这对于依赖多源异构本体集成的实际应用场景(如生物医学信息整合、跨领域知识图谱融合、企业数据治理等)具有直接的实用意义,能够降低人工成本,提高知识融合的自动化水平和可靠性。

六、 研究亮点

  1. 方法创新性:首次将双种群协同进化GP、主动学习和加权随机森林元学习三者深度融合,形成了一个完整的、自适应的协作式OM解决方案。
  2. 问题针对性:精准针对了OM领域三大痛点:SF自动构建的优化难题、专家交互的成本效率问题、多人验证中的错误聚合挑战。
  3. 实验充分性:在标准测试集和大型数据集上进行了全面、严格的实验,不仅与前沿方法对比,还通过详尽的消融实验验证了各个核心组件的有效性,结论坚实可信。
  4. 性能优越性:在多个指标和不同设定下均展示了领先的性能,特别是在存在专家错误的情况下仍能保持稳健,体现了方法的实用潜力。

七、 其他有价值内容

文章在讨论部分展望了未来工作,计划引入强化学习(Reinforcement Learning)来动态调控DPGP中的探索与利用平衡,例如自适应地决定何时触发种群多样性增强或专家介入,从而进一步减少计算开销并提升优化效率。这为后续研究指明了有前景的方向。

本研究是一项在知识工程与进化计算交叉领域具有重要贡献的工作,其提出的DPGP-AML框架为解决复杂本体匹配问题提供了强大且实用的新工具。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com