基于双种群遗传编程与主动元学习的协同本体匹配

分享自：
基于双种群遗传编程与主动元学习的协同本体匹配

工程学
信息科学
人工智能
计算机科学
软件工程
期刊:IEEE Transactions on Evolutionary ComputationDOI:10.1109/TEVC.2025.3569336
【点击此处】阅读全文、收藏及针对性提问
关于《协作式本体匹配：基于双种群遗传编程与主动元学习》的学术研究报告
本报告旨在向中文研究界介绍并解读由Xingsi Xue、Jerry Chun-wei Lin和Zhaohang Jiang共同完成，发表于2026年6月《IEEE Transactions on Evolutionary Computation》第30卷第3期的一项创新性研究工作。该研究聚焦于语义网与知识工程领域的核心挑战——本体匹配（Ontology Matching， OM），提出了一种名为DPGP-AML（Dual Population Genetic Programming with Active Meta-Learning）的新型混合方法，旨在通过构建高质量的组合相似性特征来提升匹配的准确性与效率。
一、 研究团队与发表信息
主要作者与机构： Xingsi Xue（通讯作者），IEEE高级会员，工作于福建理工大学大数据挖掘与应用福建省高校重点实验室。
Jerry Chun-wei Lin，IEEE高级会员，工作于波兰西里西亚工业大学分布式系统与IT设备系。
Zhaohang Jiang，工作于太原理工大学电气与动力工程学院。
发表期刊与时间：本研究发表于计算机科学领域的顶级期刊《IEEE Transactions on Evolutionary Computation》（IEEE进化计算汇刊），2026年6月，第30卷第3期。文章于2025年5月12日在线发布，2026年6月1日确定为当前版本。
二、 学术背景与研究动机
本体（Ontology）作为一种结构化的领域知识表示语言，在数据集成、信息交换和智能系统互操作中扮演着关键角色。然而，不同组织独立开发的本体之间存在异构性（如术语、结构、语言差异），阻碍了知识的有效融合。本体匹配（OM）正是解决这一问题的核心技术，其核心任务是识别不同本体中表示相同现实世界概念的实体（如类、属性、实例）之间的等价关系，并生成对齐（Alignment）。
当前OM任务常被视为一个二分类问题，即判断一对来自不同本体的实体是否等价。分类的依据是计算实体间的相似性特征（Similarity Features， SFs），例如基于字符串编辑距离的语法相似度、基于同义词词库（如WordNet）的语义相似度，以及基于本体图结构的结构相似度。然而，单一的相似性特征往往无法全面捕捉复杂异构性下的实体相似性。因此，如何从众多基础SF中自动选择并组合，构建出能够综合多维度信息的高层SF，是提升匹配质量的关键。
遗传编程（Genetic Programming， GP）作为一种进化算法，在特征构造领域已展现出强大能力，可被用于自动发现有效的SF组合表达式。然而，直接将GP应用于OM面临两大挑战：1) 搜索空间巨大且复杂，GP容易陷入局部最优，难以找到全局最优的SF组合；2) 依赖完整标准对齐进行评估，而获取大规模本体的完整标准对齐需要领域专家大量人工标注，成本高昂且易出错。
与此同时，完全自动化的OM方法在精度上已接近瓶颈。近年来，交互式OM结合了自动匹配工具与领域专家反馈，通过主动学习（Active Learning， AL）策略选择性咨询专家，以较少的交互成本显著提升结果质量。但在多人协作验证场景中，专家意见可能存在分歧或错误，如何有效聚合多位专家的投票以形成可靠的最终判断，成为一个新的难题。元学习（Meta-Learning）为利用专家历史行为优化投票聚合模型提供了可能，但这一思路在协作式OM中尚未得到充分探索。
基于上述背景，本研究旨在解决三个核心问题：1) 如何设计更强大的GP算法以克服搜索空间难题，构建更优的高层SF？2) 如何设计高效的主动学习策略，以最小化专家工作量并最大化其反馈价值？3) 如何利用元学习技术，在存在专家错误的情况下，鲁棒地聚合多位专家的验证结果？为此，研究团队提出了DPGP-AML方法。
三、 研究方法与详细工作流程
DPGP-AML是一个集成了双种群遗传编程、主动学习和加权随机森林元学习的复杂系统。其工作流程主要包含三个创新组件，相互协作以完成高质量的SF构建与本体对齐。
第一组件：双种群遗传编程（Dual Population GP， DPGP） DPGP是本研究提出的核心进化算法，用于自动构建高层SF。它包含三个新颖设计： 1. 双层个体表示：传统的GP将SF构造和实体对分类视为两个分离阶段，可能导致次优解。本研究设计了一种统一的GP树结构，包含底层“构造层”和顶层“分类层”。构造层通过算术运算（加、减、乘、除、取大、取小）组合基础SFs（如编辑距离、Jaccard相似度、WordNet相似度、结构相似度等），生成新的复合SF值矩阵。分类层则通过阈值函数（如大于、小于）将连续的SF值矩阵转换为二进制的对齐矩阵（1表示等价，0表示不等价）。这种表示法允许GP同时优化SF的构造形式和分类规则。 2. 基于部分标准对齐的适应度函数：由于完整标准对齐不可得，DPGP使用一个“部分标准对齐”（Partial Standard Alignment， PSA）来近似评估个体（即一个SF构造方案）的优劣。PSA是通过分析本体中“is-a”和“part-of”关系图的节点中心度（入度与出度之和），选取最重要的概念，并利用高效字符串匹配方法SMOA初步确定的高置信度锚点映射集合。基于PSA，研究者定义了近似召回率（基于PSA计算）和近似精确率（综合考虑映射的平均相似度值与正确率），进而计算近似的F值作为适应度，引导进化方向。 3. 双种群协同进化机制与种群多样性增强：算法维护两个种群：一个“较优种群”和一个“较劣种群”。在每一代进化中，较优种群采用确定性交叉操作，即子代只有优于其语义最相似的父代时才替换父代，侧重于利用已有好解；较劣种群采用随机变异操作，侧重于探索新区域。两个种群定期交换精英个体。此外，当某个种群的精英个体连续多代未改进时，会触发种群多样性增强策略：将该种群中“最拥挤”（与其邻居个体语义相似度最高）的部分个体，替换为另一个种群中“最不拥挤”的个体，从而有效帮助算法跳出局部最优。
第二组件：主动学习模型 当DPGP的全局精英个体连续θ代没有改进时，表明进化可能停滞，此时触发主动学习过程。 1. 确定待验证映射：算法从当前最优个体产生的对齐中筛选出“可疑映射”，分为两类：a) 在部分对齐中违反“一对一”对齐原则的映射（即一个实体对应多个实体）；b) 不在部分对齐中，但相似度值超过阈值tsim的潜在正确映射。同时，应用局部一致性原则过滤掉逻辑上矛盾的映射对，以减少需要专家验证的数量。 2. 专家验证与PSA更新：将筛选出的可疑映射提交给多位领域专家进行验证（正确/错误）。根据验证结果，更新PSA：将确认为正确的映射加入PSA，将确认为错误的映射从PSA中移除（如果是PSA原有映射）或记录为负例。更新后的PSA为DPGP提供了新的、更准确的搜索指引，从而引导其朝更可靠的方向进化。
第三组件：基于加权随机森林的元学习模型 在多人协作验证场景下，专家可能犯错。为了鲁棒地聚合多位专家的投票，本研究设计了一个加权随机森林（Weighted Random Forest， WRF）元学习模型。 1. 构建专家投票档案：将历史上每次专家对可疑映射的投票记录（每位专家一票，0或1）以及该映射的最终正确标签（由权威或后续验证确定）收集起来，形成专家投票档案（Expert Vote Archive， EVA）。 2. 训练加权随机森林：将EVA作为训练数据，其中特征为各位专家的投票，标签为映射的正确性。首先训练一个标准的随机森林（由多个决策树组成）。与传统RF给所有树平等投票权不同，WRF为每棵决策树分配一个可学习的权重。 3. 使用紧凑遗传算法优化权重：将决策树权重的分配问题建模为一个优化问题，目标是最大化WRF在验证集上的聚合准确率。研究者采用紧凑遗传算法（一种基于概率模型的进化算法）来高效地搜索最优的权重组合。优化后的WRF能够根据每棵决策树（可视为对专家投票模式的一种学习）的历史表现来加权聚合其预测，从而在专家存在错误时，也能得出更可靠的最终验证结果。这个训练好的WRF模型被用于在主动学习环节聚合当前轮次多位专家的投票，以决定可疑映射的最终标签。
整个DPGP-AML算法在上述三个组件的循环迭代中运行：DPGP进化构建SF -> 进化停滞 -> 主动学习筛选可疑映射 -> WRF聚合专家投票 -> 更新PSA -> 新的PSA指导DPGP继续进化，直至达到最大进化代数。
四、 实验结果与分析
研究在权威的国际本体对齐评估倡议（Ontology Alignment Evaluation Initiative， OAEI）的交互式匹配任务数据集上进行了全面实验，主要使用了会议（Conference）和解剖学（Anatomy）两个经典数据集，并在大型生物医学（Large Biomed）数据集上测试了可扩展性。实验将DPGP-AML与OAEI中先进的交互式OM系统（如AML、LogMap、KEPLER等）进行了对比，并设置了不同的模拟专家错误率（0.0， 0.1， 0.2， 0.3）。
主要结果如下： 1. 整体性能领先：在两个主要数据集上，DPGP-AML在F值（F-measure）和平衡准确率（Balanced Accuracy）两项核心指标上均显著优于所有对比方法。例如，在专家错误率为0的设定下，DPGP-AML在会议数据集上平均F值达到0.841，在解剖学数据集上达到0.959，且所需的交互请求总数（20.8和22.1）相对较少，实现了更高的“每次请求平均改进量”。即使在专家错误率升高至0.3时，其性能下降幅度也小于其他方法，显示了强大的鲁棒性。 2. 双种群策略的有效性验证：通过将DPGP与单种群GP（SPGP）以及另一种流行的多样性保持算法ALPS进行对比实验，结果表明DPGP在绝大多数测试案例上的性能均显著优于SPGP，并与ALPS相当或更优。收敛曲线图显示，DPGP能以更快的速度达到更高的性能平台。这证明了双种群协同进化与多样性增强机制在避免早熟收敛、提升搜索能力方面的关键作用。 3. 加权随机森林聚合的有效性验证：通过将DPGP-AML中的WRF聚合器替换为其他分类器（如逻辑回归、朴素贝叶斯、SVM、决策树、标准随机森林），进行了消融实验。结果表明，采用CGA优化权重的WRF在几乎所有实验设定下都取得了最佳的F值和平衡准确率。这验证了元学习框架通过分析专家历史行为来优化投票聚合策略，能够有效抵御专家错误，提升最终对齐质量。 4. 在大规模任务上的可扩展性：在包含数万级别概念的大型生物医学本体（FMA, SNOMED, NCI）匹配任务中，DPGP-AML依然表现出色，其F值和平衡准确率大幅领先于其他参赛系统。虽然其运行时间不是最短，但在可接受范围内（例如FMA-NCI任务约1221秒），且所需的交互请求数远低于某些竞争对手，展现了良好的效率与效果平衡。
五、 研究结论与价值
本研究成功提出并验证了DPGP-AML这一用于协作式本体匹配的创新框架。其主要结论与价值体现在： * 科学价值：1) 提出了一种新颖的双种群GP框架，通过双层个体表示、PSA适应度函数及协同进化机制，有效解决了OM中SF构造的复杂优化问题，为进化计算在复杂组合优化问题中的应用提供了新思路。2) 开创性地将主动学习与元学习结合用于OM的交互式验证环节，设计了一种能够容忍专家错误、智能聚合群体智慧的协作验证机制，为人机协同知识工程提供了方法论参考。 * 应用价值：DPGP-AML系统能够以更少的专家交互成本，获得更高精度、更鲁棒的本体对齐结果。这对于依赖多源异构本体集成的实际应用场景（如生物医学信息整合、跨领域知识图谱融合、企业数据治理等）具有直接的实用意义，能够降低人工成本，提高知识融合的自动化水平和可靠性。
六、 研究亮点
方法创新性：首次将双种群协同进化GP、主动学习和加权随机森林元学习三者深度融合，形成了一个完整的、自适应的协作式OM解决方案。
问题针对性：精准针对了OM领域三大痛点：SF自动构建的优化难题、专家交互的成本效率问题、多人验证中的错误聚合挑战。
实验充分性：在标准测试集和大型数据集上进行了全面、严格的实验，不仅与前沿方法对比，还通过详尽的消融实验验证了各个核心组件的有效性，结论坚实可信。
性能优越性：在多个指标和不同设定下均展示了领先的性能，特别是在存在专家错误的情况下仍能保持稳健，体现了方法的实用潜力。
七、 其他有价值内容
文章在讨论部分展望了未来工作，计划引入强化学习（Reinforcement Learning）来动态调控DPGP中的探索与利用平衡，例如自适应地决定何时触发种群多样性增强或专家介入，从而进一步减少计算开销并提升优化效率。这为后续研究指明了有前景的方向。
本研究是一项在知识工程与进化计算交叉领域具有重要贡献的工作，其提出的DPGP-AML框架为解决复杂本体匹配问题提供了强大且实用的新工具。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问