分享自:

基于多层混合遗传编程的本体匹配自适应相似性特征构建

期刊:IEEE Transactions on Evolutionary ComputationDOI:10.1109/TEVC.2025.3547578

学术研究报告:基于多层混合遗传编程的自适应相似性特征构建方法用于本体匹配

一、研究作者与发表信息

本研究的核心作者包括:Xingsi Xue(IEEE高级会员,福建理工大学大数据挖掘与应用福建省重点实验室)、Yi Mei(IEEE高级会员,新西兰惠灵顿维多利亚大学工程与计算机科学学院)、Baozhong Zhao(太原理工大学电气与动力工程学院)以及Mengjie Zhang(IEEE会士,惠灵顿维多利亚大学)。研究论文《Adaptive Similarity Feature Construction for Ontology Matching via Multi-Layer Hybrid Genetic Programming》已被IEEE Transactions on Evolutionary Computation接收,计划于2025年正式发表。

二、学术背景与研究目标

科学领域:本研究属于语义网(Semantic Web)与计算智能的交叉领域,聚焦于本体匹配(Ontology Matching, OM)问题。本体是语义网的核心技术,通过定义领域内的概念、属性及关系实现知识共享,而本体匹配旨在识别不同本体中语义相似的实体,以解决异构系统间的数据集成问题。

研究动机:当前本体匹配面临两大挑战:
1. 单一相似性特征(Similarity Feature, SF)的局限性:不同实体的异构性导致单一SF无法普适所有场景。例如,医学本体中“2型糖尿病”与“多饮多尿”的匹配需结合文本相似性(SF1)、上下文相似性(SF2)和层级关系(SF3)才能准确判断。
2. 现有遗传算法(GA)与遗传编程(GP)方法的缺陷:包括依赖默认分类策略、人工确定高层特征数量、参数调优困难等。

研究目标:提出一种多层混合遗传编程(Multi-Layer Hybrid Genetic Programming, MLHGP)方法,自动构建高层相似性特征,优化匹配流程的三个关键阶段——SF构建、实体分类和对齐聚合,从而提升匹配精度。

三、研究方法与流程

1. 多层个体表示设计

MLHGP的核心创新是设计了一种三层GP树结构(图1):
- 构建层(Construction Layer):通过基本SF(如文本相似性、结构相似性)组合生成高层SF。
- 分类层(Classification Layer):将SF值矩阵转换为二元矩阵(1表示匹配,0反之)。
- 聚合层(Aggregation Layer):整合多个二元矩阵生成最终对齐结果。
该结构整合了语法导向GP(G-GP)的层次约束和强类型GP(ST-GP)的类型安全性,支持自适应探索SF组合与分类策略。

2. 基于权重的SF选择策略

  • 置信度权重:根据SF生成的冲突映射数量动态调整,冲突越少权重越高。
  • 多样性权重:与SF类别的选择频率成反比,避免过度集中于少数类别。
    通过轮盘赌算法分两步选择SF:先按类别权重选择类别,再按置信度权重选择具体SF。

3. 自适应变异算子与CGA常数优化

  • 变异:随机替换子树时,基于剩余SF的权重更新子树,保持多样性。
  • 常数优化:采用紧凑遗传算法(Compact GA, CGA)优化GP树中的常数矩阵,提升特征组合的精细度。

4. 实验设计与评估

  • 数据集:使用本体对齐评估倡议(OAEI)的基准数据集,涵盖101-262号测试案例,覆盖简单(结构一致)至复杂(词汇、结构均异构)场景。
  • 对比方法:包括OAEI顶级参赛工具(如Lily、MapSSS)、生成对抗神经网络(GANNs)及传统进化算法(GA、GP)。
  • 评估指标:F-measure(精确率与召回率的调和平均),通过近似计算解决无参考对齐时的评估难题。

四、主要结果

  1. 性能优势:MLHGP在101-247号测试案例中F-measure达1.0,显著优于其他方法;在复杂案例(248-262)中平均F-measure为0.89,较第二名Cromatch(0.65)提升37%。
  2. 案例解析:以205号测试案例为例(图3),MLHGP通过聚合三个子树(分别侧重语法、语言和结构SF),将单个子树的F-measure(0.84-0.90)提升至0.95,验证了多层聚合的有效性。
  3. 消融实验
    • 权重策略:MLHGP在35/47个案例中显著优于随机选择(MLHGPRan)或仅考虑多样性(MLHGPdiv)/置信度(MLHGPcon)的变体。
    • 多层表示:对比G-GP和ST-GP,MLHGP在复杂案例(如249、257号)中F-measure提升5%-15%。

五、结论与价值

科学价值
- 提出首个整合SF构建、分类与聚合的GP框架,解决了传统方法依赖人工干预的问题。
- 理论层面,为复杂异构数据的特征工程提供了可扩展的进化计算范式。

应用价值
- 可应用于医疗、地理信息等领域的多源本体集成,例如跨医院病历系统的疾病术语对齐。
- 开源实现(如算法1的伪代码)为后续研究提供工具基础。

六、研究亮点

  1. 方法创新
    • 多层GP树结构实现端到端优化,突破传统分阶段处理的局限性。
    • 权重策略平衡SF的置信度与多样性,避免过拟合或噪声干扰。
  2. 性能突破:在OAEI基准中创下最优记录,尤其在信息稀缺的复杂案例中表现突出。
  3. 跨学科意义:为语义网、进化计算和特征工程领域提供了交叉研究范例。

七、其他有价值内容

  • 参数敏感性分析(附录B):显示种群大小和最大代数对结果影响显著,而交叉/变异率在宽范围内鲁棒。
  • 局限性:当前未处理本体中的不相交类冲突(如“教师”与“学生”),未来拟扩展逻辑一致性验证模块。

(注:全文约2000字,覆盖研究全貌,重点突出方法创新与实验验证。)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com