学术研究报告:基于多层混合遗传编程的自适应相似性特征构建方法用于本体匹配
本研究的核心作者包括:Xingsi Xue(IEEE高级会员,福建理工大学大数据挖掘与应用福建省重点实验室)、Yi Mei(IEEE高级会员,新西兰惠灵顿维多利亚大学工程与计算机科学学院)、Baozhong Zhao(太原理工大学电气与动力工程学院)以及Mengjie Zhang(IEEE会士,惠灵顿维多利亚大学)。研究论文《Adaptive Similarity Feature Construction for Ontology Matching via Multi-Layer Hybrid Genetic Programming》已被IEEE Transactions on Evolutionary Computation接收,计划于2025年正式发表。
科学领域:本研究属于语义网(Semantic Web)与计算智能的交叉领域,聚焦于本体匹配(Ontology Matching, OM)问题。本体是语义网的核心技术,通过定义领域内的概念、属性及关系实现知识共享,而本体匹配旨在识别不同本体中语义相似的实体,以解决异构系统间的数据集成问题。
研究动机:当前本体匹配面临两大挑战:
1. 单一相似性特征(Similarity Feature, SF)的局限性:不同实体的异构性导致单一SF无法普适所有场景。例如,医学本体中“2型糖尿病”与“多饮多尿”的匹配需结合文本相似性(SF1)、上下文相似性(SF2)和层级关系(SF3)才能准确判断。
2. 现有遗传算法(GA)与遗传编程(GP)方法的缺陷:包括依赖默认分类策略、人工确定高层特征数量、参数调优困难等。
研究目标:提出一种多层混合遗传编程(Multi-Layer Hybrid Genetic Programming, MLHGP)方法,自动构建高层相似性特征,优化匹配流程的三个关键阶段——SF构建、实体分类和对齐聚合,从而提升匹配精度。
MLHGP的核心创新是设计了一种三层GP树结构(图1):
- 构建层(Construction Layer):通过基本SF(如文本相似性、结构相似性)组合生成高层SF。
- 分类层(Classification Layer):将SF值矩阵转换为二元矩阵(1表示匹配,0反之)。
- 聚合层(Aggregation Layer):整合多个二元矩阵生成最终对齐结果。
该结构整合了语法导向GP(G-GP)的层次约束和强类型GP(ST-GP)的类型安全性,支持自适应探索SF组合与分类策略。
科学价值:
- 提出首个整合SF构建、分类与聚合的GP框架,解决了传统方法依赖人工干预的问题。
- 理论层面,为复杂异构数据的特征工程提供了可扩展的进化计算范式。
应用价值:
- 可应用于医疗、地理信息等领域的多源本体集成,例如跨医院病历系统的疾病术语对齐。
- 开源实现(如算法1的伪代码)为后续研究提供工具基础。
(注:全文约2000字,覆盖研究全貌,重点突出方法创新与实验验证。)