Neha Kaushik和Niladri Chatterjee来自印度理工学院德里分校(Indian Institute of Technology Delhi),他们的研究论文题为“Automatic relationship extraction from agricultural text for ontology construction”,发表于2018年的《Information Processing in Agriculture》期刊上。该研究旨在通过自动提取农业文本中的词汇及其语义关系,构建农业领域的本体(ontology),以支持农业信息的查询与知识表示。
在农业领域,大量的数据以文本、表格和电子表格的形式存在,但这些数据的利用率较低,特别是在发展中国家如印度,决策仍然依赖于专家经验和政府政策,缺乏基于数据的支持。研究团队提出了一种基于规则和自然语言处理技术的方法来构建农业本体,以填补这一空白。研究的主要目标是通过提取农业文本中的术语及其语义关系,自动构建本体,从而为农业领域提供高效的信息处理工具。
研究分为两个主要步骤:首先,使用领域相关的正则表达式和自然语言处理技术从农业文本中自动提取词汇;其次,识别这些术语和短语之间的语义关系。研究团队提出了一种基于规则的推理算法RelexOnt来完成这一任务。在术语提取部分,RENT算法被用于提取单字和复合术语,并通过人工评估其准确性,查准率(precision)为75.7%,查全率(recall)为60%。在关系提取部分,RelexOnt算法表现优异,平均查准率达到86.89%。
研究的核心在于提出了两种关系提取方法:改进的开放信息提取(Modified Open Information Extraction, MOIE)和RelexOnt。MOIE基于开放信息提取技术,但经过修改以适应农业领域的需求。RelexOnt则是一种基于知识的方法,使用领域专家提供的术语和关系列表来提取文本中的相关术语对。研究表明,MOIE在识别同义词关系上表现良好,但对其他关系(如is_a、is_type_of等)的提取效果有限,因此RelexOnt被进一步开发,用于提取更多的语义关系。
RelexOnt算法的框架包括以下几个步骤:首先,确定需要提取的关系类型;然后,为每种关系制定约束条件,筛选出满足条件的术语对。研究中重点提取了四种关系:is_a、is_type_of、has_synonym和is_intercrop。这些关系分别用于识别概念与实例、层次结构、同义词以及间作关系。RelexOnt通过结合WordNet的语义相似度测量和位置向量启发式方法,有效地提取了这些关系。研究团队还使用Protégé生成了本体的OWL文件,展示了提取的术语和关系。
研究的主要结果包括:MOIE在识别同义词关系上取得了67%的查准率和72%的查全率;RelexOnt在10个随机样本上的平均查准率为86.89%。此外,研究还生成了部分本体的可视化图形,展示了提取的术语及其关系。
该研究的科学价值在于提出了一种自动构建农业领域本体的方法,填补了现有农业本体工具在自动创建本体方面的空白。尽管现有的农业词表(如Agrovoc)存在一定的局限性,但该研究通过结合自然语言处理技术和领域知识,成功提取了农业文本中的术语及其关系,为后续的本体扩展和应用提供了基础。
研究的亮点在于其创新性方法和算法设计,特别是在关系提取方面提出的RelexOnt算法。该算法通过结合语义相似度测量和位置向量启发式方法,有效提取了多种语义关系,并展示了较高的查准率。此外,研究还使用了Protégé生成本体的OWL文件,为未来的本体工程提供了实用的工具。
研究的局限性在于其提取的关系类型和术语数量受限于输入文本,某些关系(如grows_in_soil、grows_in_weather)由于文本中缺乏相关信息而未能提取。此外,查全率的计算存在挑战,因为农业文本的规模和复杂性使得全面评估变得困难。未来,研究团队计划扩展算法,纳入更多的农业词汇,并开发增量式算法以合并多个小型本体,从而支持更广泛的农业查询系统。
该研究为农业领域本体的自动构建提供了有效的技术路线,具有较强的科学价值和应用潜力,特别是在农业信息处理和决策支持系统中的应用。