这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
基于Spacy库与Levenshtein算法的西班牙语地名实体识别对比研究
作者及机构
本研究由Universidad del Azuay的Marcos Orellana(marore@uazuay.edu.ec)和Catalina Fárez(cfarez19@es.uazuay.edu.ec),以及Universidad de Cuenca的Paúl Cárdenas(paul.cardenas@ucuenca.edu.ec)合作完成,发表于2020年IEEE国际数字转型与创新技术会议(INCODTRIN),DOI编号10.1109/incodtrin51881.2020.00035。
学术背景
研究领域为自然语言处理(NLP)中的命名实体识别(Named Entity Recognition, NER),重点关注西班牙语文本中地理位置标签的提取。当前,社交媒体和网站产生的非结构化文本激增,但针对西班牙语的NER工具研究较少,且现有工具(如基于规则或机器学习的方法)性能差异显著。研究团队旨在通过对比两种主流技术——基于神经网络的Spacy库和基于编辑距离的Levenshtein算法,确定最适合西班牙语地名识别的方案。
研究背景知识包括:
1. NER技术:分为规则驱动和机器学习驱动两类,后者通过训练数据自动生成识别规则,精度可达0.95。
2. Levenshtein算法:通过计算字符串间的最小编辑距离(插入、删除、替换操作次数)衡量相似性,阈值(threshold)范围为0-1。
3. 语言特殊性:西班牙语的地名常含复合词(如“Avenida Enrique Arizaga”),需处理词形变化和缩写。
研究目标为:
- 评估Spacy和Levenshtein在西班牙语地名识别中的性能差异;
- 提出适用于拉丁美洲城市(如厄瓜多尔昆卡)的优化方案。
研究流程
研究分为四个阶段,具体如下:
数据采集与预处理
人工标注与词典构建
json {"text": "Socorristas auxilian... en Av Enrique Arizaga", "labels": [[77, 92, "loc"]]} 实验设计
性能评估
主要结果
1. Spacy性能
- 最佳结果为T1(无词典、无n-gram):精确率96.2%、召回率96.9%、F1值96.5%。
- 使用词典时(T3/T4),精确率降至78%,因拼写错误导致词典匹配失败,但召回率仍高达97.2%,显示神经网络对噪声的鲁棒性。
Levenshtein性能
对比分析
结论与价值
1. 科学价值:
- 证明机器学习驱动的NER在西班牙语中的优越性,尤其适用于社交媒体文本的噪声环境;
- 提出针对西班牙语地名的Spacy参数优化方案(如禁用词典以提升精度)。
研究亮点
- 创新方法:首次系统对比Spacy与Levenshtein在西班牙语NER中的表现;
- 数据特殊性:聚焦昆卡市地理名称,构建定制化词典;
- 可复现性:公开参数组合和评估指标,便于其他研究验证。
其他贡献
- 提出Dropout率0.3为NER任务的最优值(引用自作者前期研究);
- 强调社交媒体文本预处理(如去除URL)对提升NER性能的关键作用。
此研究为西班牙语信息提取领域提供了方法论和实践指导,未来可扩展至其他实体类型(如人名、组织名)。