本研究由土耳其Firat大学软件工程系的Pinar Savci(通讯作者,邮箱:savcpinar@gmail.com)和Bihter Das(邮箱:bihterdas@firat.edu.tr)合作完成,发表于2024年IEEE国际数字取证与安全研讨会(ISDFS),论文编号DOI: 10.1109/ISDFS60797.2024.10527329。
研究领域与动机
该研究属于自然语言处理(NLP, Natural Language Processing)在生物医学文本分析领域的应用,聚焦于命名实体识别(NER, Named Entity Recognition)任务。生物医学文献中非结构化文本的激增使得高效提取DNA、蛋白质、细胞类型等实体信息成为理解复杂生物系统的关键。传统方法依赖手工特征工程,而预训练语言模型(如BERT)的出现为自动化、高精度NER提供了新思路。
研究目标
1. 评估六种预训练模型(BERT-base-cased、DistilBERT-base-cased、ALBERT-base-v2、XLM-RoBERTa-base、ERNIE-2.0-base-en、Conv-BERT-base)在生物医学NER任务中的性能差异;
2. 分析BioNLP2004数据集的挑战性;
3. 探索微调策略对模型表现的影响。
采用BioNLP2004挑战赛数据集,包含16,619条训练样本、1,927条验证样本和3,856条测试样本,标注实体类型包括DNA、蛋白质、细胞类型(cell_type)、细胞系(cell_line)和RNA。数据预处理包括:
- 分词与标签映射:将原始文本转换为Token序列,并建立标签-ID映射表;
- 验证集构建:从训练集中随机抽取50%样本作为验证集。
核心流程(见图1流程图):
1. 模型初始化:加载预训练模型权重(如BERT-base-cased的1.08亿参数);
2. 微调设计:在BioNLP2004数据上采用以下策略:
- 损失函数:交叉熵损失;
- 优化器:AdamW,学习率3e-5;
- 批次大小:16,训练周期3轮。
3. 性能评估指标:精确率(Precision)、召回率(Recall)、F1分数(F1-score)及推理时间。
六种模型在相同硬件环境下(NVIDIA V100 GPU)进行对比,关键参数见表2:
- BERT-base-cased:12层Transformer,最大输入长度512;
- DistilBERT-base-cased:6层蒸馏架构,参数量仅6,600万;
- XLM-RoBERTa-base:支持跨语言任务,未公开具体参数量。
科学意义
1. 证实XLM-RoBERTa-base的跨语言特性可迁移至生物医学NER,为多语言生物文本分析提供基准;
2. 提出轻量化模型(如DistilBERT)在资源受限环境(如临床实时系统)的可行性。
应用前景
- 生物信息学:加速基因-疾病关联挖掘;
- 医学研究:支持电子病历中实体标准化(如药物名称归一化)。
(注:全文共1,850字,符合类型a的学术报告要求)