类型a:学术研究报告
主要作者及机构
本研究的核心团队来自英国多所顶尖高校及法医能力网络(Forensic Capability Network):第一作者Xingwei Tan(华威大学计算机科学系/谢菲尔德大学计算机科学学院)、Chen Lyu、Hafiz M. Umer等共同作者来自华威大学、利兹大学以及英国警方关联机构。研究成果发表于*Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (System Demonstrations)*,2025年4月30日出版。
科学领域:本研究属于计算语言学与自然语言处理(NLP)领域,聚焦于毒性语言检测(toxic content detection),特别是针对性别歧视(sexism)、骚扰和侮辱性行为的细粒度分析。
研究动机:当前毒性语言检测主要局限于单条消息的二元分类,忽略了对话上下文中的隐性毒性(如情感操控、微攻击等)。现有平台缺乏对多轮对话动态毒性(conversation-level toxicity)的分析能力,且分类模型的可解释性不足。
研究目标:开发SafeSpeech平台,整合消息级(message-level)和对话级(conversation-level)分析,提供以下功能:
1. 基于微调分类器与大语言模型(LLMs)的多粒度毒性检测
2. 毒性感知的对话摘要(toxic-aware summarization)
3. 基于大五人格理论(Big Five personality traits)的说话者行为画像
1. 平台架构设计
SafeSpeech采用模块化架构(图1),包含:
- 前端:基于Streamlit的交互界面,支持数据上传、结果可视化
- 后端:集成三类核心模型:
- 微调预训练模型(PLMs):DeBERTa-v3-large、RoBERTa-large、Mistral 7B,在EDOS等数据集上微调
- 大语言模型(LLMs):Llama3.1、GPT-4、Gemini,用于对话级分析
- 融合模型M7-FE:结合DeBERTa、RoBERTa和Mistral的投票集成模型,在性别歧视检测任务中表现最优
2. 毒性检测方法
- 消息级分类:
- 三级分类粒度:二进制(是否性别歧视)、4类别(威胁/贬低/敌意/偏见讨论)、11细分类别(如固化性别刻板印象)
- 使用困惑度增益分析(perplexity gain analysis)解释模型决策:通过计算移除句子后输出的困惑度变化,定位对分类结果影响最大的文本片段(图2)。
3. 数据与评估
- 数据集:涵盖EDOS(性别歧视)、HateVal(仇恨言论)、OffenseVal(侮辱性语言)等公开基准
- 评估指标:宏观F1值。M7-FE在EDOS任务A(二元分类)上F1达0.88,超越现有最佳模型1%;在任务C(11细分类别)上F1提高4%
分类性能突破:
创新分析工具:
应用价值:
科学意义:
- 首次实现消息级与对话级毒性联合分析,解决隐性毒性检测的上下文依赖问题
- 提出基于困惑度增益的可解释性框架,增强模型透明度
应用前景:
- 警方可通过该平台识别对话中的胁迫控制(coercive control)模式(图5)
- 未来计划优化LLM偏见问题,扩展至多语言场景
(注:平台界面截图及示例对话详见原文附录A.4)