分享自:

安全语音:一种用于分析和检测对话中性别歧视和滥用语言的综合交互式工具

期刊:Association for Computational Linguistics

类型a:学术研究报告

SafeSpeech:一个用于分析对话中性别歧视及侮辱性语言的综合性交互工具

主要作者及机构
本研究的核心团队来自英国多所顶尖高校及法医能力网络(Forensic Capability Network):第一作者Xingwei Tan(华威大学计算机科学系/谢菲尔德大学计算机科学学院)、Chen Lyu、Hafiz M. Umer等共同作者来自华威大学、利兹大学以及英国警方关联机构。研究成果发表于*Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (System Demonstrations)*,2025年4月30日出版。

学术背景与研究目标

科学领域:本研究属于计算语言学与自然语言处理(NLP)领域,聚焦于毒性语言检测(toxic content detection),特别是针对性别歧视(sexism)、骚扰和侮辱性行为的细粒度分析。

研究动机:当前毒性语言检测主要局限于单条消息的二元分类,忽略了对话上下文中的隐性毒性(如情感操控、微攻击等)。现有平台缺乏对多轮对话动态毒性(conversation-level toxicity)的分析能力,且分类模型的可解释性不足。

研究目标:开发SafeSpeech平台,整合消息级(message-level)和对话级(conversation-level)分析,提供以下功能:
1. 基于微调分类器与大语言模型(LLMs)的多粒度毒性检测
2. 毒性感知的对话摘要(toxic-aware summarization)
3. 基于大五人格理论(Big Five personality traits)的说话者行为画像

研究流程与方法

1. 平台架构设计
SafeSpeech采用模块化架构(图1),包含:
- 前端:基于Streamlit的交互界面,支持数据上传、结果可视化
- 后端:集成三类核心模型:
- 微调预训练模型(PLMs):DeBERTa-v3-large、RoBERTa-large、Mistral 7B,在EDOS等数据集上微调
- 大语言模型(LLMs):Llama3.1、GPT-4、Gemini,用于对话级分析
- 融合模型M7-FE:结合DeBERTa、RoBERTa和Mistral的投票集成模型,在性别歧视检测任务中表现最优

2. 毒性检测方法
- 消息级分类
- 三级分类粒度:二进制(是否性别歧视)、4类别(威胁/贬低/敌意/偏见讨论)、11细分类别(如固化性别刻板印象)
- 使用困惑度增益分析(perplexity gain analysis)解释模型决策:通过计算移除句子后输出的困惑度变化,定位对分类结果影响最大的文本片段(图2)。

  • 对话级分析
    • 语义分块(semantic chunking):通过语句嵌入的余弦相似度将长对话分割成语义连贯的片段(如将反复出现的”职场骚扰”话题归并)
    • 毒性感知摘要:基于InstructDS模型生成摘要,并突出标记毒性内容
    • 人格分析:输入对话摘要至LLM,预测说话者在大五人格特质(开放性、尽责性等)上的得分,结合毒性标签生成行为画像(图3)

3. 数据与评估
- 数据集:涵盖EDOS(性别歧视)、HateVal(仇恨言论)、OffenseVal(侮辱性语言)等公开基准
- 评估指标:宏观F1值。M7-FE在EDOS任务A(二元分类)上F1达0.88,超越现有最佳模型1%;在任务C(11细分类别)上F1提高4%

主要结果与贡献

  1. 分类性能突破

    • M7-FE在EXIST 2024竞赛中排名第一(F1=0.76),其双变压器融合网络(DTFN)版本位列第二
    • 在跨数据集测试中,M7-FE对仇恨言论(HateVal)的检测F1达0.51,显示性别歧视与仇恨言论的数据特性重叠
  2. 创新分析工具

    • 困惑度热力图(图2):可视化对话中驱动毒性判定的关键句子,如”贬低性称呼”和”情感不稳定表述”
    • 人格雷达图(图3):量化说话者的神经质(neuroticism)与亲和性(agreeableness)得分,揭示语言攻击性的潜在人格关联
  3. 应用价值

    • 为社交媒体内容审核提供细粒度分析工具,尤其针对针对妇女和女童的暴力(VAWG)场景(图4-5)
    • 模块化设计支持用户自定义提示模板,适配不同监管需求

结论与价值

科学意义
- 首次实现消息级与对话级毒性联合分析,解决隐性毒性检测的上下文依赖问题
- 提出基于困惑度增益的可解释性框架,增强模型透明度

应用前景
- 警方可通过该平台识别对话中的胁迫控制(coercive control)模式(图5)
- 未来计划优化LLM偏见问题,扩展至多语言场景

研究亮点

  1. 多模态分析:同时覆盖文本分类、语义分块、人格预测三重维度
  2. 方法论创新
    • 将困惑度增益从摘要生成迁移至毒性检测
    • 开发毒性感知条件摘要机制,避免关键信息丢失
  3. 工程实现:开源平台集成Hugging Face模型库,支持用户自主扩展

(注:平台界面截图及示例对话详见原文附录A.4)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com