通过对比自去偏与双重数据增广缓解预训练语言模型的社会偏见

引言:

当前,预训练语言模型(PLM)在自然语言处理领域获得了广泛应用,但它们存在继承并放大训练语料中的社会偏见的问题。社会偏见可能导致PLM在现实应用中产生不可预测的风险,如自动求职筛选系统会由于性别偏见而将需要逻辑能力的工作(如医生、程序员等)倾向于分配给男性,将需要照顾能力的工作(如护士、保姆等)分配给女性;医疗系统则可能存在种族偏见,计算显示在相同风险水平下,黑人病人比白人病人更”虚弱”。因此,消除PLM编码中的社会偏见成为一个富有意义且具有挑战性的研究领域。

论文来源:

该论文发表于2024年的权威期刊《人工智能》(Artificial Intelligence)第332期,第作者为李颖吉,第二作者为Mengnan Du,其余作者分别来自吉林大学计算机科学与技术学院、新泽西理工学院数据科学系、吉林大学人工智能学院以及教育部计算机辅助设计与图形学重点实验室。

研究内容及创新点:

该论文提出了一种对比自去偏模型(CD3),通过双重数据增广和对比自去偏两个阶段,有效缓解了PLM编码中的社会偏见。

双重数据增广阶段首先利用敏感属性词(如male/female)对原始语料进行第一轮增广,得到正样本对,然后自动搜索能最大化不同人口群体PLM编码差异的偏差prompt,将其与第一轮增广样本拼接,进行第二轮数据增广。这种方法打破了之前依赖人工经验的数据增广方法的局限性。

对比自去偏阶段利用增广后的语料,通过对比学习训练一个可插拔的自去偏适配器(adapter),将PLM的句子表示从原有的偏差空间映射到一个去偏的新空间,而无需更新PLM自身的参数。该适配器广泛适用于任何PLM模型,节省了大量计算资源,同时保留了PLM的语言模型能力。

该论文在多个真实世界数据集和公平性指标上评估了性别和种族去偏的效果,实验结果表明,相比基线模型,CD3在BERT、ALBERT和ROBERTA上均取得了卓越的去偏表现,同时保留了PLM的语言模型能力。

研究流程及方法:

一、双重数据增广(double data augmentation)

1) 利用敏感属性词替换对原始语料进行第一轮数据增广,得到正样本对。

2) 自动搜索偏差prompt:针对每个正样本对,在给定的搜索空间中寻找能最大化两个句子表示距离的prompt序列作为偏差prompt。具体做法是,每轮迭代中计算当前prompt候选的句子表示余弦相似度,选取最小的Top K个作为本轮结果,并与下一轮迭代的候选拼接,重复进行直至结束迭代。

3) 将得到的偏差prompt与第一轮增广的正样本对拼接,得到最终的增广语料。

二、对比自去偏 (contrastive self-debiasing)

1) 将增广语料输入PLM编码器得到句子表示。

2) 通过一个可训练的适配器G将句子表示从原空间映射到新空间,输出为去偏后的句子表示。

3) 将正样本对的去偏表示输入对比损失函数,对比损失函数旨在最小化正样本对去偏表示之间的距离,最大化与其他样本的距离。

4) 通过对比学习训练适配器G的参数,使得G能够将PLM编码空间中的社会偏见过滤掉。

5) 训练完成后,适配器G可广泛应用于任何PLM模型,在下游任务前滤除社会偏见。

亮点总结:

1) 双重数据增广策略通过自动搜索偏差prompt,进一步增强了不同人口群体间正样本对的偏差,突破了依赖人工先验知识的局限。

2) 去偏适配器无需访问PLM内部结构和参数,只训练轻量级适配器参数即可完成去偏,节省大量计算资源且不影响PLM的语言模型能力。

3) 在多个真实世界数据集和评估指标上,性别和种族去偏均取得卓越表现,且效果稳定,显示出较强的泛化能力。

该论文探讨了PLM种族偏见的挑战,指出现有敏感属性词无法充分覆盖种族偏见,导致目前大多数方法专注于性别偏见而难以推广到其他社会偏见。作者提出的去偏策略在一定程度上缓解了对人工经验的依赖,为更好地解决种族偏见问题提供了新思路。