这篇文档属于类型a,即报告了一项原创性研究。以下是针对该研究的学术报告:
该研究由Thomas Hartvigsen(弗吉尼亚大学、MIT)、Swami Sankaranarayanan(Sony AI)、Hamid Palangi(微软研究院)、Yoon Kim(MIT)和Marzyeh Ghassemi(MIT)共同完成,发表于第37届NeurIPS(Conference on Neural Information Processing Systems)2023会议。
研究领域:该研究属于自然语言处理(NLP)和机器学习领域,聚焦于预训练语言模型的持续编辑(lifelong model editing)问题。
研究动机:预训练模型(如T5、BERT、GPT)在部署后可能因输入分布漂移(input distribution shift)、用户需求变化或知识过时而表现不佳。传统的全模型微调或重新训练代价高昂(例如LLaMA训练成本超过240万美元),而现有模型编辑方法(如MEND、ROME)在多次连续编辑后性能会快速衰退。
研究目标:提出一种名为GRACE(General Retrieval Adaptors for Continual Editing)的方法,通过不修改模型权重的方式实现高效、持续的模型行为编辑,同时保证对无关输入的干扰最小化。
研究首先定义了“终身模型编辑”的任务:在不遗忘原始性能或先前编辑的前提下,对同一模型进行数百至数千次连续编辑。形式化表述为:
- 给定预训练模型f0,监控其部署中的预测错误(ŷt ≠ yt)。
- 每次编辑需满足三个目标:
(1) 修正当前错误(f(xt) = yt);
(2) 保留对历史编辑的修正(f(x
(3) 保持原始训练数据的性能(f(xi) = f0(xi))。
GRACE的核心是在模型某一层(如Transformer的中间层)插入离散键值适配器(discrete key-value adaptor),包含以下组件:
- 代码簿(Codebook):存储键(keys,输入激活hl-1)、值(values,目标输出映射)和阈值(ϵ,控制编辑泛化范围)。
- 延迟机制(Deferral Mechanism):基于输入与键的欧氏距离决定是否激活编辑。若输入hl-1与某键的距离小于其ϵ,则替换该层输出为对应值;否则保留原始模型输出。
- 代码簿维护策略:
- 新增键值:当输入不在任何现有ϵ球内时,创建新条目。
- 键值分裂:若新输入与某键标签冲突,则缩小原键的ϵ并新增键。
- 值训练:通过反向传播微调值向量,确保其映射到正确输出。
研究在三个任务上验证GRACE的性能:
1. 问答任务(T5模型):使用ZSRE数据集,编辑模型以修正错误答案,评估编辑后对Natural Questions(NQ)测试集的保留性能。
2. 分类任务(BERT模型):基于SCOTUS法律文本数据集,模拟标签分布漂移下的持续编辑。
3. 生成任务(GPT-2模型):针对SelfCheckGPT标注的幻觉文本,编辑模型以生成事实准确的句子。
基线方法:
- 连续微调(Finetuning, FT)及其变体(如弹性权重固化EWC、经验回放Retrain)。
- 现有模型编辑器(MEND、ROME、SERAC启发的Defer)。
- 软注意力记忆网络(Memory)作为GRACE的对照。
评价指标:
- 编辑成功率(Edit Success, ES)、测试保留率(Test Retention Rate, TRR)、编辑保留率(Edit Retention Rate, ERR)。
- 代码簿大小、推理时间开销。
通过将ZSRE的问题改写分为编辑集和保留集,研究发现:
- 泛化能力:编辑后的模型对未见过的改写问题(holdouts)F1达0.99,表明GRACE通过ϵ-ball实现了语义相似的泛化。
- 层选择影响:中间层(如T5的Block 4)比早期或后期层表现更好,因其隐含更具语义意义的表示。
科学价值:
1. 提出首个支持千次连续编辑的方法,解决了现有编辑器因权重直接修改导致的性能衰退问题。
2. 通过离散键值适配器和ϵ-ball机制,实现了编辑的局部性与泛化性平衡。
应用价值:
- 为实际部署中的模型提供低成本、可追溯的即时修正(如纠正偏见、更新知识)。
- 代码簿可独立检查或回滚,增强模型编辑的透明性。
(全文约2200字)