分享自:

基于预训练语言模型的持续学习方法

期刊:哈尔滨工业大学

哈尔滨工业大学博士学位论文《基于预训练语言模型的持续学习方法》学术报告

作者及机构
本博士学位论文由哈尔滨工业大学深圳校区博士研究生张晗完成,导师为徐睿峰教授,合作导师为王晖研究员,属于电子信息类专业学位博士论文,答辩于2025年5月。

学术背景
论文聚焦自然语言处理(Natural Language Processing, NLP)领域中的持续学习(Continual Learning)问题。随着预训练语言模型(Pre-trained Language Models, PLMs)在文本分类、信息抽取和文本生成等任务中的广泛应用,模型面临动态场景下数据分布变化带来的泛化性挑战。传统静态模型需频繁重新训练以适配新任务,但PLMs的海量参数导致计算成本高昂。持续学习技术通过平衡新知识学习与旧知识保留,成为解决这一问题的关键。然而,现有方法存在灾难性遗忘(Catastrophic Forgetting)和可塑性-稳定性失衡等瓶颈。本研究针对编码器、解码器和编码器-解码器三类PLMs架构,系统探索了NLP三大类下游任务的持续学习方法。

研究内容与方法
1. 持续文本分类任务
- 问题:新类别学习干扰历史类别性能。
- 方法:提出基于正交表示的对偶记忆框架。通过理论推导证明文本类别表示相似性与遗忘程度正相关,设计多空间正交映射模块分解新类别特征为与历史原型正交的分量,结合知识自蒸馏(Knowledge Self-Distillation)和动态正则化策略实现知识融合。
- 实验:在公开数据集上验证,新框架较基线方法准确率提升显著(具体数据见原文2.5节),消融实验证实正交表示模块贡献最大(+8.2%)。

  1. 持续关系抽取任务

    • 问题:关系类型增量扩展时语义信息丢失。
    • 方法:设计基于知识注入原型的框架,通过多头注意力融合PLMs语义与样本特征生成动态关系原型,提出稳定性-可塑性平衡门控机制动态调整回放权重。
    • 实验:在三个基准数据集上,长任务序列场景下准确率较最佳基线提升12.7%,少样本学习场景F1值提高9.3%。
  2. 持续多语言机器翻译任务

    • 问题:缺乏测评基准与语种数据分布失衡。
    • 方法:构建首个持续多语言翻译测评基准CN-25(覆盖25种语言),提出元学习框架Meta-MMT,通过卷积神经网络元模型预测关键参数并施加弹性正则化。
    • 实验:跨语族任务中历史语言性能保留率较传统方法提升23.5%,数据均衡性经主题对齐后提升37%。
  3. 持续人类偏好学习任务

    • 问题:人类偏好动态变化导致策略失配。
    • 方法:提出样本自适应权重的持续近端策略优化算法(CPPO),将轨迹样本分类为高性能/高方差等五类,动态分配权重平衡学习与保留。
    • 实验:在摘要生成和开放域问答任务中,CPPO较PPO基线ROUGE-L提升4.8,人工评估偏好符合率提高19%。
  4. 持续价值观对齐任务

    • 问题:不当输出难以数据溯源。
    • 方法:提出基于影响函数(Influence Functions)的两阶段框架,通过线性近似计算定位关键样本,结合伯尔格曼优化(Bregman Optimization)后训练修正模型行为。
    • 实验:有害性降低42%的同时保留95%有用性,在未见过越狱攻击场景中泛化误差仅2.3%。

主要结果与逻辑链条
- 正交表示框架通过理论驱动(2.3节)与实验验证(2.5节),证明表示解耦可有效隔离任务干扰;
- 知识注入原型在关系抽取中通过动态门控(3.3.4节)实现长序列稳定性,实验(3.4.2节)显示其内存效率优于回放方法;
- CN-25基准的构建(4.2节)填补了领域空白,Meta-MMT框架(4.3节)的元学习机制为多语言扩展提供通用范式;
- CPPO算法(5.3节)的样本分类策略与权重分配形成闭环优化,实验(5.4节)证实其训练稳定性显著提升;
- 影响函数框架(6.4节)通过线性近似与批次查询实现高效归因,安全对齐赛道夺冠验证其实用性。

结论与价值
1. 科学价值:建立了PLMs持续学习的理论-方法-基准完整体系,突破动态场景下模型迭代的技术瓶颈。
2. 应用价值
- 持续分类与关系抽取技术应用于鹏城实验室开源项目;
- CN-25语料支撑“鹏城·通言”翻译模型,服务“一带一路”小语种需求;
- 价值观对齐方法通过工信部认证,保障“鹏城·脑海”大模型安全部署。

研究亮点
1. 方法论创新:首次将正交性理论应用于NLP持续学习,提出任务解耦的通用框架;
2. 技术突破:元学习驱动的多语言扩展、影响函数引导的价值观对齐均为领域首创;
3. 工程贡献:构建首个以中文为核心的持续翻译基准CN-25,推动产业落地。

其他价值
论文成果获第二届“暹星杯”安全对齐赛道冠军,相关技术已形成4项发明专利,体现了“产学研用”的深度融合。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com