哈尔滨工业大学博士学位论文《基于预训练语言模型的持续学习方法》学术报告
作者及机构
本博士学位论文由哈尔滨工业大学深圳校区博士研究生张晗完成,导师为徐睿峰教授,合作导师为王晖研究员,属于电子信息类专业学位博士论文,答辩于2025年5月。
学术背景
论文聚焦自然语言处理(Natural Language Processing, NLP)领域中的持续学习(Continual Learning)问题。随着预训练语言模型(Pre-trained Language Models, PLMs)在文本分类、信息抽取和文本生成等任务中的广泛应用,模型面临动态场景下数据分布变化带来的泛化性挑战。传统静态模型需频繁重新训练以适配新任务,但PLMs的海量参数导致计算成本高昂。持续学习技术通过平衡新知识学习与旧知识保留,成为解决这一问题的关键。然而,现有方法存在灾难性遗忘(Catastrophic Forgetting)和可塑性-稳定性失衡等瓶颈。本研究针对编码器、解码器和编码器-解码器三类PLMs架构,系统探索了NLP三大类下游任务的持续学习方法。
研究内容与方法
1. 持续文本分类任务
- 问题:新类别学习干扰历史类别性能。
- 方法:提出基于正交表示的对偶记忆框架。通过理论推导证明文本类别表示相似性与遗忘程度正相关,设计多空间正交映射模块分解新类别特征为与历史原型正交的分量,结合知识自蒸馏(Knowledge Self-Distillation)和动态正则化策略实现知识融合。
- 实验:在公开数据集上验证,新框架较基线方法准确率提升显著(具体数据见原文2.5节),消融实验证实正交表示模块贡献最大(+8.2%)。
持续关系抽取任务
持续多语言机器翻译任务
持续人类偏好学习任务
持续价值观对齐任务
主要结果与逻辑链条
- 正交表示框架通过理论驱动(2.3节)与实验验证(2.5节),证明表示解耦可有效隔离任务干扰;
- 知识注入原型在关系抽取中通过动态门控(3.3.4节)实现长序列稳定性,实验(3.4.2节)显示其内存效率优于回放方法;
- CN-25基准的构建(4.2节)填补了领域空白,Meta-MMT框架(4.3节)的元学习机制为多语言扩展提供通用范式;
- CPPO算法(5.3节)的样本分类策略与权重分配形成闭环优化,实验(5.4节)证实其训练稳定性显著提升;
- 影响函数框架(6.4节)通过线性近似与批次查询实现高效归因,安全对齐赛道夺冠验证其实用性。
结论与价值
1. 科学价值:建立了PLMs持续学习的理论-方法-基准完整体系,突破动态场景下模型迭代的技术瓶颈。
2. 应用价值:
- 持续分类与关系抽取技术应用于鹏城实验室开源项目;
- CN-25语料支撑“鹏城·通言”翻译模型,服务“一带一路”小语种需求;
- 价值观对齐方法通过工信部认证,保障“鹏城·脑海”大模型安全部署。
研究亮点
1. 方法论创新:首次将正交性理论应用于NLP持续学习,提出任务解耦的通用框架;
2. 技术突破:元学习驱动的多语言扩展、影响函数引导的价值观对齐均为领域首创;
3. 工程贡献:构建首个以中文为核心的持续翻译基准CN-25,推动产业落地。
其他价值
论文成果获第二届“暹星杯”安全对齐赛道冠军,相关技术已形成4项发明专利,体现了“产学研用”的深度融合。