InA: 在预训练语言模型上的抑制自适应方法

2024-05-31 Fri
InA: 在预训练语言模型上的抑制自适应方法预训练语言模型（Language Models, LMs）已经在自然语言处理（Natural Language Processing, NLP）任务中取得了显著的效果。然而，传统的微调方法存在冗余参数的问题，影响了效率和效果。为了应对这一挑战，本文提出了一种称为抑制自适应（Inhibition Adaptation, INA）的微调方法，用以减少添加的可调权重，并适当地再权重来自预训练语言模型的知识。
研究背景和问题当前，微调预训练语言模型是一种常见的解决NLP下游任务的方法。然而，经典的微调方法需要更新所有的模型参数，这会导致冗余参数问题，尤其是当应用于新的下游任务时。冗余参数不仅影响模型的效率，还会阻碍模型性能的提升。为了解决这一问题，已有研究尝试仅调整特定的向量来学习附加参数，并保持大部分预训练参数不变。然而，这种方法仍然存在信息传递中的冗余问题。因此，本研究提出了INA方法，以在更小的可调参数下实现更高效的微调。
研究来源本文由Cheng Kang, Jindrich Prokop, Lei Tong, Huiyu Zhou, Yong Hu和Daniel Novak等学者撰写，分别来自捷克技术大学、莱斯特大学和香港大学。论文发表在Neural Networks期刊上，接收时间为2024年5月23日。
研究方法和流程1. 研究流程a. 插入可训练向量：在每个Transformer注意力架构中插入一个小的可训练向量。
b. 设置阈值：直接消除不相关的知识，通过设置阈值来抑制传递的无关信息。
2. 研究对象研究对象涉及BERT-large，RoBERTa-large和DeBERTa-large三种预训练语言模型，主要应用于文本分类和问答任务。实验在GLUE基准、SQuAD v1.1及SQuAD v2.0数据集上进行评估。
3. 实验方法主要涉及以下几个步骤和技术:
抑制机制：引入抑制机制，通过设置特定阈值来控制信息传递。
激活函数的选择：选择合适的激活函数（如GELU或LeakyReLU），以实现最佳的抑制效果。
低秩分解和信息压缩：类似LoRA方法，通过低秩分解来将信息压缩，使模型能在减少参数的同时保持性能。
主要结果1. GLUE基准测试结果在GLUE基准测试中，INA在许多任务上表现优异，特别是在CoLA、SST-2、MRPC等任务上表现显著。具体结果列出如下（见表3）：
BERT-large使用INA微调后，在CoLA任务上取得了65.9的MCC分数，超越了传统的微调方法。
RoBERTa-large使用INA微调后，在多个任务上表现出色，尤其在CoLA和MRPC任务上表现突出。
2. SQuAD问答任务在SQuAD v1.1和v2.0上，使用INA微调的模型在准确率和召回率上均表现出色。具体数据如下（见表4）：
BERT-large在SQuAD v1.1上的F1/EM成绩达到91.3⁄84.6，略优于传统方法。
RoBERTa-large在SQuAD v2.0上的F1/EM成绩也有显著提升。
结论和意义本研究通过引入抑制机制有效减少了微调过程中传递的冗余信息，从而提高了模型在下游任务中的表现。主要结论如下：
科学价值：INA方法通过适当的抑制机制和低秩分解方法，为微调预训练语言模型提供了更高效的途径。这不仅减少了所需的可调参数，还抑制了无关信息的传递。
应用价值：INA在多个NLP任务中的表现突出了其实际应用中的潜力，为进一步提升预训练语言模型的微调效果提供了有力支持。
研究亮点创新性：提议的INA方法引入了抑制机制，这在现有的微调方法中是较为新颖且有效的。
实用性：通过减少冗余参数和有效抑制无关信息，INA提高了模型的适应性和性能。
广泛适用性：INA在不同的语言模型和任务中均表现出优异的性能，特别是在文本分类和问答任务上。
其他有价值的信息在选择激活函数和设置适当的阈值时，GELU和LeakyReLU由于其较短的负尾巴而表现出更好的效果。同时，INA在处理下游任务时，能够有效抑制低相关或无关的信息，使模型更集中于任务相关的特性。
未来工作未来的研究将集中在探索INA在其他NLP任务中的应用，以及如何进一步优化抑制机制的参数设置，以实现更好的微调效果。此外，针对像SWAG这样的多选生成功能任务，进一步的实验将帮助理解为何INA在部分任务上没有表现出显著的改进。
本论文总结了INA在预训练语言模型微调中的应用及其显著效果，展示了其在减少冗余参数和提高任务性能方面的潜力。