一种用于中文语言理解与生成的预训练不平衡Transformer

分享自：
一种用于中文语言理解与生成的预训练不平衡Transformer

期刊:Science China Information Sciences
这篇文档属于类型a，即报告了一项原创性研究。以下是针对该研究的学术报告：
研究作者及机构
 本研究的作者包括Yunfan Shao、Zhichao Geng、Yitao Liu、Junqi Dai、Hang Yan、Fei Yang、Li Zhe、Hujun Bao和Xipeng Qiu。研究团队分别来自复旦大学计算机学院、浙江实验室和复旦大学上海智能信息处理重点实验室。该研究发表于《Science China Information Sciences》期刊，目前处于评审阶段。
学术背景
 本研究属于自然语言处理（Natural Language Processing, NLP）领域，特别是预训练模型（Pre-trained Models, PTMs）的研究。近年来，大规模预训练模型已成为许多NLP任务的核心架构。然而，现有的预训练模型通常采用不同的架构和预训练任务，导致在应用于下游任务时，需要根据任务性质选择合适的模型。例如，BERT或RoBERTa通常用于自然语言理解（Natural Language Understanding, NLU）任务，而BART或GPT则用于自然语言生成（Natural Language Generation, NLG）任务。尽管已有一些针对中文的预训练模型，但它们大多沿袭了英文模型的设置，缺乏对NLU和NLG任务之间共享知识的利用。因此，本研究旨在提出一种能够同时支持中文语言理解和生成任务的预训练模型，即中文预训练不平衡Transformer（Chinese Pre-trained Unbalanced Transformer, CPT）。
研究流程
 本研究的主要流程包括模型设计、预训练、微调和实验评估四个阶段。
模型设计
 CPT的架构基于Transformer，由三部分组成：共享编码器（Shared Encoder, S-Enc）、理解解码器（Understanding Decoder, U-Dec）和生成解码器（Generation Decoder, G-Dec）。共享编码器用于捕捉语言理解和生成的共同表示，理解解码器采用全自注意力机制，并通过掩码语言建模（Masked Language Modeling, MLM）任务进行预训练；生成解码器采用掩码自注意力机制，并通过去噪自编码（Denoising Auto-Encoding, DAE）任务进行预训练。这种部分共享架构和多任务预训练使得CPT能够同时学习NLU和NLG任务的特定知识，并灵活微调以充分发挥模型潜力。
预训练
 CPT的预训练任务包括MLM和DAE。MLM任务通过随机替换句子中的部分词汇并预测被替换的词汇来训练共享编码器和理解解码器。DAE任务则通过重构原始文本来训练共享编码器和生成解码器。具体地，输入文本通过两种方式被破坏：一是词汇填充（Token Infilling），即使用单一掩码标记替换部分词汇；二是句子排列（Sentence Permutation），即随机打乱句子顺序。预训练数据包括中文维基百科和部分《WuDaoCorpus》，总计200GB的文本数据。
微调
 CPT支持多种微调模式，以适应不同的下游任务。例如，在文本分类任务中，CPT可以通过BERT风格（仅使用U-Dec）、BART风格（仅使用G-Dec）或两者结合的方式进行微调。此外，CPT还支持基于提示（Prompt-based）的微调，通过定义提示模板将分类任务转化为生成任务。
实验评估
 研究在多种中文NLU和NLG任务上对CPT进行了评估，包括文本分类、序列标注、机器阅读理解、摘要生成和数据到文本生成等任务。实验结果表明，CPT在这些任务上均取得了与现有最先进模型相当甚至更好的性能。例如，在CLUE基准测试中，CPT在多个分类任务上的平均准确率显著高于BERT和RoBERTa。在文本生成任务中，CPT的生成质量和效率也优于BART等模型。
主要结果
 1. 文本分类任务
 在CLUE基准测试中，CPT在多个分类任务上表现优异。例如，在TNews和IFlyTek数据集上，CPT的准确率分别达到59.2%和62.4%，显著高于BERT和RoBERTa。
序列标注任务
 在中文分词（Chinese Word Segmentation, CWS）和命名实体识别（Named Entity Recognition, NER）任务中，CPT的F1分数也优于现有模型。例如，在MSRA数据集上，CPT的F1分数达到96.20%，高于BERT和RoBERTa。
机器阅读理解任务
 在CMRC 2018和DRCD数据集上，CPT的精确匹配（Exact Match, EM）分数分别为72.3%和91.1%，均优于现有模型。
文本生成任务
 在LCSTS和AdGen数据集上，CPT的ROUGE-L和BLEU-4分数分别为42.0和10.7，优于BART和CPM-2等模型。
结论
 本研究提出的CPT模型通过共享编码器和特定解码器的设计，成功实现了对中文语言理解和生成任务的双重支持。实验结果表明，CPT在多种NLU和NLG任务上均表现出色，且具有较高的参数效率和推理速度。该研究的科学价值在于提出了一种能够有效结合NLU和NLG任务的预训练模型架构，为中文NLP任务提供了新的解决方案。此外，CPT的浅层生成解码器设计显著提高了文本生成的效率，具有广泛的应用前景。
研究亮点
 1. 创新性架构：CPT采用共享编码器和特定解码器的设计，有效结合了NLU和NLG任务的预训练目标。 2. 多任务预训练：通过MLM和DAE任务，CPT能够同时学习语言理解和生成的特定知识。 3. 灵活微调：CPT支持多种微调模式，能够适应不同的下游任务。 4. 高效推理：浅层生成解码器设计显著提高了文本生成的效率，推理速度优于现有模型。
其他价值
 本研究还提供了中文BART作为副产品，为中文文本生成任务提供了额外的基准模型。此外，CPT的代码和预训练模型已开源，便于其他研究者复现和进一步研究。
以上是本研究的详细报告，涵盖了研究背景、流程、结果、结论及其科学价值和应用前景。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问