本文的文档由陈炫婷、叶俊杰、祖璨、许诺、桂韬和张奇共同撰写,复旦大学计算机科学技术学院和复旦大学现代语言学研究院是主要的研究机构。该研究发表于《计算机研究与发展》期刊,发表日期为2024年。
该研究聚焦于大语言模型(Large Language Models, LLMs),尤其是GPT系列模型在自然语言处理(Natural Language Processing, NLP)任务中的鲁棒性问题。尽管GPT模型在多种NLP任务中表现出色,但其在处理开放世界的复杂场景中的鲁棒性尚未被充分探索。鲁棒性是评估模型稳定性和可靠性的关键因素,特别是在自动驾驶和医学诊断等安全关键领域尤为重要。因此,本研究旨在通过全面的实验分析,评估GPT-3和GPT-3.5系列模型在不同NLP任务中的性能和鲁棒性,并探讨其在不同文本变形级别(字符、词、句子)上的表现。
研究首先评估了GPT模型在原始数据集上的性能,使用了15个数据集(约147,000个原始测试样本),涵盖了9个常见的NLP任务,如情感分析、语义匹配和阅读理解等。这些任务评估了模型的潜在能力,包括理解上下文、处理不同的语言结构以及捕捉微小信息等。接下来,研究使用TextFlint工具对输入文本进行61种鲁棒性变形,以模拟现实世界中的噪音、扰动和攻击。这些变形分为句子级、词级和字符级,确保变形后的文本语言合理。研究进一步探究了提示(prompt)对模型性能和鲁棒性的影响,特别是演示数量和内容的效果。最后,研究对比了GPT-3.5-turbo的更新版本、GPT-4模型以及开源模型Llama2-7b和Llama2-13b的表现,以验证实验结果的普适性。
研究发现,GPT模型在情感分析、语义匹配和阅读理解等分类任务中表现出色,但在信息抽取任务中存在严重混淆,甚至出现“幻觉”现象。例如,在关系抽取任务中,GPT模型对各种关系类型表现出严重混淆,甚至生成了虚构的关系。在处理被扰动的输入文本时,GPT模型的鲁棒性较弱,特别是在分类任务和句子级变形中表现尤为明显。此外,随着模型迭代,GPT系列模型在大多数NLP任务上的性能稳步提升,但其鲁棒性并未显著改善。提示中的演示数量增加可以提高模型性能,但无法有效提升其鲁棒性;演示内容的改变能够在一定程度上增强模型的抗扰动能力,但无法根本解决鲁棒性问题。
研究结果表明,GPT模型在处理常见NLP任务时仍存在显著的鲁棒性问题,特别是在信息抽取任务和句子级变形中表现尤为突出。尽管模型迭代提升了性能,但其鲁棒性仍然面临重大挑战。未来的大模型研究应着重提升模型在信息提取和语义理解方面的能力,并在模型训练或微调阶段考虑提升其鲁棒性。该研究为评估大语言模型的鲁棒性提供了全面的实验框架,对于推动大模型在现实世界中的应用具有重要意义。
该研究的亮点在于其全面性和深度。通过涵盖9个NLP任务和61种文本变形的实验设计,研究揭示了GPT模型在不同任务和变形级别上的鲁棒性问题。特别是对提示内容和演示数量影响的深入研究,为改进大模型的鲁棒性提供了新的视角。此外,研究不仅评估了GPT系列模型的性能和鲁棒性,还对比了GPT-4和开源模型Llama2的表现,验证了实验结果的普适性。这些发现为未来的大模型研究提供了重要的参考和指导。
研究还探讨了GPT系列模型在迭代过程中性能和鲁棒性的变化,揭示了模型迭代对鲁棒性提升的有限作用。此外,研究分析了不同变形级别对模型鲁棒性的影响,表明GPT模型在处理句子级变形时表现尤为脆弱。这些发现为进一步优化大模型的鲁棒性提供了重要线索。