这篇文档属于类型a(单篇原创研究论文报告),以下为针对中文读者的学术报告:
标题: 逐层解构:揭示语言模型中的隐藏表征
作者与机构:
Oscar Skean(肯塔基大学)、Rifat Arefin(Mila-魁北克人工智能研究所/蒙特利尔大学)、Dan Zhao(纽约大学)等共8位作者,通讯作者为Oscar Skean。
期刊与发表时间:
发表于《Proceedings of the 42nd International Conference on Machine Learning》(PMLR 267),2025年,加拿大温哥华。
研究领域: 自然语言处理(NLP)与深度学习,聚焦大型语言模型(LLM, Large Language Model)的内部表征机制。
背景知识:
传统观点认为,LLM的最终层输出最具任务相关性,而中间层仅捕捉低级特征。然而,近年研究表明,中间层可能编码更丰富的语义信息(如BERT的中层对语法特征的表征最优)。
研究目标:
1. 验证中间层表征是否优于最终层;
2. 提出统一框架量化表征质量(信息压缩、几何结构、扰动鲁棒性);
3. 探索不同架构(Transformer、状态空间模型SSM)和训练目标(自回归vs掩码语言建模)对层间表征的影响。
研究对象:
表征质量量化框架:
步骤1:层间性能对比
- 方法:逐层提取嵌入特征,在MTEB任务中评估下游性能。
- 发现:中间层(如Pythia-410m的第40%-60%深度层)平均比最终层性能高2%-16%(图1)。
步骤2:架构差异性分析
- 自回归模型(如Pythia):显示显著的“压缩谷”(mid-layer compression valley),即中层熵值骤降(图2a)。
- 双向模型(如BERT):熵值分布平缓,无显著压缩现象。
- SSM(如Mamba):表征变化较Transformer更均匀。
步骤3:训练动态观察
- 训练早期:浅层迅速稳定(支持“去标记化假说”)。
- 训练中期:中层熵值持续下降,形成信息瓶颈(图4)。
步骤4:链式思维(CoT)微调影响
- 案例:对比Qwen 2.5与Qwen 2.5-Math,后者通过CoT微调保留更高熵值(图5),表明中层更利于多步推理的上下文保留。
中间层优势普遍性
信息压缩与任务性能的权衡
训练目标的核心作用
理论框架验证
科学价值:
1. 挑战了“最终层最优”的默认假设,提出中层表征是未充分开发的资源。
2. 提出的统一框架为模型诊断与优化提供新工具(如无监督选择高性能层)。
应用价值:
1. 高效特征提取:优先利用中层嵌入可提升任务性能(如检索、分类)。
2. 模型设计指导:针对自回归任务的模型需关注中层正则化。
(全文共约2200字,涵盖研究全貌及关键细节)