分享自:

无痛二阶微调大型语言模型:基于Hessian的零阶优化方法

期刊:ICLR 2025

这是一篇类型a的文档,介绍一项名为”HIZO”的创新优化算法研究。以下为详细学术报告:

研究团队与发表信息
本研究由西安交通大学的Yanjun Zhao、Sizhe Dang、Haishan Ye(通讯作者)、Yi Qian,新加坡A*STAR的Ivor W. Tsang以及西安SGT AI Lab的Guang Dai合作完成,发表于ICLR 2025会议。


学术背景
大语言模型(LLMs)的微调通常依赖一阶优化器(如Adam),但反向传播过程导致显存消耗巨大。近期MEZO等零阶优化器(ZOO)通过两次前向传播估计梯度,显著降低了显存需求,但面临参数维度间曲率异质性(heterogeneous curvatures)导致的收敛不稳定问题。本研究提出首个融合对角Hessian信息的零阶优化器HIZO,通过引入二阶曲率信息改进ZOO的收敛性。

理论基础涉及:
1. 零阶梯度估计(SPSA算法)
2. Hessian矩阵的随机扰动近似
3. 低秩矩阵压缩技术(用于HIZO-L变体)


研究流程与方法
1. Hessian-informed零阶优化框架
- 核心算法:通过额外一次前向传播估计对角Hessian矩阵(内存复杂度O(d))。推导关键公式:
$$\Delta l = \mu^2 u^\top \sigma^{12} \nabla^2 l(\theta;b) \sigma^{12} u + o(\mu^3)$$
采用指数移动平均(EMA)去噪:
$$\sigma_{t+1}^{-1} = (1-\alpha_t)\sigma_t^{-1} + \alpha_t |diag(\sigma’_t)|$$
- 内存优化:提出HIZO-L变体,利用Adafactor启发的低秩分解(rank=1)将Hessian内存消耗降至MEZO的10%

2. 理论验证
- 证明Hessian估计的无偏性(Theorem 3.2)
- 收敛性分析显示:当步长$\eta_t = \frac{1}{8\sqrt{t}L(\max_t tr(\sigma_t)+\beta_u)}$时,算法可收敛至驻点

3. 实验验证
研究对象
- 模型规模:350M(RoBERTa-large)至66B(LLaMA3)参数
- 任务类型:分类(SST-2)、多选题(COPA)、生成任务
- 对比基线:MEZO、Adam、Zo-Adam等

实验设计
- 可视化验证:在3个测试函数(含极端曲率差异的x²+y⁴函数)上展示优化轨迹,HIZO比MEZO快8倍收敛
- 性能测试
- RoBERTa-large在SST-2任务:准确率提升1.55%(93.2% vs 91.4%),训练步数减少8倍
- OPT-66B模型:绝对性能提升达5.1%
- 非可微目标优化:以F1为优化目标时,HIZO比MEZO平均提升6.5%


主要结果
1. 收敛速度
- 在MNLI任务上(图4),HIZO仅需MEZO 1/4的训练步数达到相同loss
- 测试函数(图3)显示:当y维度曲率比x高10⁴倍时,MEZO几乎无法收敛,而HIZO保持稳定

  1. 内存效率

    • HIZO-L仅增加MEZO 10%显存,在OPT-13B上达到98.5%的HIZO性能
    • 相比Zo-Adam节省50%显存(表5)
  2. 扩展性验证

    • 在66B参数规模下,HIZO(prefix)仍保持3.1%的性能优势(表3)

结果逻辑链
理论证明 → 测试函数验证 → 小规模模型(RoBERTa)实验 → 大规模模型(LLaMA3/OPT)推广


结论与价值
科学价值
1. 首次将二阶信息引入LLM零阶优化,为解决曲率异质性问题提供新思路
2. 理论证明随机扰动法可无偏估计Hessian对角元

应用价值
1. 使消费级硬件(如24GB显存GPU)可微调66B级模型
2. 支持非可微目标(如F1)的直接优化,扩展LLM应用场景


研究亮点
1. 方法论创新:将Hessian预条件(pre-conditioning)与ZOO结合,提出”曲率感知”参数更新策略
2. 工程贡献
- 三前向传播/步的轻量设计(vs Adam需正反向传播)
- 低秩Hessian压缩技术(HIZO-L)
3. 实证突破:在66B模型上首次实现零阶优化效果超越传统方法

其他发现
- 超参数敏感性分析(图6)显示EMA平滑系数α_t∈[0.1,0.3]最优
- 多采样版本HIZO-multi(n>1)可加速收敛但增加单步耗时(图7)

代码开源https://github.com/yanjun-zhao/hizoo

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com