AWQ:面向边缘设备的大语言模型量化压缩与加速技术
作者及发表信息
本研究由MIT的Ji Lin*、Jiaming Tang*、Haotian Tang†等联合团队完成,通讯作者为MIT的Song Han(songhan@mit.edu)。论文发表于2024年第7届MLSys会议(美国圣克拉拉)。
学术背景
大语言模型(LLMs,Large Language Models)在自然语言处理和多模态任务中表现卓越,但其庞大的参数量(如GPT-3达1750亿参数)导致云端部署成本高昂,且边缘设备(如移动GPU)受限于内存和带宽资源。传统量化方法(如GPTQ)存在校准集过拟合问题,损害模型的跨领域泛化能力。为此,团队提出激活感知权重量化(AWQ,Activation-aware Weight Quantization),通过保护关键权重通道(仅占0.1%-1%)降低量化误差,同时开发高效推理框架TinyChat,实现理论内存节省向实测加速的转化。
研究流程与方法
1. 关键权重发现与保护
- 现象观察:实验发现,仅保护1%的显著权重(由激活分布而非权重幅值决定)即可将OPT-6.7B模型的困惑度(PPL)从23.54降至11.92(表1)。
- 硬件友好方案:为避免混合精度(FP16+INT4)的硬件低效性,提出按通道缩放(per-channel scaling),通过放大显著通道的权重值,降低其相对量化误差(公式2)。
最优缩放因子搜索
系统实现(TinyChat)
主要结果
1. 量化性能
- 语言模型:在Llama-2-70B上,INT4-AWQ将PPL从FP16的3.32降至3.41,优于GPTQ(表4)。
- 指令微调模型:Vicuna-7B的INT3量化在80问题评测中,优于基线47%→52%(图5)。
- 多模态模型:OpenFlamingo-9B在COCOCaptioning的32-shot设置下,CIDER分数损失从-4.57(RTN)缩小至-1.17(表6)。
结论与价值
- 科学价值:揭示LLMs权重的非均衡重要性,提出无需训练的硬件友好量化理论。
- 应用价值:TinyChat框架首次实现70B模型在移动GPU部署,并被FastChat、vLLM等开源生态广泛采用。
研究亮点
1. 方法创新:首次通过激活分布定位显著权重,突破传统量化依赖权重幅值的局限。
2. 跨模态泛化:在视觉语言模型(如LLaVA-13B)上实现无损量化(表7),支持复杂视觉推理(图6)。
3. 系统协同:算法(AWQ)与系统(TinyChat)联合优化,实测加速比超理论值(图3)。
其他贡献
- 开源代码(GitHub/mit-han-lab/llm-awq)及硬件原型Tinychat计算机(基于Jetson Orin Nano)。
- 首次验证混合专家模型(Mixtral-8x7B)的4比特量化可行性(表5)。