分享自:

查找专家混合模型

期刊:Proceedings of the 42nd International Conference on Machine Learning

本文档属于类型a,即报告了一项原创性研究的学术论文。以下是针对该研究的详细学术报告:


混合查找专家(Mixture of Lookup Experts, MoLE)架构:一种高效通信与显存利用的大语言模型新范式

作者与机构
本研究的核心团队由来自北京大学智能科学与技术学院的Shibo Jie和Zhi-Hong Deng、华为诺亚方舟实验室的Yehui Tang、Kai Han和Yunhe Wang,以及华为消费者业务集团的Yitong Li和Duyu Tang共同组成。论文发表于机器学习领域的顶级会议*Proceedings of the 42nd International Conference on Machine Learning (ICML 2025)*,收录于PMLR第267卷。

学术背景
研究领域聚焦于大语言模型(LLMs)的高效推理架构设计。随着模型规模扩大,混合专家(Mixture of Experts, MoE)通过动态激活部分专家网络(experts)降低计算成本,但所有专家参数仍需驻留显存(VRAM),导致部署瓶颈。现有专家卸载(expert offloading)技术虽减少显存占用,却因频繁参数传输显著增加推理延迟。本研究提出MoLE架构,通过将专家网络重构为查找表(Lookup Tables, LUTs),实现零计算专家与极低通信开销,解决了MoE在边缘设备部署的核心矛盾。

研究流程与方法
1. 问题定义与架构设计
- 输入限制:将专家输入从中间特征改为嵌入层输出(embedding tokens),使输入空间离散化(词汇表大小|V|限定)。
- 训练阶段:采用全专家激活策略,避免传统MoE的稀疏路由梯度问题。专家为标准的FFN(Feed-Forward Networks),输入为嵌入向量,输出与中间特征相加。
- 推理重构:训练完成后,预计算所有词汇ID对应的专家输出,构建LUTs(尺寸为|V|×专家数×隐藏维度)。LUTs可卸载至存储设备,仅需按输入ID实时加载对应行向量至显存。

  1. 关键技术实现

    • 动态路由保留:共享专家(shared expert)和路由门控(router)仍接收中间特征输入,保留上下文感知能力。
    • 批量生成优化:LUTs的按需加载与样本无关,批处理时通信量仅与批次大小线性相关,显著优于传统MoE需加载多组专家参数的设计。
    • 复杂度分析:单token推理时,MoLE仅需传输dn参数(d为隐藏维度,n为专家数),比MoE专家卸载的2dkdr(dr为专家隐藏维度)低2-3个数量级。
  2. 实验验证

    • 模型配置:测试160M/410M/1B激活参数的模型,对比Dense、MoE-10e(10专家选2)、MoLE-4e(4专家全激活)等变体。
    • 性能指标:在ARC-C/Hellaswag等8个基准测试中,MoLE-16e(16专家)平均准确率比同参数MoE-34e高0.1-1.2%,同时推理延迟与Dense模型相当(V100 GPU上批量32时延迟<100ms/step)。
    • 显存效率:MoLE-4e(410M参数)仅需0.098MB/token的传输量,比MoE-10e(201MB/token)低2000倍。

主要结果
1. 性能保持性:MoLE在160M参数规模下平均准确率达41.9%,优于MoE-34e的41.8%,且LUTs量化至NF4后性能损失<0.1%。
2. 延迟优势:批量32时,MoLE-16e延迟为92ms/step,而MoE-34e因专家加载耗时达500ms/step。
3. 可扩展性:专家数量从4增至16时,MoLE性能持续提升(40.8%→41.9%),验证了架构对参数增长的适应性。

结论与价值
MoLE通过训练-推理解耦设计,首次实现:
- 零计算专家:LUTs消除FFN前向计算,突破传统MoE的计算-显存权衡。
- 边缘友好部署:支持将LUTs卸载至磁盘/CPU内存,使46B参数模型可在80GB GPU运行,延迟与Dense模型相当。
- 方法论创新:为LLMs的离散化参数压缩(如LUTs量化)开辟新方向。

研究亮点
1. 架构创新:首次提出可重构为LUTs的MoE变体,解决动态路由与静态存储的矛盾。
2. 工程价值:实验证明MoLE在1B参数规模下,通信开销仅为MoE的1/2000,适合低带宽场景。
3. 理论贡献:揭示专家输入离散化(embedding tokens)对模型容量的影响有限(性能损失<0.7%),为后续研究提供理论基础。

其他价值
- 开源生态:代码已发布在GitHub(https://github.com/jieshibo/mole),支持HuggingFace集成。
- 压缩潜力:LUTs可进一步采用差分量化(如NF3)压缩至原始尺寸的19.5%,为超大规模模型部署提供可能。


该研究通过巧妙的架构重构,为大语言模型的高效推理提供了兼具理论严谨性与工程实用性的解决方案,被ICML 2025审稿人评价为”在MoE稀疏化与硬件适配间取得了突破性平衡”。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com