分享自:

面向异构无线算网的高效大模型微调方法

期刊:移动通信DOI:10.3969/j.issn.1006-1010.20250111-0001

《移动通信》2025年3月刊发表了北京邮电大学高瀏、刘喜庆、高镝翔团队与南京师范大学夏年合作的研究论文《面向异构无线算网的高效大模型微调方法》(Efficient Fine-tuning of Large AI Models for Heterogeneous Wireless Computing Power Networks)。该研究针对大语言模型(Large Artificial-Intelligence Models, LAMs)在边缘计算场景中的微调难题,创新性地提出基于分割学习(Split Learning, SL)的云-边-端协同分布式微调架构,为解决算力异构性、隐私保护与能效优化等关键问题提供了系统性方案。

学术背景与研究目标

随着参数规模达亿级的Transformer架构大模型(如GPT-2)在自然语言处理领域的广泛应用,其微调过程面临三大核心矛盾:1)终端设备算力不足以支撑本地微调;2)云端集中式计算导致用户数据隐私泄露与骨干网拥塞;3)边缘节点算力异构性影响任务分配效率。传统解决方案如数据并行(Data Parallelism, DP)和模型并行(Model Parallelism, MP)在无线算力网络(Radio Computing Power Network, RCPN)环境中存在内存预算受限和通信开销剧增的缺陷。本研究旨在建立兼顾计算效率与隐私保护的分布式微调框架,通过分割学习实现模型分块、异构资源动态调度与三级算力协同。

研究方法与技术路线

研究团队设计了包含系统建模、算法开发与实验验证的三阶段工作流程:

1. 系统建模阶段

构建云-边-端三级算力网络模型,其中: - 能耗模型:量化计算能耗($E_c$)与通信能耗($E_t$)。计算能耗基于节点GPU时钟频率$f_m$与有效电容系数,通信能耗采用OFDMA信道模型,考虑瑞利分布的信道增益$h_m$与发射功率$pm$。 - 时延模型:总时延$T{total}$包含各节点计算时延和传输时延,特别引入同步点延迟约束。 - 优化问题:建立多目标优化函数$min(αE+βT)$,约束条件包括任务全分配(C1)、内存预算(C2)、算力上限(C3),决策变量为任务分配矩阵$A_{u,θ}$和数据分割点$d_n$。

2. 算法开发阶段

提出三重混合并行微调算法(算法1): - 分割学习框架:将LAMs按Transformer层数$L_θ$划分为$n+1$个块,用户端保留前$UL$层(如4层)处理原始数据,边缘节点处理中间层,云端聚合结果。 - 分布式并行策略: - 数据并行(DP):将输入序列$x$划分为子序列${x_1,…,x_k}$分配给边缘节点。 - 张量并行(TP):对MHA块按注意力头维度分割权重矩阵$W_k/W_q/W_v$,MLP块采用矩阵平铺技术消除同步依赖。 - 序列并行(SP):在Dropout、LayerNorm等操作中沿序列维度分区。 - 负载均衡算法:两阶段动态调度:1) 按GPU频率$f_m$初始分配;2) 对内存超限节点(如0.7GB预算的节点S)采用任务重分配至空闲节点或云端。

3. 实验验证阶段

测试环境配置: - 硬件:三类边缘节点(L/M/S)分别配置1.47GHz/825MHz/403MHz GPU和1.5GB/1.2GB/0.7GB内存。 - 数据集:GELU语料库子集,平均序列长度300。 - 基准对比:云端微调、云边协同、云边端协同(用户端部署2-10层)。

关键结果与发现

  1. 效率提升:云边协同微调速度较云端基准提升17.6%,8节点配置下时延降低63.2%(图5)。TP+SP并行使MHA块计算加速比达3.8×(式15-17)。
  2. 能耗优化:边缘节点增至8个时,系统总能耗下降29.7%(图6)。用户端部署4层时取得最佳能效比(β=0.5)。
  3. 隐私保护:终端层数≥2时,原始数据零上传,验证了分割学习的隐私安全性。
  4. 收敛性能:所有策略在8000次迭代后收敛,云边协同损失值最低(图3),用户端部署8层时损失值升高12.3%,反映计算-精度权衡。

结论与价值

本研究首次实现LAMs在RCPN环境下的高效微调,具有三重创新: 1. 方法论创新:融合分割学习与三重并行的混合架构,解决异构环境下的负载均衡问题。 2. 技术突破:提出的动态负载规划算法支持内存感知的任务调度,节点利用率提升41.5%。 3. 应用价值:为6G时代智能穿戴、车载AI等低时延场景提供可行的微调方案,实测表明可支撑参数量20亿级模型部署。

研究亮点

  • 异构适应性:算法通过实时监测$fm$和$m{m,max}$实现资源弹性分配,在S节点(0.7GB内存)仍能完成12层模型计算。
  • 协议创新:设计Reduce-Scatter/All-Gather同步协议降低TP通信开销,较传统MPI实现减少23%同步时间。
  • 可扩展性:框架支持不同规模Transformer模型,实验验证从600万至20亿参数的平滑扩展。

该成果发表于《移动通信》”无线算力网络架构与关键技术”专题,获得国家重点研发计划(2020YFB1806703)支持,为边缘智能领域提供了重要的理论基础和技术参考。后续研究可进一步探索联邦分割学习与低秩适配(LoRA)的结合优化。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com