《移动通信》2025年3月刊发表了北京邮电大学高瀏、刘喜庆、高镝翔团队与南京师范大学夏年合作的研究论文《面向异构无线算网的高效大模型微调方法》(Efficient Fine-tuning of Large AI Models for Heterogeneous Wireless Computing Power Networks)。该研究针对大语言模型(Large Artificial-Intelligence Models, LAMs)在边缘计算场景中的微调难题,创新性地提出基于分割学习(Split Learning, SL)的云-边-端协同分布式微调架构,为解决算力异构性、隐私保护与能效优化等关键问题提供了系统性方案。
随着参数规模达亿级的Transformer架构大模型(如GPT-2)在自然语言处理领域的广泛应用,其微调过程面临三大核心矛盾:1)终端设备算力不足以支撑本地微调;2)云端集中式计算导致用户数据隐私泄露与骨干网拥塞;3)边缘节点算力异构性影响任务分配效率。传统解决方案如数据并行(Data Parallelism, DP)和模型并行(Model Parallelism, MP)在无线算力网络(Radio Computing Power Network, RCPN)环境中存在内存预算受限和通信开销剧增的缺陷。本研究旨在建立兼顾计算效率与隐私保护的分布式微调框架,通过分割学习实现模型分块、异构资源动态调度与三级算力协同。
研究团队设计了包含系统建模、算法开发与实验验证的三阶段工作流程:
构建云-边-端三级算力网络模型,其中: - 能耗模型:量化计算能耗($E_c$)与通信能耗($E_t$)。计算能耗基于节点GPU时钟频率$f_m$与有效电容系数,通信能耗采用OFDMA信道模型,考虑瑞利分布的信道增益$h_m$与发射功率$pm$。 - 时延模型:总时延$T{total}$包含各节点计算时延和传输时延,特别引入同步点延迟约束。 - 优化问题:建立多目标优化函数$min(αE+βT)$,约束条件包括任务全分配(C1)、内存预算(C2)、算力上限(C3),决策变量为任务分配矩阵$A_{u,θ}$和数据分割点$d_n$。
提出三重混合并行微调算法(算法1): - 分割学习框架:将LAMs按Transformer层数$L_θ$划分为$n+1$个块,用户端保留前$UL$层(如4层)处理原始数据,边缘节点处理中间层,云端聚合结果。 - 分布式并行策略: - 数据并行(DP):将输入序列$x$划分为子序列${x_1,…,x_k}$分配给边缘节点。 - 张量并行(TP):对MHA块按注意力头维度分割权重矩阵$W_k/W_q/W_v$,MLP块采用矩阵平铺技术消除同步依赖。 - 序列并行(SP):在Dropout、LayerNorm等操作中沿序列维度分区。 - 负载均衡算法:两阶段动态调度:1) 按GPU频率$f_m$初始分配;2) 对内存超限节点(如0.7GB预算的节点S)采用任务重分配至空闲节点或云端。
测试环境配置: - 硬件:三类边缘节点(L/M/S)分别配置1.47GHz/825MHz/403MHz GPU和1.5GB/1.2GB/0.7GB内存。 - 数据集:GELU语料库子集,平均序列长度300。 - 基准对比:云端微调、云边协同、云边端协同(用户端部署2-10层)。
本研究首次实现LAMs在RCPN环境下的高效微调,具有三重创新: 1. 方法论创新:融合分割学习与三重并行的混合架构,解决异构环境下的负载均衡问题。 2. 技术突破:提出的动态负载规划算法支持内存感知的任务调度,节点利用率提升41.5%。 3. 应用价值:为6G时代智能穿戴、车载AI等低时延场景提供可行的微调方案,实测表明可支撑参数量20亿级模型部署。
该成果发表于《移动通信》”无线算力网络架构与关键技术”专题,获得国家重点研发计划(2020YFB1806703)支持,为边缘智能领域提供了重要的理论基础和技术参考。后续研究可进一步探索联邦分割学习与低秩适配(LoRA)的结合优化。