《电子学报》网络首发论文《基于vGPU性能干扰感知的大模型推理负载资源高效配置方法》学术报告
一、作者团队与发表信息
本研究由山东大学集成电路学院张虎、戴鸿君(通讯作者),齐鲁工业大学(山东省科学院)孙明辉、王继彬、张有利,以及北京邮电大学刘杨合作完成,于2026年1月5日在《电子学报》(Acta Electronica Sinica)网络首发,ISSN 0372-2112,CN 11-2087/TN。
二、学术背景与研究目标
科学领域:本研究属于人工智能(Artificial Intelligence, AI)基础设施优化领域,聚焦GPU虚拟化(vGPU, Virtual GPU)技术在大模型推理负载中的资源调度问题。
研究动机:随着GPT、DeepSeek等大模型的广泛应用,GPU单卡算力提升导致中小规模模型推理时资源闲置率高达20%~40%。传统静态分配方法无法解决多租户场景下的性能干扰(Performance Interference)问题,尤其是大模型推理的动态资源需求易引发延迟超标和服务质量目标(SLO, Service Level Objective)违约。
研究目标:提出一种基于vGPU性能干扰感知的资源动态配置方法,在保证SLO的前提下优化GPU资源利用率,降低AI服务部署成本。
三、研究流程与方法
-
性能干扰数据集构建
-
实验设计:在NVIDIA A100和RTX6000硬件平台部署6种大模型(如Qwen3-0.6b-base、DeepSeek-r1-distill-qwen-7b),设置单实例独占(10%
100% GPU资源)与多实例并发(14容器)共78组实验,覆盖不同批处理大小(1~32)和负载组合。 -
数据采集:通过PyNVML和NVIDIA CUPTI工具实时监控GPU利用率、显存带宽、SM(Streaming Multiprocessor)调度等指标,重复3次取均值。
-
-
轻量化干扰预测模型
-
模型架构:
-
Prefill阶段(计算密集型):首Token响应时间(TTFT, Time to First Token)建模为批处理大小((b^{(t)}))、vGPU算力占比((f_k^{(g)}))、SM利用率((u_s^{(g)}))的函数,引入非线性修正项(式3-5)。
-
Decode阶段(内存密集型):单Token生成时间(TPOT, Time Per Output Token)建模依赖显存带宽竞争和缓存命中率(式7-9)。
-
-
参数拟合:采用非线性最小二乘法拟合实验数据,TPOT预测R²达0.95,TTFT为0.66。
-
-
资源优化算法
-
约束目标:以最小化GPU资源成本(式10)为目标,约束条件包括SLO延迟(TTFT≤τ_ttft)、吞吐量(TH(t)≥r(t))。
-
动态分配:基于HuggingFace Accelerate库预评估模型显存需求,按负载需求降序分配vGPU资源占比(算法1),增量调整步长Δr=1%。
-
-
系统实现
-
框架开发:集成Kubernetes、HAMI vGPU(支持1%粒度切分)和SGLang推理引擎,开源代码于GitHub(https://github.com/icalab-nsccjn/vgpu-llm-allocator)。
-
监控模块:多层级采集GPU硬件指标与容器级推理状态,支持秒级决策。
-
四、主要研究结果
-
性能干扰量化:4实例并发时,TTFT延迟增长10%~100%,显存带宽竞争导致TPOT波动显著(图4-6)。
-
资源配置优化:在NVIDIA A100平台,相比静态分配方案,该方法降低20% GPU资源占用(如Qwen3-4b-base从50%降至30%),同时满足SLO(表2)。
-
泛化性验证:RTX6000平台实验显示模型对异构GPU架构的适应性,TPOT预测误差<5%。
五、结论与价值
科学价值:首次系统量化大模型推理在vGPU环境下的多维度性能干扰,建立耦合计算、显存、功耗的预测模型。
应用价值:为云数据中心提供开源工具链,支持多租户大模型服务的低成本部署,实测资源成本降低20%以上。
六、研究亮点
-
创新方法:提出“预评估+动态增量”资源分配策略,避免传统启发式算法的组合爆炸问题。
-
工程贡献:集成HAMI vGPU与SGLang的标准化框架,推动AI推理负载的云原生适配。
-
跨模型适用性:覆盖6种参数规模(0.6B~8B)的大模型,验证方法的普适性。
七、其他价值
实验数据集与代码开源,为后续研究提供基准;提出的SLO约束优化模型可扩展至其他虚拟化场景(如CPU内存带宽竞争)。