分享自:

基于ARM TrustZone保护设备端大型语言模型的系统设计

期刊:European Conference on Computer Systems (EuroSys ’26)DOI:10.1145/3767295.3769334

这篇文档属于类型a,即报告了一项原创性研究的学术论文。以下是针对该研究的详细学术报告:


移动端大语言模型的安全防护新方案:基于ARM TrustZone的TZ-LLM系统

作者与机构
本研究的核心团队来自上海交通大学并行与分布式系统研究所(Institute of Parallel and Distributed Systems, School of Computer Science, Shanghai Jiao Tong University),主要作者包括Xunjie Wang、Jiacheng Shi、Zihan Zhao、Yang Yu、Zhichao Hua和Jinyu Gu。研究成果发表于2026年4月的欧洲计算机系统会议(European Conference on Computer Systems, EuroSys ’26),论文标题为《TZ-LLM: Protecting On-Device Large Language Models with ARM TrustZone》。


学术背景
研究领域与动机
随着大语言模型(Large Language Models, LLMs)在移动设备(如智能手机)上的部署增加,用户隐私和网络延迟问题得到改善,但模型参数泄露风险显著上升。现有保护方案(如静态内存分区或加密存储)存在效率与安全的矛盾:静态分配内存导致资源浪费,动态加载则因解密和I/O延迟大幅降低推理速度。此外,移动设备的神经处理单元(Neural Processing Unit, NPU)在富执行环境(Rich Execution Environment, REE)与可信执行环境(Trusted Execution Environment, TEE)间的共享机制缺失,进一步限制了TEE内LLM的性能。

技术背景
ARM TrustZone是移动端广泛部署的硬件隔离技术,通过划分REE(运行非信任应用)和TEE(运行可信应用)实现资源隔离。然而,传统TEE设计针对轻量级任务,难以支持LLM的高内存和计算需求。本研究提出TZ-LLM系统,首次在TrustZone中实现高效LLM推理,解决以下核心挑战:
1. 内存效率与推理速度的矛盾:动态扩展安全内存需处理连续物理内存分配、解密和I/O的高延迟。
2. NPU的高效安全共享:传统方案需在TEE中移植完整NPU驱动,导致可信计算基(Trusted Computing Base, TCB)膨胀和切换开销。


研究流程与方法
1. 弹性安全内存扩展与流水线恢复
- 问题:动态加载模型参数需经历内存分配(通过Linux连续内存分配器CMA)、闪存I/O和解密,总延迟可达11.6秒(Llama-3-8B模型)。
- 创新方法
- 流水线恢复(Pipelined Restoration):利用LLM推理的确定性内存访问模式(基于有向无环图DAG),按拓扑序预取参数,将分配、I/O和解密延迟隐藏于计算时间内。
- 优先级调度与抢占机制:CPU优先执行可能阻塞关键路径的任务(如早期层的参数解密),并通过微操作拆分实现抢占。
- 部分参数缓存:根据REE内存压力反向释放参数,保留高频使用参数以加速后续推理。

2. NPU控制-数据平面分离设计
- 问题:传统方案需在TEE中部署完整NPU驱动(如Rockchip NPU驱动达60k代码),导致TCB膨胀和32ms的切换延迟。
- 创新方法
- 协同驱动(Co-Driver):TEE仅保留最小数据平面驱动(约1k代码),负责安全作业启动;REE驱动处理控制平面(如调度和频率管理)。
- 安全验证机制:通过单调序列号防止重放攻击,配置TrustZone硬件(TZPC/TZASC)隔离NPU的MMIO和DMA访问。

3. 实现与评估
- 平台:基于OpenHarmony OS和Llama.cpp框架,硬件为Rockchip RK3588(4×A76+4×A55 CPU,3核NPU)。
- 对比基线
- Strawman:无优化的TEE基线(冷启动+纯CPU推理)。
- REE-LLM-Flash:REE中动态加载参数的Llama.cpp。
- 测试模型:包括TinyLlama-1.1B、Qwen2.5-3B、Llama-3-8B等,基准测试涵盖UltraChat多轮对话和DroidTask自动化任务。


主要结果
1. 流水线恢复的加速效果
- 相比Strawman,TZ-LLM将首次令牌时间(Time-To-First-Token, TTFT)缩短76.1%~90.9%。例如,Llama-3-8B的TTFT从11.6秒降至1.1秒。
- 与REE-LLM-Flash相比,TTFT平均开销为5.2%~28.3%,长提示(512 token)下仅13%~18.9%(因计算时间掩盖恢复延迟)。

  1. NPU共享的性能提升

    • 解码速度较Strawman提升0.9%~23.2%,NPU切换开销仅占TTFT的1.6%~2.7%。
    • 与REE应用(如YOLOv5)并发时,NPU吞吐量损失低于3.8%。
  2. 内存干扰分析

    • CMA分配期间,REE应用(如GeekBench)性能下降最高6.7%,但仅发生于预填充阶段,解码阶段无影响。

结论与价值
科学意义
- 首次在TrustZone中实现端到端LLM参数保护,提出动态安全内存扩展和NPU时间共享的理论框架。
- 验证了控制-数据平面分离在TEE加速器设计中的普适性,为后续研究提供方法论参考。

应用价值
- 为移动设备厂商提供即用型解决方案,平衡模型保密性(如防止越狱攻击)与用户体验(低延迟推理)。
- 开源实现(基于OpenHarmony和Llama.cpp)可快速适配至其他ARM平台(如Qualcomm NPU)。


研究亮点
1. 方法论创新:流水线恢复将确定性计算图转化为内存预取优势,突破TrustZone连续内存分配的限制。
2. 工程优化:协同驱动设计将TEE NPU驱动代码缩减至1k,切换延迟降低两个数量级。
3. 跨学科融合:结合编译优化(DAG调度)、体系结构(TrustZone硬件配置)和密码学(模型加密)实现系统级突破。

其他价值
- 提出“扩展-收缩”安全内存接口,最小化TEE OS修改(仅112行代码),增强方案的可移植性。
- 公开测试数据与代码,推动学术界在可信AI推理领域的可复现研究。


(报告总字数:约1800字)

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com