设计满足高吞吐和低延迟需求的可编程交换机内的联合包和流级推断模型

分享自：
设计满足高吞吐和低延迟需求的可编程交换机内的联合包和流级推断模型

信息科学
人工智能
电子科学与信息系统
计算机科学
自动化
期刊:IEEE INFOCOMDOI:10.1109/infocom52122.2024.10621365
【点击此处】阅读全文、收藏及针对性提问
学术报告: “JEWEL: Resource-efficient Joint Packet and Flow Level Inference in Programmable Switches”主要作者及机构
 本研究的主要作者包括 Aristide Tanyi-Jong Akem、Beyza Bütün、Michele Gucciardo 和 Marco Fiore，隶属 IMDEA Networks Institute（西班牙）及 Universidad Carlos III de Madrid（西班牙）。该论文的最终版本发表在 IEEE INFOCOM 2024 - IEEE Conference on Computer Communications，并于 2024 年正式出版，DOI 为 10.1109/INFOCOM52122.2024.10621365。
学术研究背景
 该研究主要面向计算机网络领域，以可编程交换机中的高效资源利用和机器学习模型嵌入为研究方向。近年来，计算机网络需要支持愈加复杂的应用，这些应用包括自动驾驶汽车、增强或虚拟现实、元宇宙的数字孪生等，均对网络的高吞吐量和低延迟性能提出了更苛刻的要求。然而，根据现行的软件定义网络（SDN）架构，这些管理任务主要由控制平面完成，然而控制平面的闭环通信往往需要数十毫秒的延迟，难以满足网络低延迟实时应用的需求。
最近数据平面可编程性（programmable data planes）的进展，例如 Intel 的 Tofino 交换机和基于 P4 编程语言的工作，为将人工智能（AI）和机器学习（ML）嵌入到数据平面提供了可能性。这种方法潜在地将 ML 推断时间减少到纳秒级，但实际落地面临重大挑战，如数据平面硬件中数学运算支持有限、可用内存较少等。因此，让复杂的 ML 模型在资源高度受限的环境中高效运行成为了一项棘手的任务。当前的研究多集中于单一类别的推理（如基于数据包级别或流级别），但二者各有优劣：包级推理（PL）速度快但准确性有限，而流级推理（FL）准确性较高，但需等待较多数据包，从而导致延迟且无法处理流的早期数据包。
为弥补这一不足，该研究提出 JEWEL 模型，基于一种联合的数据包和流级别分类设计，能平衡早期数据包高效分类及后期高准确流级推断的需求。
研究流程与方法
 1. 总体模型设计及硬件约束考虑：
 JEWEL 的核心是一个单一的随机森林（RF）模型，该模型能同时适应包级特点与流级特性，动态调整分类方式。文中提出了一种 “fully joint” 的设计，与以往依赖不同模型分别处理包级和流级推断的方式（如 NetBeacon）不同，JEWEL 将二者统一于同一模型中。这种设计减少了硬件资源开销，并提高了分类性能。此外，作者详细呈现了硬件限制（如 TCAM 存储器大小、可编程动作寄存器位宽等）对模型特性的影响，并设计了一个特定的功能模块作出优化。
2. 包级与流级推断的融合方法：
 如文中描述，JEWEL 所提出的模型设计采用创新性训练方法：
 - 在训练早期数据包时，利用包级特征（如包长）和默认值替代的流级特征，避免流级特征无法立即获得的困境；
 - 随着流级数据包积累至阈值后（如第 N 个数据包），切换为流级特征与包级特征并用的训练。
 此外，模型为不同数据包分配不同的训练样本权重，以反映其对整体流分类的重要性。权重不仅仅考虑流内独立数据包的识别，还关注后续数据包根据前一分类结果继承整体流类别的情况。
3. 特征及模型优化过程：
 JEWEL 构建了一个全面和自动化的模型超参数优化工作流。通过对 RF 模型所有可能的超参数（如树的深度、叶子节点数量）及模型大小（是否符合硬件限制的内存占用）进行穷尽搜索，JEWEL 提供了最佳性能与硬件兼容性解决方案。此外，通过对子集进行时间特征的裁剪和重构，确保所选特征集能够完全映射到硬件中。
4. 硬件实现及推断工作流：
 JEWEL 的实现基于 PISA 体系结构，将 RF 模型映射到实际生产级 Intel Tofino 可编程交换机管道内。文中详细介绍了分段解析如何逐步完成目标流检测、特征提取、并将推断分为三个路径（早期包分类、中间流更新、后续流分类），这些路径简化了处理流程，节省了硬件资源。
研究的结果与数据支持
 研究通过真实用例的数据集与指标验证了 JEWEL 的优越表现。以下是主要实验结果：
 1. 实验设置：
 - 在 100 Gbps 的真实交换机测试床中运行 JEWEL 和相关基准算法（如 Planter、FlowRest、NetBeacon 等）；
 - 选取四种实际数据集覆盖广泛的分类任务（服务分类、设备识别、恶意流量检测、网络攻击检测），确保模型的普遍适用性。
分类准确性：
平均 F1 分数的提升在所有实验情景中均优于其他算法。具体而言，在 UNIBS 数据集中，JEWEL 达到 98.35%，最高领先基准算法 5.3%；在 UNSW-IOT 数据集中 JEWEL 为 87.31%，平均领先 7.2%。
 
模型稳定性：
与同类算法 NetBeacon 相比，JEWEL 展现出更高的分类一致性，其在不同数据集中保持高精度性能，而其他算法却受特定用例或特征的限制，出现较大的波动或资源开销。
 
资源消耗：
在硬件开销上，JEWEL 的 TCAM 使用率低于大多数流级和联合推断模型，比如 NetBeacon 显著消耗了更多资源。此外，全局硬件资源分配也优于大部分基准模型，例如精心优化的时间特征裁剪策略有效减少了额外带宽占用。
 
研究的意义与价值
 JEWEL 的提出推动了可编程交换机数据平面 ML 应用的极限，将网络管理从传统的控制平面延展到数据平面。这一改变不仅显著降低了推断延迟，使 ML 推断接近线速运行，更扩展了网络推断的实际应用场景。
 JEWEL 的创新之处体现在：
 1. 使用单一模型实现包/流联合推断，无需硬件资源的冗余分配；
 2. 通过综合考虑硬件约束和绩效需求，提供了一种通用、多任务皆高效的解决方案；
 3. 为未来 SDN 网络管理和边缘计算的发展提供了新思路，特别是在恶意流量监测、流分类及服务优化领域。
JEWEL 凭借其创新方法、稳定性和硬件高效性建立了新标准，成为目前状态下可编程交换机 ML 应用的最优解之一。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问