基于信息中心网络的算力优先网络任务调度：一种深度强化学习方法

分享自：
基于信息中心网络的算力优先网络任务调度：一种深度强化学习方法

期刊:IEEE The 8th International Conference on Computer and Communications
基于信息中心网络的算力优先网络任务调度方案研究学术报告
本研究由zhuang zou、renchao xie（通讯作者）、yuzheng ren、f. richard yu和tao huang共同完成。研究团队主要来自北京邮电大学网络与交换技术国家重点实验室以及加拿大卡尔顿大学系统工程与计算机系。该研究成果以论文形式发表于2022年举办的IEEE The 8th International Conference on Computer and Communications (ICCC) 会议上。
本研究的学术领域聚焦于计算机网络与边缘计算的交叉前沿，具体涉及算力网络、信息中心网络与深度强化学习的融合应用。研究的背景在于，随着边缘计算的发展，计算资源呈现出异构与分布式部署的特点。传统的算力优先网络虽然旨在整合计算与网络资源以提升效率，但面临着异构算力难以统一表征、感知与调度的核心挑战。为解决这些问题，近年来有研究尝试将信息中心网络的概念引入算力网络，利用其命名、缓存和路由特性来优化资源管理。然而，现有研究或侧重于网络安全性，或未能在实际任务调度场景中充分优化性能指标。因此，本研究的核心目标是：提出一种新型的、基于信息中心网络架构的算力优先网络框架，并在此基础上，建立一个面向多用户、多目标优化的任务调度模型，最终利用深度强化学习算法求解该模型，以实现全局最优或接近最优的任务调度，从而提升网络整体资源利用率与任务执行效率。
本研究的主要工作流程包含以下几个关键环节：
一、新型网络架构设计与建模阶段： 研究首先提出了一种分层式的、基于ICN的CFN架构。该架构明确划分为控制平面与数据平面。数据平面包含计算节点、转发节点和终端用户等实体。计算节点通过Docker容器提供包含CPU、GPU、内存等异构算力的服务；转发节点则具备ICN典型的内容存储（CS）、待处理兴趣表（PIT）和转发信息库（FIB），负责任务请求的转发与Docker镜像的缓存。控制平面（控制节点）负责全局资源感知（收集计算、网络、缓存资源状态）与集中式智能决策。为此，研究设计了一套分层命名机制，用于统一表征用户任务（如/picture/classification?data size=xxMB&time limit=xxs）和节点资源（如/picture/classification?cpu=xxcycle&gpu=xxflops），使得资源能够被网络有效感知和匹配。系统的工作流程被详细规划为四个阶段：1) 资源感知阶段：节点周期性向控制平面注册资源状态；2) 请求决策与转发阶段：用户发起任务请求，控制节点决策并下发路由表；3) Docker拉取阶段：若计算节点无对应服务容器，则通过ICN机制从网络缓存中拉取；4) 任务计算阶段：计算节点执行任务并返回结果。
二、数学模型构建与问题定义阶段： 在既定网络架构下，研究对多用户任务调度问题进行数学建模。考虑在一个周期Δτ内到达的K个任务以及网络中的M个计算节点和Y个转发节点。模型将总延迟分解为传输延迟、队列延迟、Docker拉取延迟和计算延迟，将总能耗分解为传输能耗、拉取能耗和计算能耗。具体地，传输延迟与任务数据大小及路径带宽相关（公式2）；队列延迟取决于当前计算节点上任务队列的等待时间（公式3）；拉取延迟与Docker镜像大小及路径带宽相关（公式4）；计算延迟则与任务数据量、参数设置以及节点提供的异构算力（CPU、GPU、内存）正相关（公式5,6）。能耗模型同样基于上述过程的延迟和相应功耗计算得出（公式7-11）。最终，研究将调度问题形式化为一个多目标优化问题（MOP），目标是在满足每个任务截止时间约束的前提下，最小化延迟与能耗的加权和（公式12-13）。研究指出，该问题属于非凸优化问题，且系统状态具有马尔可夫性，因此将其进一步转化为马尔可夫决策过程（MDP）以便应用强化学习方法求解。
三、深度强化学习算法设计与求解阶段： 为求解上述MDP问题，研究提出了一个基于深度强化学习（DRL）的算法（见算法1）。算法的核心是将任务调度决策过程建模为智能体（控制节点）与环境（网络状态）的交互。状态空间设计为包含所有待调度任务的状态集合（如是否已被转发）以及所有计算节点的状态集合（如可用服务函数、节点资源向量、当前任务剩余计算时间）（公式14-15）。动作空间定义为在当前时刻优先选择哪个任务进行转发调度（公式16）。奖励函数则直接与优化目标挂钩，设置为一个常数减去归一化后的加权总延迟与总能耗（公式17），引导智能体学习最小化目标函数。在具体求解流程中，算法将“节点匹配”和“任务排序”这两个核心决策交由DRL智能体学习，而将“转发路径选择”和“Docker拉取”这两个相对独立且可能使状态空间过大的子问题，分别用最短路径算法和贪心算法进行模拟处理，以简化学习过程。算法采用深度Q网络（DQN）框架，包含经验回放、目标网络等机制，通过大量训练回合来迭代更新Q网络参数，最终学习到一个接近最优的任务调度策略。
四、仿真实验与性能评估阶段： 研究使用Python 3.7和TensorFlow 1.0框架搭建仿真环境进行验证。网络参数设置为：计算节点数M=6，每周期生成任务数K=6，平均计算频率2000MHz，平均路径带宽800Mbps，任务平均数据大小50MB。DRL训练超参数包括：学习率0.001，经验回放容量400，批量大小32，探索概率ε=0.1，总训练回合数600。研究将提出的DQN方案与经典的Q-learning方案以及基于延迟的贪心算法进行对比，并从多个维度评估性能： 1. 收敛性能：结果显示，虽然Q-learning收敛更快，但DQN最终收敛到的总奖励值更高，表明在本文较大的状态空间下，DQN具有更好的学习能力和最终性能。 2. 平均延迟：随着训练进行，DQN和Q-learning方案的任务平均延迟不断下降并最终收敛，且DQN的最终收敛延迟最低。贪心算法由于只追求局部最优，其延迟最高，且不随“训练”而改善，这验证了DRL进行全局优化的有效性。 3. 计算节点数量影响：随着网络中计算节点数量增加，所有方案的任务平均延迟均下降，因为任务有更多空闲节点可供选择，减少了排队。值得注意的是，当计算节点较少（任务数多于节点数，更贴近实际高负载场景）时，DQN方案的性能优势更为明显。 4. 路由跳数影响：随着任务请求到计算节点的路由跳数增加，传输延迟自然上升。然而，本文提出的缓存Docker的机制显著缓解了这种增长。在没有缓存的网络中，总延迟随跳数线性增加；而有了缓存机制后，更多的转发节点缓存了所需Docker，减少了远程拉取延迟，从而使得总延迟增长平缓，证明了ICN缓存机制在大规模网络中的优势。
本研究得出的核心结论是：成功提出并验证了一种基于信息中心网络的算力优先网络架构。该架构利用ICN的命名、缓存和路由机制，有效解决了异构算力感知与描述难题。在此基础上，将复杂的多用户任务调度问题建模为多目标优化的马尔可夫决策过程，并创新性地应用深度强化学习算法进行求解。仿真实验表明，所提出的方案在任务平均延迟、全局优化能力以及网络规模扩展性方面均优于传统的Q-learning和贪心基准方案。
本研究的价值主要体现在以下几个方面：在科学价值上，它推动了算力网络与信息中心网络两大领域的深度交叉，为异构、分布式计算资源的统一管理与智能调度提供了创新的理论框架和建模方法。将深度强化学习引入此类复杂网络调度问题，展示了数据驱动方法在解决传统优化难题上的潜力。在应用价值上，所提出的架构和算法为未来边缘计算、云计算乃至算力互联网的高效资源协同与任务调度提供了切实可行的技术思路和方案原型，有助于提升整体计算资源的利用率和用户服务体验。
本研究的亮点与创新之处在于：1. 架构创新：首次系统性地提出了一个控制与数据分离、深度融合ICN特性的分层CFN架构，并设计了配套的命名机制与工作流程。2. 问题建模创新：将任务调度问题构建为一个综合考虑延迟、能耗和截止时间约束的多目标MDP模型，更贴合实际应用场景的复杂性。3. 求解方法创新：采用DRL（DQN）来学习最优任务排序策略，并结合传统算法处理子问题，在保证求解质量的同时控制了算法复杂度。4. 验证全面性：通过详尽的仿真实验，不仅验证了算法本身的收敛性和优越性，还深入分析了计算节点数量、网络规模（路由跳数）等关键因素对系统性能的影响，特别是揭示了ICN缓存机制在大规模网络中的显著优势，这些发现具有重要的指导意义。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问