分享自:

具有概率性能保证的数据中心碳感知计算

期刊:journal of latex class files

本文由Sophie Hall、Francesco Micheli、Giuseppe Belgioioso、Ana Radovanović和Florian Dörfler共同撰写,发表于2021年8月的《Journal of LaTeX Class Files》。该研究的主要机构包括瑞士苏黎世联邦理工学院(ETH Zurich)的自动控制实验室、瑞典皇家理工学院(KTH Royal Institute of Technology)以及谷歌公司(Google Inc.)。研究得到了瑞士国家科学基金会(Swiss National Science Foundation)和克努特与爱丽丝·瓦伦堡基金会(Knut and Alice Wallenberg Foundation)的资助。

研究背景与动机

数据中心(Data Centers, DCs)是全球碳排放的重要来源之一,其高能耗也给电力系统带来了巨大压力。随着人工智能技术的快速发展,数据中心的电力需求预计将在2020年至2030年间增长三倍。尽管单个数据中心的能效有所提升,但整体能效提升已趋于停滞。因此,如何通过优化数据中心的运营来减少碳排放并参与需求响应(Demand Response, DR)项目,成为云计算公司的重要课题。谷歌等公司提出了到2030年实现净零排放的目标,并希望通过全球数据中心的协同优化来降低运营成本和碳足迹。

研究目标

本文提出了一种基于分布鲁棒优化(Distributionally Robust Optimization, DRO)的负载调度方案,旨在通过利用计算任务的时间和空间灵活性,提供具有概率性能保证的作业调度策略。该方案分为两个关键部分:(1)日前规划,基于历史负载数据生成最优调度策略;(2)实时作业调度,动态跟踪日前规划生成的策略。研究的目标是通过优化作业调度,减少碳排放和峰值电力需求,同时保持计算效率并遵守系统约束。

研究方法与流程

研究分为以下几个步骤:

  1. 问题建模:研究首先将数据中心的作业调度问题建模为一个随机优化问题,考虑了计算任务的时间和空间灵活性。每个计算任务被分类为不同的灵活性类别,具有不同的延迟容忍时间和可执行的数据中心集群范围。

  2. 分布鲁棒优化(DRO):研究采用DRO方法来处理未来负载的不确定性。DRO通过构建一个基于历史数据的模糊集(ambiguity set),确保在最坏情况下也能满足系统的约束条件。模糊集的半径ε用于调节鲁棒性和性能之间的权衡。

  3. 日前规划:研究通过DRO方法生成最优的调度策略和虚拟容量曲线(Virtual Capacity Curves, VCCs)。VCCs用于限制每个集群在每个时间段的可用计算资源,确保负载不会超过集群的容量。

  4. 实时作业调度:在实时操作中,研究设计了一个基于日前规划结果的作业调度算法。该算法通过跟踪最优调度策略,将每个新到达的作业分配到最合适的集群和时间段,以最小化碳排放和峰值电力需求。

  5. 仿真验证:研究使用谷歌集群的标准化负载数据进行仿真验证,结果表明该方案在减少碳排放和峰值电力需求方面优于常见的贪婪策略,同时提供了理论上的性能保证。

主要结果

  1. 负载调度优化:通过DRO方法生成的调度策略能够有效利用计算任务的时间和空间灵活性,将负载从高成本时段和集群转移到低成本时段和集群,从而显著减少碳排放和峰值电力需求。

  2. 鲁棒性保证:DRO方法提供了概率性能保证,确保在大多数情况下负载不会超过集群的容量限制。通过调整DRO的模糊集半径ε,可以在鲁棒性和性能之间进行权衡。

  3. 与贪婪策略的比较:与贪婪策略相比,DRO方法在减少运营成本方面表现显著更好。仿真结果表明,DRO策略的成本仅比完美预测策略高2.57%,而贪婪策略的成本则高出14.05%。

结论与意义

本文提出的基于DRO的负载调度方案为数据中心提供了一种高效、鲁棒的作业调度方法,能够显著减少碳排放和峰值电力需求。该方案不仅具有理论上的性能保证,还通过仿真验证了其在实际应用中的有效性。未来研究可以进一步探索实时反馈和滚动优化(receding-horizon optimization)的应用,以应对负载预测和电网信号的动态变化。

研究亮点

  1. 时间和空间灵活性的联合利用:本文首次提出了同时利用计算任务的时间和空间灵活性的调度方案,相比以往仅考虑时间灵活性的研究,具有更高的优化潜力。

  2. 数据驱动的分布鲁棒优化:研究直接利用历史数据构建模糊集,提供了对不确定性的鲁棒处理,确保了调度策略的可靠性。

  3. 可调节的鲁棒性:通过调整DRO的模糊集半径ε和条件风险值(CVaR)参数β,用户可以根据需求在鲁棒性和性能之间进行权衡。

  4. 虚拟容量曲线与调度策略的协同设计:通过同时优化VCCs和调度策略,研究能够充分利用数据中的时空相关性,减少作业排队延迟。

其他有价值的内容

本文还探讨了实际应用中的一些扩展问题,如作业运行时间、跨资源需求、容量约束的处理等。这些扩展为未来的研究和实际应用提供了重要的参考方向。

本文为数据中心的碳感知计算提供了一种创新的解决方案,具有重要的科学价值和应用前景。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com