分布式稀疏矩阵向量乘法的计算与通信平衡优化

分享自：
分布式稀疏矩阵向量乘法的计算与通信平衡优化

期刊:2023 IEEE/ACM 23rd International Symposium on Cluster, Cloud and Internet Computing (CCGrid)DOI:10.1109/ccgrid57682.2023.00056
【点击此处】阅读全文、收藏及针对性提问
本文档是一篇题为“Balancing Computation and Communication in Distributed Sparse Matrix-Vector Multiplication”的学术论文，发表于2023年IEEE/ACM第23届集群、云计算和互联网计算国际研讨会（CCGrid）。作者为Hongli Mi, Xiangrui Yu, Xiaosong Yu, Shuangyuan Wu 和 Weifeng Liu（通讯作者），均来自中国石油大学（北京）超级科学软件实验室。该论文属于类型a，即报告了一项单一的原创性研究。以下是根据要求生成的学术报告：
在当今大规模科学与工程计算领域，稀疏矩阵-向量乘法（Sparse Matrix-Vector Multiplication, SpMV）作为基础核心运算，其性能至关重要。当处理的矩阵规模巨大时，分布式内存系统成为加速计算的必然选择。然而，现有的分布式SpMV优化技术主要集中于通过图或超图划分进行矩阵重排序，虽然能在一定程度上减少通信量，但未能有效解决分布式平台上计算与通信负载不均衡的根本性挑战。负载不均衡问题，尤其在计算节点增多时，会严重制约算法的扩展性和整体性能。针对这一关键瓶颈，来自中国石油大学（北京）的研究团队提出了一种名为DistSpMV_Balanced的新型优化算法，旨在通过精细调整数据分布策略，在计算节点间实现计算与通信的均衡，从而显著提升大规模稀疏矩阵计算的效率。
研究的学术背景与目标 本研究的科学领域属于高性能计算中的并行稀疏线性代数。SpMV（y = A * x）操作是许多迭代求解器（如共轭梯度法）的核心，其性能直接影响到大规模模拟、数据分析和机器学习等应用的效率。在共享内存系统（如多核CPU、GPU）上，已有大量针对SpMV的优化技术，包括向量化、分块、负载均衡和自动调优等。然而，当矩阵规模超出单节点内存容量时，必须采用分布式内存集群。分布式环境下的SpMV面临新的挑战：矩阵被分块存储在不同节点，计算需要跨节点交换向量x的分量，由此产生的通信开销和节点间负载不均成为主要性能瓶颈。尽管已有研究利用图划分工具（如METIS）对矩阵行/列进行重排，使非零元尽可能集中在对角线块附近以减少通信，但这种方法并未改变矩阵行或列固有的非零元数量分布，因此无法保证每个节点本地计算量（由其存储的行块中的非零元数量决定）的均衡，也无法优化对角线块内部的计算负载分布。随着节点数增加，这种不均衡性会导致性能急剧下降。因此，本研究旨在超越传统的单纯重排序方法，提出一种能够主动平衡计算与通信负载的综合优化策略，以提升分布式SpMV的性能和可扩展性。
详细的研究方法与工作流程 本研究的工作流程包含算法设计、实现与实验评估三大阶段，其核心是DistSpMV_Balanced算法的设计与执行流程。
第一阶段：算法设计与核心策略 该算法主要包含三个核心优化策略： 1. 基于图划分的初始重排序：首先，使用图划分工具METIS对稀疏矩阵对应的图进行划分，并根据划分结果对矩阵的行和列进行重排。这一步是预处理阶段，目的是将非零元素尽可能聚集到对角线块区域，为后续优化提供一个通信量较小的基础矩阵结构。 2. 调整对角线块列数以平衡任务与减少通信：这是算法的创新关键。传统方法中，每个节点存储一个连续的行块及其对应的对角线列块。本研究提出动态调整每个本地节点所负责的对角线子矩阵的列数。具体流程如下： * 设定阈值：统计重排序后各节点对角线块中的非零元数量，取其最大值作为一个阈值下限（lower_bound）。 * 扩展对角线块：对于每个节点的对角线块，将其右边界（right_bound）向右移动，直到该块包含的非零元数量达到或超过lower_bound，或者到达矩阵的右边界。这个过程通过一个扫描线算法（Algorithm 1）实现，该算法维护每行在本地块中最左和最右非零元的列索引，以及整个对角线块的左右列边界。通过向右扩展列边界，将更多原本属于“远程”的非零元素纳入“本地”矩阵，从而减少需要通信获取的向量元素数量。 * 分割矩阵：根据扩展后的对角线块边界，将全局矩阵分割为本地矩阵（Local Matrix，元素位于扩展后的对角线块内）和远程矩阵（Remote Matrix，元素位于扩展对角线块外）。本地矩阵的计算无需跨节点通信。 3. 调整行块数以平衡计算量：对于远程矩阵，不再简单地按行数均分，而是按照非零元数量进行行块划分。确保分配给每个节点的远程矩阵部分所包含的非零元数量大致相等，从而实现不同节点间远程计算负载的均衡。 4. 两级并行与负载均衡计算：采用MPI+OpenMP混合编程模型。MPI用于节点间并行和通信，OpenMP用于节点内多线程并行。在计算阶段，算法进一步实现了细粒度的线程级负载均衡（Algorithm 4）。它将每个节点上的非零元总数平均分配给各个线程，每个线程负责计算大致相等数量的非零元，从而充分利用多核资源。
第二阶段：实验设置与评估对象 研究在一个由8个节点组成的集群上进行测试，每个节点配备32核AMD EPYC 7551 CPU和128GB内存，节点间通过200Gb InfiniBand网络互联。 * 数据集：从SuiteSparse矩阵集合中选取了20个具有代表性的稀疏矩阵作为测试基准。这些矩阵既包括非零元主要集中于对角线附近的规则矩阵（如cant），也包括非零元随机分布的复杂不规则矩阵（如road_central, inline_1），以验证算法的普适性。 * 对比算法：为了全面评估DistSpMV_Balanced的性能，研究者将其与三种现有的分布式SpMV实现进行对比： * DistSpMV：基于朴素非零元分布的基线实现。 * DistSpMV_Reordered：在DistSpMV基础上，使用METIS进行图划分和矩阵重排序后的版本。 * DistSpMV_Hybrid：由Page和Kogge近期提出的一种混合分布式SpMV算法。 * 实验配置：测试了进程数（MPI进程）从1到64（每个进程固定使用4个OpenMP线程）的多种配置。每个SpMV操作重复执行50次，报告平均执行时间，并以每秒十亿次浮点运算（GFLOPs）作为性能指标。此外，还统计和分析了不同算法下的进程间通信量、本地与远程矩阵计算量以及预处理开销。
主要研究结果与分析 实验结果表明，DistSpMV_Balanced算法在所有测试矩阵和不同进程规模下，均显著优于其他对比算法。
性能加速比：在64个进程（共256线程）的配置下，与基线算法DistSpMV相比，DistSpMV_Balanced取得了平均77.20倍、最高460.52倍的加速比。与经过图划分优化的DistSpMV_Reordered相比，取得了平均5.18倍、最高27.50倍的加速比。与近期提出的DistSpMV_Hybrid算法相比，也取得了平均19.56倍、最高48.49倍的加速比。这些数据强有力地证明了新算法在性能上的巨大优势。
可扩展性：性能曲线图（图4）显示，随着进程数增加，DistSpMV_Balanced在大多数矩阵上性能持续提升，且明显优于其他两种算法。虽然个别矩阵（如nlpkkt80, vas_stokes_1m）在进程数极大时性能略有下降，但整体下降幅度远小于对比算法，表明新算法具有更优的可扩展性。
通信与计算负载均衡分析：研究者以road_central和inline_1两个矩阵为例，深入分析了算法性能提升的原因。
通信量减少：通过热力图（图5a, 5b）对比了三种算法在8个进程下的进程间通信量。DistSpMV的通信负载极不均衡且总量巨大。DistSpMV_Reordered通过图划分显著降低了通信总量。而DistSpMV_Balanced通过扩展对角线块，将更多非零元划入本地矩阵，进一步减少了远程通信量，热力图颜色更浅，且通信模式更为均衡。
计算负载均衡：图5c的线图进一步量化了对比。一方面，DistSpMV_Balanced每个进程的通信量普遍低于DistSpMV_Reordered。另一方面，其本地矩阵的计算量（中间子图）有所增加，这正对应了将远程非零元“本地化”的策略。最重要的是，最右侧子图显示，DistSpMV_Balanced各进程的远程矩阵计算量（非零元数量）几乎呈一条水平直线，这表明通过按非零元数量划分远程矩阵行块，成功实现了跨节点的远程计算负载完美均衡。而DistSpMV_Reordered的远程计算量则波动剧烈，存在严重不均衡。
预处理开销：额外的优化策略必然引入预处理成本。图7显示，与DistSpMV_Reordered（仅含METIS划分开销）相比，DistSpMV_Balanced的预处理时间开销平均仅增加约1.05至1.31倍。考虑到其在核心SpMV计算阶段带来的数十倍性能提升，这个预处理开销是可接受的、微不足道的。
研究的结论与价值 本研究得出结论：传统的、仅依赖图/超图划分进行矩阵重排序的方法，不足以实现分布式稀疏矩阵-向量乘法中计算与通信的负载均衡。为此，论文提出的DistSpMV_Balanced算法，通过动态调整对角线块的列数以最大化本地计算、减少通信，并结合按非零元数量划分远程矩阵以实现计算负载均衡，有效解决了这一关键问题。 该研究的科学价值在于，它揭示了在分布式SpMV优化中，除了减少通信总量，主动塑造和平衡计算与通信负载模式的重要性，并提出了一套行之有效的具体技术方案。其应用价值非常直接且显著：能够大幅提升大规模科学计算和工程应用中迭代求解器的运行效率，对于需要处理超大规模稀疏线性系统的领域（如计算流体力学、社交网络分析、机器学习等）具有重要的实用意义。算法采用的MPI+OpenMP两级并行模式也符合现代异构计算集群的主流编程范式，易于集成和应用。
研究的亮点与创新 1. 问题洞察新颖：明确指出并深入分析了图划分方法在负载均衡方面的局限性，将优化焦点从单纯的“减少通信”深化为“平衡计算与通信”。 2. 核心算法创新：提出了“调整对角线块列数”和“按非零元数量划分远程矩阵行块”这两个核心创新策略。前者创造性地通过扩展本地存储范围来减少通信需求，后者则确保了计算任务的均衡分配。 3. 显著的性能提升：在广泛的测试集上取得了相对于经典方法及最新研究工作的数量级性能提升，并展示了优异的可扩展性。 4. 实用的工程贡献：算法设计兼顾了性能与实用性，预处理开销小，采用混合并行编程模型，易于在现有高性能计算平台上部署。
其他有价值的内容 论文还详细描述了算法的数据结构、通信模式建立（Algorithm 2）和节点间通信过程（Algorithm 3），为其他研究者复现或借鉴该方法提供了清晰的指引。此外，相关工作部分系统回顾了共享内存和分布式内存SpMV优化的主要技术路线，为读者提供了该领域的知识脉络，凸显了本工作在与现有方法对比中的定位与贡献。
上述解读依据用户上传的学术文献，如有不准确或可能侵权之处请联系本站站长：admin@fmread.com
【点击此处】阅读全文、收藏及针对性提问