分享自:

Ascend:一种可扩展的统一架构用于无处不在的深度神经网络计算

期刊:2021 IEEE International Symposium on High-Performance Computer Architecture (HPCA)DOI:10.1109/HPCA51647.2021.00071

这篇文档属于类型a,是一篇关于深度学习神经网络(Deep Neural Networks, DNNs)加速架构的研究报告。以下是详细的学术报告:

作者与发表信息

该研究由华为公司的多位研究人员共同完成,主要作者包括Heng Liao、Jiajin Tu、Jing Xia、Hu Liu、Xiping Zhou、Honghui Yuan和Yuxing Hu。该研究以论文形式发表在2021年的IEEE International Symposium on High-Performance Computer Architecture (HPCA)会议上。

学术背景

随着深度学习神经网络(DNNs)在自然语言处理、自动驾驶、机器人、智能手机和物联网设备等领域的广泛应用,DNNs的计算强度和存储需求也在不断增加。传统的计算架构无法满足这些需求,因此,研究人员提出了多种专用硬件加速器来提升DNNs的性能和能效。然而,为每个应用场景设计专门的加速器在成本上是不现实的,因此,研究人员需要在效率和通用性之间进行权衡。本研究提出了一种名为“Ascend”的统一架构,旨在支持从物联网设备到数据中心服务的多种应用场景。

研究流程

  1. 架构设计:Ascend架构采用了异构计算单元(Heterogeneous Computing Units)来支持各种DNN模型。数据路径根据计算和数据访问的需求进行了优化。架构从单核扩展到包含数千个核心的集群时,涉及内存层次结构和系统级集成的设计。
  2. 编译器设计:多层次的编译器为开发者提供了灵活的选择,是Ascend架构成功的关键。
  3. 实验验证:通过实验验证了基于Ascend架构的加速器在不同应用中的性能表现,并展示了Ascend架构的商业化成果。

主要结果

  1. 性能提升:实验结果表明,基于Ascend架构的加速器在不同应用中能够达到甚至超越现有加速器的性能。
  2. 商业化成功:基于Ascend架构的多种芯片已经成功商业化,超过1亿颗芯片被应用于实际产品中。

结论

Ascend架构的成功依赖于多个层次的设计贡献,包括异构计算单元的使用、内存层次结构的优化以及多层次的编译器支持。该架构在性能、能效和面积方面表现出色,具有广泛的应用价值。

研究亮点

  1. 统一架构:Ascend架构能够支持从物联网设备到数据中心服务的多种应用场景,展示了其高度的通用性和可扩展性。
  2. 异构计算单元:通过引入标量单元、向量单元和矩阵单元,Ascend架构能够高效地处理各种DNN模型。
  3. 多层次的编译器:多层次的编译器为开发者提供了灵活的选择,极大地提高了开发效率。

其他有价值的内容

  1. 内存层次结构优化:Ascend架构通过多层次的内存优化,有效地解决了内存墙问题。
  2. 系统级集成:从单核到集群的扩展过程中,Ascend架构在系统级集成方面进行了大量的设计工作,确保了其在大规模应用中的性能表现。

通过上述内容,可以看出Ascend架构在深度学习神经网络加速领域的重要性和创新性,为未来的研究和应用提供了新的方向。

上述解读依据用户上传的学术文献,如有不准确或可能侵权之处请联系本站站长:admin@fmread.com