深度学习编译器综述The Deep Learning Compiler
The Deep Learning Compiler: A Comprehensive Survey
参考文献:
https://arxiv.org/pdf/2002.03794v4.pdf
在不同的DL硬件上部署各种深度学习(DL)模型的困难,推动了社区DL编译器的研究和开发。DL编译器已经从工业和学术界提出,如TysFraceXLA和TVM。类似地,DL编译器将不同DL框架中描述的DL模型作为输入,然后为不同的DL硬件生成优化代码作为输出。然而,现有的探索都没有全面分析DL编译器的独特设计架构。在本文中,通过详细剖析常用的设计,对现有的DL编译器进行了全面的探索,重点是面向DL的多级IRs和前端/后端优化。详细分析了多级IRs的设计,举例说明了常用的优化技术。最后,强调了一些见解作为潜在的研究方向
DL编译器的设计。这是第一篇关于DL编译器设计体系结构的调查论文,希望能为DL编译器的未来研究铺平道路。
TensorFlow,Keras,PyTorch,Caffe/Caffe2,MXNet,CNTK,PaddlePaddle,ONNX。
本文主要贡献
•剖析了现有DL编译器普遍采用的设计架构,对关键设计组件(如多级IRs、前端优化)进行了详细分析(包括节点级、块级和数据流级优化)和后端优化(包括特定于硬件的优化、自动调优和优化的内核库)。
•从各个方面提供了现有DL编译器的综合分类法,这与本文中描述的关键组件相对应。该分类法的目标是为从业人员提供关于选择DL编译器的指南,需求,并为研究人员提供DL编译器的全面总结。提供了CNN模型上DL编译器的定量性能比较,包括成熟模型和轻量级模型。比较了端到端和每层(卷积层,因为控制推理时间)的性能,显示优化的有效性。评估脚本和结果都是开源的,仅供参考。
•重点介绍了DL编译器未来发展的一些见解,包括动态形状和前后处理、高级自动调整、多面体模型、子图分区、量化、统一优化、可微编程和隐私保护,希望这些能够推动DL编译器界的研究。

Fig. 1. DL framework landscape: 1) Currently popular DL frameworks; 2) Historical DL frameworks; 3) ONNX supported frameworks.

Fig. 2. The overview of commonly adopted design architecture of DL compilers.

Fig. 3. Example of computation graph optimizations, taken from the HLO graph of Alexnet on Volta GPU using Tensorflow XLA.

Fig. 4. Overview of hardware-specific optimizations applied in DL compilers.

Table 1. The comparison of DL compilers, including TVM, nGraph, TC, Glow, and XLA.

Table 2. The hardware configuration.

Fig. 5. The performance comparison of end-to-end inference across TVM, nGraph, Glow and XLA on CPU and GPU.

Fig. 6. The performance comparison of convolution layers in MobileNetV2_1.0 across TVM, TC, Glow and XLA on V100 GPU.

Fig. 7. The performance comparison of convolution layers in MobileNetV2_1.0 across TVM, nGraph and Glow on Broadwell CPU.

Fig. 8. The performance comparison of convolution layers in ResNet50 across TVM, TC and Glow on V100 GPU.

Fig. 9. The performance comparison of convolution layers in ResNet50 across TVM, nGraph and Glow on Broadwell CPU.

Table 3. The number of the clustered and non-clustered convolutions of XLA on V100 GPU and Broadwell CPU.

参考文献
https://arxiv.org/pdf/2002.03794v4.pdf

深度学习编译器综述The Deep Learning Compiler相关推荐

  1. 深度学习编译与优化Deep Learning Compiler and Optimizer

    深度学习编译与优化Deep Learning Compiler and Optimizer

  2. 深度学习还没入门?看看深度学习三巨头的Deep Learning综述(4)

    深度学习还没入门?看看深度学习三巨头的Deep Learning综述(1) 深度学习还没入门?看看深度学习三巨头的Deep Learning综述(2) 深度学习还没入门?看看深度学习三巨头的Deep ...

  3. 深度学习还没入门?看看深度学习三巨头的Deep Learning综述(1)

    深度学习还没入门?看看深度学习三巨头的Deep Learning综述(1) 深度学习还没入门?看看深度学习三巨头的Deep Learning综述(2) 深度学习还没入门?看看深度学习三巨头的Deep ...

  4. Python深度学习:基于PyTorch [Deep Learning with Python and PyTorch]

    作者:吴茂贵,郁明敏,杨本法,李涛,张粤磊 著 出版社:机械工业出版社 品牌:机工出版 出版时间:2019-11-01 Python深度学习:基于PyTorch [Deep Learning with ...

  5. 动手学深度学习(Dive into Deep Learning,D2L)

    动手学深度学习(Dive into Deep Learning,D2L) 本书网址:zh.d2l.ai | 如何安装和使用书中源代码 理解深度学习的最佳方法是学以致用. 本开源项目代表了我们的一种尝试 ...

  6. 第一门课 神经网络和深度学习(Neural Networks and Deep Learning)

    第一门课 神经网络和深度学习(Neural Networks and Deep Learning) 文章目录 第一门课 神经网络和深度学习(Neural Networks and Deep Learn ...

  7. MATLAB与深度学习(一)— Deep Learning Toolbox

    MATLAB与深度学习(一)- Deep Learning Toolbox 最近,我在学习基于matlab的深度学习的内容,并整理出如下学习笔记.本文借鉴和引用了网上许多前辈的经验和代码,如有冒犯,请 ...

  8. 干货丨科普丨大牛的《深度学习》笔记,Deep Learning速成教程

    深度学习,即Deep Learning,是一种学习算法(Learning algorithm),亦是人工智能领域的一个重要分支.从快速发展到实际应用,短短几年时间里,深度学习颠覆了语音识别.图像分类. ...

  9. 简单易学的深度学习算法:Wide Deep Learning

    1.背景 本文提出Wide & Deep模型,旨在使得训练得到的模型能够同时获得记忆(memorization)和泛化(generalization)能力: 记忆(memorization)即 ...

最新文章

  1. 小花梨的三角形(暴力上下扫三角形)
  2. 设计模式(10)-装饰模式详解(易懂)
  3. c#中将对象序列化为xml(包括list)
  4. 多个asp.net程序共用Session(sso程序的外设接口)
  5. 4部“教材级”纪录片,有生之年必看系列!
  6. [ZJOI2007] 时态同步(拓扑序)
  7. 每日一题(43)—— 数组越界
  8. aes key长度_AES加密(1): 基本AES算法
  9. Python---面向对象(一)
  10. [转载] Java中的abstract关键字
  11. Scala 深入浅出实战经典 第91讲:Akka第一个案例动手实战架构设计
  12. Listary -- 高效率办公软件
  13. html编写在线打字通,HTML5代码打字练习、HTML5案例 - 03
  14. 基金交易席位的制度沿袭
  15. 1-4 正弦和余弦
  16. Floyd's Tortoise and Hare循环检测算法
  17. 令人惋惜:Sigfox撑不下去了!这回,可不能怪NB-IoT、LoRa......
  18. java事件溯源_领域事件与事件溯源 - 解道Jdon
  19. python 中文转带音调的拼音
  20. 云服务器系统安装设置方法,云服务器系统怎么安装

热门文章

  1. 2022-2028年中国DTRO膜行业市场全景评估及产业前景规划报告
  2. 2022-2028年中国封装用胶膜行业运营现状及投资发展潜力报告
  3. python异常机制
  4. BERT大火却不懂Transformer?读这一篇就够了 原版 可视化机器学习 可视化神经网络 可视化深度学习...20201107
  5. Tensorflow函数——tf.variable_scope()
  6. TVM代码生成codegen
  7. 计图(Jittor) 1.1版本:新增骨干网络、JIT功能升级、支持多卡训练
  8. 使用TENSORRT和NVIDIA-DOCKER部署深部神经网络
  9. SOLOv 2:实例分割(动态、更快、更强)
  10. 道路场景语义分割算法