NNVM AI框架编译器
深度学习已变得无处不在且不可或缺。看到对在多种平台(例如手机,GPU,IoT设备和专用加速器)上部署深度学习工作负载的需求不断增长。TVM堆栈弥合深度学习框架与面向性能或效率的硬件后端之间的鸿沟。TVM堆栈使为深度学习框架轻松构建端到端编译变得容易。拥有适用于所有框架的统一解决方案更好。
NNVM编译器是一种开放式深度学习编译器,用于将前端框架工作负载直接编译到硬件后端。使用TVM堆栈中的两级中间表示(IR)来构建。可以参考原始的TVM公告,以获取有关TVM堆栈的更多技术细节。借助TVM堆栈,NNVM编译器可以:
• 在高级图IR中表示并优化常见的深度学习工作负载
• 转换计算图以最大程度地减少内存利用率,优化数据布局并融合不同硬件后端的计算模式。
• 提出从前端深度学习框架到裸机硬件的端到端编译管道。

NNVM编译器可以直接从深度学习框架(例如Apache MXNet)中获取模型。支持模型交换格式,例如ONNX和CoreML。ONNX支持使NNVM能够从PyTorch,Caffe2和CNTK编译深度学习模型。CoreML前端支持将CoreML模型部署到非iOS设备。

优化与部署分离

NNVM编译器应用图级和张量级优化,并共同优化它们以获得最佳性能。采用与现有深度学习框架不同的方法,后者将图形优化与部署运行时打包在一起。NNVM编译器采用了编译器的传统知识,将优化与实际部署运行时分开。这种方法提供了实质性的优化,但仍使运行时轻量级。编译后的模块仅取决于最小的TVM运行时,部署在Raspberry Pi或移动设备上时仅需300KB左右。
性能
NNVM编译器仍在积极开发中,可以期待会有更多的改进,但是已经开始看到令人鼓舞的结果。对它的性能进行了基准测试,并在两种典型的硬件配置上将其与Apache MXNet进行了比较:Raspberry PI上的ARM CPU和AWS上的Nvidia GPU。尽管这两款芯片在架构上存在根本差异,但可以使用相同的基础架构,只需要更改每种硬件的调度即可。
Nvidia GPU
GPU基准和调度将NNVM编译器与Apache MXNet与CUDA8和cuDNN7作为Nvidia K80的后端进行了比较。这是一个非常强大的基准,因为Apache MXNet会打开自动调整功能,以从CuDNN中选择最佳内核。使用了MXNet中优化的深度智能内核来优化MobileNet工作负载。

可以看出,NNVM编译器生成的代码胜过K80上的Apache MXNet。这些改进归因于联合图级别和内核级别的优化。值得注意的是,NNVM编译器可自行生成所有优化的GPU内核,而无需依赖诸如CuDNN之类的外部库。
树莓派3b
Rasberry Pi编译堆栈将NNVM编译器与带有OpenBLAS和NNPack的Apache MXNet进行了比较。探索了使MXNet发挥最佳性能的设置:为3x3卷积打开了NNPACK中的Winograd卷积,启用了多线程,并禁用了其他调度程序线程(因此,所有线程都被NNPack使用)。

可以看出,在ResNet18上,NNVM编译器生成的代码快两倍。MobileNet上的差距主要是由于现有CPU DNN库中缺乏深度卷积。NNVM编译器利用直接直接生成有效的ARM代码的优势。
在构建NNVM编译器时,包含以下项目内容。
• Theano:可能是最早的深度学习编译器
• Halide:TVM使用HalideIR作为数据结构,以简化数学运算和降低 low level lowering.。HalideIR衍生自Halide。当在TVM中实施降低流程the lowering pipeline时,参考了Halide结构。
• Loopy:使用整数集分析及其循环转换原语。

NNVM AI框架编译器相关推荐

  1. NNVM Compiler,AI框架的开放式编译器

    NNVM Compiler,AI框架的开放式编译器 深度学习已变得无处不在且不可或缺.在多种平台(例如手机,GPU,IoT设备和专用加速器)上部署深度学习工作负载的需求不断增长.宣布了TVM堆栈,以弥 ...

  2. AI框架精要:设计思想

    AI框架精要:设计思想 本文主要介绍飞桨paddle平台的底层设计思想,可以帮助用户理解飞桨paddle框架的运作过程,以便于在实际业务需求中,更好的完成模型代码编写与调试及飞桨paddle框架的二次 ...

  3. 中国人工智能AI框架自主研发

    中国人工智能AI框架自主研发 中国AI界争相构建AI开源框架的背后,技术和业务层面的考量因素当然重要,但也不应忽视国家层面的政策支持.对于AI基础设施的建设,中国政府在<新一代人工智能发展规划& ...

  4. TensorFlow、PyTorch之后,“国产”AI框架还有没有机会?

    出品 | AI科技大本营(ID:rgznai100) 众所周知,在机器学习框架领域,PyTorch.TensorFlow已分别成为目前学界和业界使用最广泛的两大实力玩家,而紧随其后的Keras.MXN ...

  5. 程序员失业第一步?斯坦福研究员用AI从编译器反馈中学习改Bug

    来源:AI科技评论 本文约2700字,建议阅读10分钟 本文介绍了来自斯坦福大学的两位研究员研究了如何使用AI来自动修复程序,以期未来程序修复自动化可以大大提高编程和学习编程的效率. 众所周知,程序员 ...

  6. 昇思MindSpore全场景AI框架 1.6版本,更高的开发效率,更好地服务开发者

    本文分享自华为云社区<昇思MindSpore全场景AI框架 1.6版本,更高的开发效率,更好地服务开发者>,作者: 技术火炬手. 全新的昇思MindSpore全场景AI框架1.6版本已发布 ...

  7. AI框架中图层IR的分析

    摘要:本文重点分析一下AI框架对IR有什么特殊的需求.业界有什么样的方案以及MindSpore的一些思考. 本文分享自华为云社区<MindSpore技术专栏 | AI框架中图层IR的分析> ...

  8. 30名工程师,历时1300天打造,又一“国产”AI框架开源了

    作者 | Just 出品 | CSDN(CSDNnews) "我发现,软件研发总会延期."一流科技CEO袁进辉说. 按照他的预期,深度学习框架OneFlow做两年就能开源给开发者检 ...

  9. TensorFlow、PyTorch 之后,“国产”AI 框架还有没有机会?

    出品 | AI科技大本营(ID:rgznai100) 众所周知,在机器学习框架领域,PyTorch.TensorFlow已分别成为目前学界和业界使用最广泛的两大实力玩家,而紧随其后的Keras.MXN ...

最新文章

  1. hibernate 全面学习【lazy策略 】
  2. BZOJ4061/Gym100624F CERC2012 Farm and Factory 最短路、切比雪夫距离
  3. javascript函数,值得参考!
  4. 记一次lvs-tunnel模式的故障分析(7)
  5. 我的 计算机朋友作文,电脑我的朋友作文
  6. python爬虫难度排行榜_无聊写了一个python爬虫程序,用来爬夕阳试炼场排行榜的...
  7. 相似矩阵对角化 | 找到一个可逆矩阵 P 使得 P^(-1)AP 成为一个对角矩阵
  8. 操作系统概念第六章部分作业题答案
  9. 服务器如何取得系统管理员权限,技巧:Windows系统如何获得管理员权限?
  10. POI读取word模板,根据list动态添加表格,按照字段填充
  11. Scrapy爬虫框架详解
  12. 淘宝七天自动确认收货,让你设计,可以怎么实现?(附源码)
  13. 从单一服务到多元化服务,智能机器人JIMI的架构改造及逐步开放的过程
  14. 【今日CV 计算机视觉论文速览 第122期】Fri, 31 May 2019
  15. C#的GPU加速方法
  16. JavaWeb-smbms项目
  17. 统计学之Bonferroni-corrected
  18. CSP-S 2020
  19. 6. 中文命名实体提取
  20. Bat命令学习-FOR参数F的选项delims与tokens

热门文章

  1. 2021-2027年中国一次成型光学玻璃行业市场分析及投资潜力研究报告
  2. 2022-2028年中国环保设备行业投资分析及前景预测报告
  3. 2022-2028年中国气相防锈薄膜行业市场发展调研及投资前景分析报告
  4. linux中去掉^M的方法
  5. 亲手建造自己想要的生活
  6. 文本框可编辑查看页面
  7. java.lang.NullPointerException异常原因及解决
  8. LLVM基础技术图例
  9. 凭借128核芯片,安培寻求提供可靠的进步
  10. 混合装置实现了24/7的能量收集和储存