作者 | 神经小姐姐
来源 | HyperAI超神经(ID:HyperAI)

【导读】为深度学习设计新的定制硬件加速器,是目前的一个趋势,但用一种新的设计,实现最先进的性能和效率却具有挑战性。近日,英伟达开源了软硬件推理平台 NVADLA 编译器,一起来围观一下吧。

2017 年,英伟达发布了深度学习加速器 NVDLA,全称 NVIDIA DeepLearning Accelerator,以推动在定制硬件设计中采用高效的 AI 推理。

在英伟达的开发套件 Jetson AGX Xavier 中,它能为 AI 模型提供 7.9 TOPS/W 的最佳峰值效率。

而最近,英伟达在 GitHub 上开源了 NVDLA 编译器的源代码,这是世界上首个软硬件推理平台的完整开源代码。系统架构师和软件开发者们,现在已可访问这个软硬件推理平台。

使用 NVDLA 进行物体检测

在本文中,将详细介绍网络图形编译器,是如何提升了专用硬件加速器的性能,并介绍在云端,如何构建和运行自定义 NVDLA 软硬件设计。

NVDLA 编译器的性能和效率

编译器是 NVDLA 软件栈的关键组件。它能生成优化的执行图,将预训练的神经网络模型层中定义的任务,映射到 NVDLA 中的各个执行单元。

一方面能最大限度地利用计算硬件,另一方面尽可能地减少数据移动。

NVDLA 核心硬件有六个专门的硬件单元,可以实现同时调度,或者在流水线配置中实现调度。

NVDLA 架构图

此外,它还具有小型和大型硬件配置文件。其中大型配置文件含有一些高级特性,如芯片上的 SRAM 接口、连接微控制器的能力。

NVDLA 小型配置文件模型

硬件架构是模块化的,它被设计成可自由伸缩的形态,小到嵌入式物联网设计,大到使用NVDLA 单元阵列的大型数据中心,都能完美适用。

编译器可以根据多项因素进行调优:NVDLA 硬件配置、系统的 CPU 和内存控制配置,以及应用程序的自定义神经网络用例等等。

NVDLA 是如何提升性能的

在大型的 NVDLA 设计上,层融合和管道调度之类的编译器优化,表现性能良好,可广泛应用于多种神经网络架构,能提供高达 3 倍的性能效益。

这种优化后的灵活性,是实现跨大型网络模型(如ResNet-50)和小型网络模型(如 MobileNet)的性能优化的重要原因。

对于较小的 NVDLA 设计,编译器优化(如 Memory tiling )也是提高性能效率的关键。

Memory tiling 设计能在权重和激活数据之间,平衡芯片上缓冲区的使用,从而最小化芯片外存储的流量和能耗。

用户还可以自由地创建定制的图层,并根据自己的特殊用例进行调优,或者使用最新的算法进行实验。

为了方面对比,可以根据下面的性能数字,评估 NVDLA 大型模型的预期性能。测量数据来自 Jetson AGX Xavier 开发工具上的一个 NVDLA 核心捕获。

使用 RISC-V 和 FireSim 在云端设计

通过这个编译器版本,NVDLA 用户可以访问集成、增添和探索 NVDLA 平台所需的软件和硬件源代码。

如果想要尝试入手,建议的方式是直接使用 NVDLA 上的 YOLOv3 ,以及云端的 RISC-V 和 FireSim 进行物体检测。

在使用 FireSim- NVADLA 时,可按照 FireSim 的说明操作,直到能够运行单节点模拟为止。

使用指南:http://docs.fires.im/en/1.5.0/index.html

按照教程中的步骤操作,在「设置FireSim Repo」一节中,验证是否正使用 FireSim -NVADLA  存储库,具体的操作代码如下:

git clone https://github.com/CSL-KU/firesim-nvdla
cd firesim-nvdla
./build-setup.sh fast

使用 NVDLA 运行单节点模拟之后,按照 NVDLA 教程中的步骤可以立即启动 YOLOv3。(地址:https://github.com/CSL-KU/firesim-nvdla#running-yolov3-on-nvdla)

这套编译器已经被 SiFive 这类初创公司所使用,并从中得到了受益。

SiFive 使用 NVDLA 进行深度学习推理

据悉,SiFive 在一年前首次在自己的平台上开始使用 NVDLA,而经过了性能优化的开源 NVDLA 编译器,能够创建特定领域的优化 SoC 设计,为 IoT Edge 中的 AI 现代计算需求做足准备。

项目开源地址:

https://github.com/nvdla/sw/releases/tag/v1.2.0-OC

内容来源:

Nvidia Developer Blog

(*本文为AI科技大本营转载文章,转载联系作者)

精彩推荐

【结果提交倒计时】PV,UV流量预测算法大赛,结果提交截止时间为9月20日,还没有提交的小伙伴抓紧时间了~~9月25日公布初赛成绩。最新排行榜请扫码查看。

推荐阅读

  • 免费开源!新学期必收藏的AI学习资源,从课件、工具到源码都齐了

  • 干货 | 收藏!16段代码入门Python循环语句

  • Python玩转高德地图API(一)

  • 任正非称华为 6G 领先世界;支付宝小程序将与微博打通;Linux Kernel 5.3 发布 | 极客头条

  • 幼儿识字从比特币开始? 小哥出了本区块链幼教书, 画风真泥石流……

  • Serverless 的喧哗与骚动

  • 我们到底该如何看待6G?

  • 互联网大佬为什么爱唱歌

  • 惊呆!这辆悍马自己在跑跑跑跑跑跑跑!

你点的每个“在看”,我都认真当成了喜欢

全球首个软硬件推理平台 :NVDLA编译器正式开源相关推荐

  1. 全球首个NB-IoT智慧水务在深圳正式规模商用;华为与Software AG联合推出全面的物联网解决方案 | IoT黑板报...

    高通骁龙835各项跑分出炉 性能碾压去年所有旗舰手机 @威锋网 高通最新移动平台 Snapdragon 835,基本上可以确认是今年旗舰智能手机的标配,在骁龙 835 真机到来之前,随着昨日中国发布会 ...

  2. 华为方舟编译器正式开源,采用自主平台托管

    前不久华为开发者大会上,华为给出了鸿蒙OS及方舟编译器的开源时间表,这着实让开发者们兴奋了一把.现在华为兑现承诺,8月31日,华为方舟编译器开源官网正式上线了. 方舟开源,自主托管 根据公布的信息,本 ...

  3. 全球首个TD-LTE演示网今日上海正式开通,金山瑞星同日发布“云安全”产品(每日关注:20100415)...

    全球首个TD-LTE演示网今日上海正式开通 4月15日消息,中国移动将于4月15日上午在上海世博园正式开通全球首个TD-LTE演示网,演示网覆盖世博园全园5.28平方公里.据悉,TD-LTE演示网理论 ...

  4. 之江实验室联合一流科技、中国信通院、浙江大学等共同研发天枢平台,今日正式开源!...

    点击蓝字关注我们 本文转自:之江实验室 8月1日上午,之江实验室举行发布会,面向全球开发者开源上线"之江天枢人工智能开源平台"."之江天枢"平台由之江实验室联合 ...

  5. 华为鸿蒙系统学习笔记5-华为方舟编译器正式开源及相关源码下载

    8月9日至8月11日,华为面向全球开发者的2019年开发者大会,将在东莞松山湖举行.据悉,今年也是华为第一次在华为松山湖基地欧洲小镇里举办开发者大会. 前不久,余承东曾在微博上预告:"让我们 ...

  6. 英伟达推出全球首个元宇宙平台,豪砸数亿是为什么?

    编译 | 禾木木 出品 | AI科技大本营(ID:rgznai100) NVIDIA 在 SIGGRAPH 推出首个全球元宇宙平台,并赢得了最佳展示奖.目前处于公测阶段,它对 NVIDIA RTX 和 ...

  7. 真假黄仁勋疑云?英伟达推出全球首个元宇宙平台

    [编者按]近日,在计算机图形顶级会议ACM SIGGRAPH 2021上,英伟达介绍了公司研发的3D仿真模拟和协作平台Omniverse,并详细解释了数字假人黄仁勋的打造过程.难道英伟达今年4月的主题 ...

  8. 阿里 BladeDISC 深度学习编译器正式开源

    简介:随着深度学习的不断发展,AI模型结构在快速演化,底层计算硬件技术更是层出不穷,对于广大开发者来说不仅要考虑如何在复杂多变的场景下有效的将算力发挥出来,还要应对计算框架的持续迭代.深度编译器就成了 ...

  9. 机器学习算法平台alink_阿里正式开源通用算法平台Alink,“双11”将天猫推荐点击率提升4...

    整理 | 若名出品 | AI科技大本营(ID:rgznai100)近日,阿里云计算部门已在 GitHub 上发布了其 Alink 平台的"核心代码",并上传了一系列算法库,它们支持 ...

最新文章

  1. 33 个 2017 年必须了解的 iOS/swift 开源库第三方库
  2. Java开发者跳槽必备:2021阿里Java面试题目大汇总
  3. 常考数据结构与算法:反转链表
  4. Android之用adb命令快速获取手机IP方法总结
  5. jQuery 的各种练习
  6. jmeter中控制器3个请求其中一个访问不到_性能测试干货丨盘点JMeter常见的逻辑控制器...
  7. 以管理员权限运行程序需注意
  8. Linkswap宣布为DigiByte启动RenVM桥接器
  9. 一文读懂 JavaScript 和 Python 九大语义区别
  10. xshell/putty 连接 linux 虚拟机 connection failed 的解决方案
  11. 王道计算机考研数据结构—学习笔记Chapter Five 串String
  12. 洛谷试炼场---提高历练地2
  13. Vue的倒计时插件(vue-flip-down)
  14. 第23个520情人节,女程序猿送男朋友什么?
  15. 苹果开发者后台,修改付费app中银行账户信息时注意
  16. 波士顿房价预测实验报告
  17. datealive软件最新_约会大作战手游官网版下载-约会大作战正版手游下载地址v3.79_86PS软件园...
  18. Linux Kernel PANIC(一)--概述(Hard Panic/Aieee和Soft Panic/Oops)
  19. Stale branches 设置_手机资讯:iPhone 如何设置来电闪光灯苹果手机 LED 灯来电提醒设置教程...
  20. Vue 3 快速上手

热门文章

  1. PHP 读取数据库内容并以二维数组按指定列输出实例
  2. Python运维项目中用到的redis经验及数据类型
  3. Windows下Mysql主从配置(Mysql5.5)
  4. 用 GDI 操作 EMF 文件[2]: PlayEnhMetaFile、DeleteEnhMetaFile
  5. C#强化系列文章四:匿名方法的使用
  6. SQLDMO- (数据备份与恢复篇)
  7. 从网站上扒网页,保存为file文件格式
  8. python的深拷贝与浅拷贝
  9. css 背景样式学习
  10. android处理url中的特殊字符