原作:郑怜悯(上海交大)
允中 摘录编译
量子位 出品 | 公众号 QbitAI

在移动设备上部署深度神经网络的需求正在快速增加。

和桌面平台类似,GPU也能在移动平台加速推理速度、降低能耗。但问题是,大多数现有深度学习框架并不能很好的支持移动GPU。

为什么会这样?因为移动GPU和桌面GPU在架构上存在差异。

所以想要利用移动GPU,还得进行专门的优化。这种额外的工作,最终导致的结果就是大多数深度学习框架都对移动GPU的支持不足。

TVM通过引入一个统一的IR堆栈来解决不同硬件平台的部署问题。使用TVM/NNVM可以为ARM Mali GPU生成高效内核,并且进行端到端的编译。

基于Mali-T860 MP4的测试结果表明,与Arm Compute Library相比,上面这个方法在VGG-16上快1.4倍,在MobileNet上快2.2倍。

在郑怜悯发表的这篇文章中,他还从GPU架构、卷积为例的优化等方面进行了更为详细的阐述。我们在这里就不详细复述。

这篇文章的原文地址:http://tvmlang.org/2018/01/16/opt-mali-gpu.html

关于TVM和NNVM,量子位之前也有报道:

  • 陈天奇团队发布TVM:把深度学习部署到手机、树莓派等更多硬件

  • 陈天奇团队发布NNVM编译器,性能优于MXNet,李沐撰文介绍

关于郑怜悯同学的研究,还有另一个好玩的事情:

  • 不好,两群AI打起来了!

作者系网易新闻·网易号“各有态度”签约作者

—  —

加入社群

量子位AI社群13群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot5入群;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot5,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。


量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

如何让手机快速运行AI应用?这有份TVM优化教程相关推荐

  1. 如何用手机快速图片转文字呢?2个进阶教程,详细教程教你完成

    工作中有时候领导要求你将纸质文件转为电子稿,你是电脑码字呢?还是用语音转文字的方法记录呢?其实可以用手机摄像头直接提取图片中的文字,一键就能将文字转为电子稿,下面笔者就分享详细的操作方法,让你轻松提高 ...

  2. 多实例gpu_MIG技术快速提高AI生产率

    多实例gpu_MIG技术快速提高AI生产率 Ride the Fast Lane to AI Productivity with Multi-Instance GPUs 一.平台介绍 NVIDIA安培 ...

  3. AI手机报告 | 揭秘手机行业未来AI之路

    来源:网易智能 在10月19日上午举办的IDC中国数字化转型年度盛典的"人工智能与大数据"分论坛上,IDC(国际数据公司,International Data Corporatio ...

  4. 揭秘手机行业未来AI之路

    揭秘手机行业未来AI之路 在10月19日上午举办的IDC中国数字化转型年度盛典的"人工智能与大数据"分论坛上,IDC(国际数据公司,International Data Corpo ...

  5. 教你快速运行谷歌EfficientDet目标检测

    向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程   公众号:datayx EfficientDet是谷歌大脑于去年11月份公布的目标检测算法族,涵盖轻量级到高精度的多个 ...

  6. 苹果手机上运行python_手机上运行Python

    1.python预备知识 单行注释使用#号,#以后的内容是注释,不会被解释器解释执行执行: import语句用来导入模块,后面跟模块名: python中的变量不需要声明类型,变量被赋值之后类型会自动指 ...

  7. AI模型训练部署:在CSK6芯片上运行AI模型

    前言 在<LNN工具链详解:在CSK6上运行你自己的AI算法>中通过LNN工具链获得了一个算法模型,并在PC上使用test_thinker进行了推理运行,最后如何在CSK6芯片上运行输出的 ...

  8. 在Windows Mobile手机上运行Android

    Interested in Android but think you need to buy a new phone to try it out? Actually, your Windows Mo ...

  9. 哪款安卓手机适合跑AI?移动端芯片性能评测论文出炉

    来源:机器之心 本文约2500字,建议阅读10分钟. 本文为大家分享了利用 AI Benchmark 综合测试结果的论文. 苏黎世联邦理工学院曾经开发了一款 AI Benchmark 应用,用于测试不 ...

最新文章

  1. 一堆乱七八糟绝不正经的排序算法
  2. python如何安装scrapy库_python2安装scrapy库报错解决方案
  3. jquery每次动态加载dom,绑定事件会多一次,
  4. Linux实验一:常用的Linux命令
  5. [Unity][FlowCanvas] 预制体中新建的组件无法拖入 GameObject 类型的黑板的解决办法:关闭预制体之后再打开
  6. 替换掉(取消掉)pip freeze 生成的@ file:///格式,变为正常的==版本号
  7. 记一次极其坑爹的Maven无法下载相关Jar包的问题:IDEA问题
  8. 电芯容量在前期循环中容量增加_了解移动电源聚合物电芯,这篇文章就够了
  9. PowerShell说“此系统上的脚本执行被禁用。”
  10. sparkpython多线程_如何在PySpark(Spark流)中组合多个rdd?
  11. 用python画多来a梦-使用Python的Turtle绘制哆啦A梦实例
  12. Original error was: DLL load failed while importing _multiarray_umath: 找不到指定的模块
  13. ROS教程之ROS问题集
  14. iphone游戏开发(转)
  15. 拼多多微信页面h5 html,拼多多(7pdd)微信跳转h5页面打开app跳转任意url关注技术weixin://dl/business/?ticket...
  16. 三种App软件开发模式:自建、外包、免编程自制,哪一种适合你?
  17. 汉字对应的unicode编码
  18. 索尼为收购工作室准备,对抗微软?
  19. Case Study _均值方差模型 MatLab
  20. 菜鸟也可以自己封装万能ghost系统

热门文章

  1. Github 平均 Star 为 3558 的机器学习开源项目,你错过了哪些?
  2. 第 14 章 程序员常用 10 种算法
  3. 内存或磁盘空间不足 excel无法再次打开_Mac系统中检测和清理磁盘空间的几个工具...
  4. oracle创建dblink语句_多个Oracle数据库联合做统计分析
  5. mfc怎么获取进程的线程数_2020年大厂喜欢这样问线程安全,这些知识点我整理好了
  6. sqlite journal恢复数据_数据库是咋工作的?
  7. 如何编写wenpack插件
  8. java中特殊流程控制语句,深入分析JAVA流程控制语句
  9. android 两列菜单,【Android】实战开发之ListView同一个item显示2列的实现方法(仿2列商品列表)...
  10. 如何linux网页修改回80端口,linux下如何修改iptables开启80端口