端侧AI推理主要使用NPU完成,为了在性能,功耗和面积和通用性之间取得平衡,主流NPU采用了加速器架构,将算子固化在硬件中,并辅以可编程单元执行一些自定义算子/长尾算子兼顾灵活性。在计算方面,为了提高存储使用效率和加速计算,在满足计算精度的前提下,NPU普遍采用定点计算单元实现核心算子,以较低的带宽需求和较快的计算速度达到推理精度的要求,这样就需要在数据的预处理阶段和后处理阶段分别对数据做量化和反量化操作,以满足NPU计算单元对定点数据计算的需要,NPU的工作模型如下图所示:

而GPU则不同,GPU的计算单元天然支持浮点计算,不需要执行量化和反量化的操作,模型推理更直接,以我的显卡为例,从下图可以看出,它的浮点算力远远高于定点算力:

使用GPU对模型推理,不需要量化和反量化操作:

推理过程对量化的不同要求,可能会产生一个有意思的现象,就是两类设备推理的模型精度表现可能会出现抖动,这里所说

GPU推理和端侧NPU推理的一处不同相关推荐

  1. 20+移动端硬件,Int8极速推理,端侧推理引擎Paddle Lite 2.0 正式发布

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自机器之心. 今年 8 月,飞桨(PaddlePaddle)对外发布面向终端和边缘设备的端侧推理引擎 Paddle Lite Beta 版.经过 ...

  2. 技术干货|昇思MindSpore Lite1.5 特性发布,带来全新端侧AI体验

    昇思MindSpore Lite 1.5版本我们主要在异构推理.混合精度推理.端侧训练和混合比特权重量化等特性进行了重点优化,在推理性能.模型小型化和端侧训练易用性与性能等方面带来新的体验.下面就带大 ...

  3. 阿里开源!轻量级深度学习端侧推理引擎 MNN

    AI科学家贾扬清如此评价道:"与 Tensorflow.Caffe2 等同时覆盖训练和推理的通用框架相比,MNN 更注重在推理时的加速和优化,解决在模型部署的阶段的效率问题,从而在移动端更高 ...

  4. 淘宝开源深度学习端侧推理引擎 MNN

    本文由淘宝技术授权,转载请联系原作者 与 Tensorflow.Caffe2 等同时覆盖训练和推理的通用框架相比,MNN 更注重在推理时的加速和优化,解决在模型部署的阶段的效率问题,从而在移动端更高效 ...

  5. 开源背后 | 面对端侧推理引擎的挑战,阿里工程师如何应对?

    阿里妹导读:MNN(Mobile Neural Network)已于今年5月7日在 Github 上正式开源.淘宝无线开发专家--陈以鎏(离青)在 GMTC 全球大前端技术大会为大家分享了 MNN 开 ...

  6. MNN - 端侧推理引擎面临的挑战与应对

    MNN(Mobile Neural Network)已于今年5月7日在 Github 上正式开源.淘宝无线开发专家--陈以鎏(离青)在 GMTC 全球大前端技术大会为大家分享了 MNN 开发.开源中的 ...

  7. Paddle Lite端侧部署

    Paddle Lite端侧部署 端侧推理引擎的由来 随着深度学习的快速发展.特别是小型网络模型的不断成熟,原本应用到云端的深度学习推理,就可以放到终端上来做,比如手机.手表.摄像头.传感器.音响,也就 ...

  8. 直击行业痛点!端侧模型部署的成熟解决方案有了!

    深度学习经过多年发展,AI已经深入人心,事实上,在图像.文本领域,AI在多个产业已经落地了诸多应用,我们熟知的自动驾驶.语音助手,背后就大量运用了AI技术. 当下,飞桨PaddlePaddle.Ten ...

  9. AI 端侧落地+图像语义分割,百度 AI 快车道揭秘工业质检不再靠“人眼”的秘诀...

    AI时代下的人才缺口,已经让各企业感受强烈.人工智能的行业落地,需要多层次的人才结构.来自顶尖企业中的芯片.算法人才:拥揽世界大赛.论文的顶尖实验室是一种:更多的AI解决方案研发,工业级的落地应用等人 ...

最新文章

  1. 欧几里得算法与唯一分解定理
  2. c语言一个整数各位数字个数_C语言实现把字符串中的数字转换成整数
  3. IT服务台的进化(2)--企业外部服务台的优缺点
  4. 博客园 CSS 代码定制
  5. datetime对应的java类型_MySQL数据类型笔记
  6. 基于Response的将数据导出到Excel
  7. java什么是类和对象,Java类和对象的概念
  8. Springboot分层图解
  9. python3.8.3好用吗_python使用3.8.3版本,存在报错
  10. php唯一索引,索引唯一性扫描(INDEX UNIQUE SCAN)
  11. 结合我的创业经历,有一下3点感受
  12. html怎么设置自动音乐播放器,运用js教你轻松制作html音乐播放器
  13. 【2019“新智认知”杯: C】CSL的密码(求长度≥k的不同子串数---后缀数组)
  14. 【SQL Server】入门教程-基础篇(二)
  15. react加水印_【REACT】 水印生成方案
  16. 解读x86、ARM和MIPS三种主流芯片架构
  17. 查询rssi指令_h3c无线控制器常用命令(wx)
  18. 06年底写的5年职业规划与珠海金山邮件面试题回复
  19. [Neck] 空间金字塔池化【池化策略】(Space Pyramid Pool, SPP)模块和路径聚合网络【增强】(Path Aggregation Network, PANet)的结构
  20. 智慧物流wms仓储管理系统

热门文章

  1. for循环和forEach详解
  2. 挑灯夜读——Java(二):面向对象
  3. 怎么用计算机写出我爱你一生一世,我爱你一生一世的话语
  4. 通过IDEA将数据库表生成对应的pojo类
  5. 网页设计(二)——DIV+CSS布局1
  6. APP最强营销推广渠道揭秘:水货手机刷机产业链
  7. 【VMware】VMware Pro16 使用 Ubuntu18.04,从零配置基础环境
  8. 乖狗狗毕业论文中的“致谢”(2005-6-10)
  9. TalkTalk公司泄密事件时间轴
  10. 如何安装HTTPS证书