MNN推理引擎最新实测,CPU、GPU性能全面领先!
每当有深度学习框架开源时,我们也和广大的吃瓜群众一样,期冀着是不是能有一波新的浪潮,把端侧AI托上一个新的高度。但同时,出于同行们对MNN的认可,我们几乎每一次都会在对比的榜单上出镜,有时甚至是唯一竞对。高处不胜寒哪。
在正文之前,要先赞扬一下腾讯的开源精神。2017年,NCNN吹响了国内引擎开源的号角,为诸多后来者树立了榜样。而今,TNN又一次在移动性能上又迈出了一步。作为开源社区的一员,来,我们欢迎…emmm…这一位到底是该称为老戏骨还是小鲜肉…加入社区性能毒打群和谐友爱的大社区。
关于测评的一些观点
端侧AI在这两三年里,可谓高速发展,新应用、新算法、新硬件推陈出新,也不断有新推理引擎涌现。但对引擎的评价方式定格在了三年前,比较的总是ARMv7/ARM64下MobileNet、SqueezeNet、ResNet不同版本的性能比较。
这对我们而言,愈发像是一场性能的"圣杯战争" —— 性能重要吗?当然重要。能不参与吗?又无人身免。但这几个模型的性能真的是推理引擎们的终极目标吗?当然不是!如果我们的目标是真正去降低社区AI应用的门槛,就不能只停留在这些指标上。
测评报告的原初目的,应该是便于用户针对自身的业务,做出选择,而不是秀肌肉。
一个好的推理引擎应至少具有三个基本特性:
通用性,模型支持是一切应用的前提;
高性能,但快慢若脱离业务价值,也会缺失实际意义;
易用性,能少搬几块砖,岂不美哉?
因此,行业评价推理引擎的方式亟需升级 —— 性能上,除了基准的数据,也应包含对新后端、新特性的支持情况;算子上,用户可能更关心除了CNN以外,能不能支持RNN、GAN、Transformer;易用性上,是不是有提供可视化工具、测评工具、量化工具,编程界面是不是足够友好。
为此,我们一直在努力。
高性能
虽然说不能只看性能,但点名了,还是要回应一下的。
做完数据验证,虽然数据和TNN的测评稍有出入,但毕竟也为我们的工程师刷新了一个小目标。于是,我们把之前搁置的优化拎上了日程。一周不到的时间,835/845上跑小网络,CPU上,略胜一筹;GPU上,则是5 ~ 15%的领先。
但这再也不是当年从2000ms降低到700ms那样的飞跃了。
而如果我们放眼大一些的模型,比如Inception V3,那么情况会是:
又或是打开ARM v8.2的情况下,不论是fp16还是quant,性能都可以有一段跃迁:
你看,可以为业务带来质变优化的点依然存在。而这些,正是我们暂时按下ARM优化的原因。
通用性
除了性能,用户最为关心的指标就是通用性。性能再好,业务模型跑不起来都白搭。而MNN背靠阿里巴巴的众多智能场景,久经各方业务的磨炼,在支持算子的数量、算子实现的质量上,都可谓久经考验。但如果不是MNN的死忠粉,可能都很难意识到,我们在通用性方面下的苦功。
模型转换上,我们没有将Caffe、TensorFlow、TensorFlow Lite的转换转嫁给三方的工具,尽量避免模型格式间转换导致的失败。从开源到现在,在支持的转换算子总量上,MNN翻了一番还多。
算子实现上,我们在计算后端的支持上,应该也是业界最广的。除了前文所述的ARM v8.2,我们在GPU算子的支持上,也不遑多让。
注:计算算子数量时,对Binary、Unary、Reduce算子,统一到友商口径,采用拆分成多种的方式计算。
易用性
易用性方面,在过去的一年,我们也着墨颇多。
可视化上,我们在跨平台可视化工具 Netron 上增加了对MNN模型的支持。
模型压缩上,我们的工具同时支持了KL和ADMM两种量化方式,即可以采用Post-training Quantization 降低量化门槛,也可以采用Quantization Aware Training 来提升量化的精度。
模型测评上,我们提供的校验工具和Profiler工具,可以帮助开发者快速定位模型中的问题所在。
前端语言上,我们还打通了MNN和Python的桥接,方便算法工程师们,在自己熟悉的平台、熟悉的语言上,完成开发、校验。
除了工程之外,文档示例上,我们也没落下。我们搭建了 中英文的文档集 ,也和社区一起搭建了我们的 示例集 。
想点大事
如果跳出引擎的小圈子,放眼整个AI生态圈,端侧AI近几年发展到底怎么样呢?
我们以云侧AI为标尺,可以把端侧AI拆解为上下两层:
基础设施
如前所述,不只是性能,推理引擎在通用性、易用性等方面还有待完善。而推理引擎也只是解决了模型在端侧运行的问题,从端侧AI部署的完整迭代来说,模型转换、模型压缩、开发调试、效果评估、算法和工程怎么高效协同等等,需要优化、提效的流程,还有很多。
上层应用
从应用角度来说,目前端侧AI应用的广度和深度都是不够的 —— 一方面,杀手级的应用不多,甚至基本就没有;另一方面,AI应用的门槛还比较高,很多长尾需求难以落地。可以说,端侧AI的业务价值还没有充分被挖掘出来。因此,相比于烈火烹油的云侧AI,或是三端一体的Flutter,我们都还需要和社区站在一起,做更进一步的探索。
我们真切得认为端侧AI还处于发展的初期,更需要从业者一起努力推动行业发展,而不是把弹药浪费在无尽的对比内耗上面。我们期望和大家在真正有益于繁荣AI生态的方向上,探索出一片新的空间。
端智能团队
淘宝基础平台部-端智能团队欢迎移动端计算优化工程师和推理引擎架构师的加入。对新技术感兴趣,善于创新突破,渴望用新技术给用户带来创新体验的同学请联系我们。
简历投递至吕行:chengfei.lcf@alibaba-inc.com
链接:
https://github.com/lutzroeder/netron
https://www.yuque.com/mnn/cn/tool_quantize
https://www.yuque.com/mnn/cn/bhz5eu
https://www.yuque.com/mnn/cn
https://www.yuque.com/mnn/cn/demo_zoo
✿ 拓展阅读
作者|MNN团队
编辑|橙子君
出品|阿里巴巴新零售淘系技术
MNN推理引擎最新实测,CPU、GPU性能全面领先!相关推荐
- MNN推理引擎框架简介
1.MNN介绍 随着手机算力的不断提升,以及深度学习的快速发展,特别是小网络模型不断成熟,原本在云端执行的推理预测就可以转移到端上来做.端智能即在端侧部署运行AI算法,相比服务端智能,端智能具有低延时 ...
- iPad 2硬件评测:从CPU/GPU性能说开去…
Pad 2终于发售了.不管相比第一代进步如何,不管算不算革命性产品,火爆是必然的,也是可以理解的.AnandTech.com近日又从硬件角度审视了iPad 2,接下来我们就直入正题,看看它的CPU处理 ...
- pytorch cpu gpu性能对比
经过同样的模型预测对比 gpu比cpu快38倍左右. gpu需要16ms 0 863001 1 22000 2 15001 3 16999 4 18000 5 15000 6 17000 7 1699 ...
- OceanBase 3.2.3 发版|HTAP引擎全面升级,TPC-H性能10倍提升~
作为企业级原生分布式数据库,OceanBase 自创立以来一直坚持原生分布式的发展路线,其高兼容.金融级容灾和高可用.透明扩展.稳定安全等能力已经在金融.政府.运营商.互联网等各个行业得到了充分验证以 ...
- 阿里开源!轻量级深度学习端侧推理引擎 MNN
AI科学家贾扬清如此评价道:"与 Tensorflow.Caffe2 等同时覆盖训练和推理的通用框架相比,MNN 更注重在推理时的加速和优化,解决在模型部署的阶段的效率问题,从而在移动端更高 ...
- 淘宝开源深度学习端侧推理引擎 MNN
本文由淘宝技术授权,转载请联系原作者 与 Tensorflow.Caffe2 等同时覆盖训练和推理的通用框架相比,MNN 更注重在推理时的加速和优化,解决在模型部署的阶段的效率问题,从而在移动端更高效 ...
- 推理速度数倍提升,大幅简化多GPU后端部署:Meta发布全新推理引擎AITemplate
来源丨机器之心 刚刚,Meta 发布了革命性的推理引擎 AITemplate.测试结果显示,相比 PyTorch Eager,AITemplate 在 NVIDIA GPU 上实现了最高 12 倍的性 ...
- MNN - 端侧推理引擎面临的挑战与应对
MNN(Mobile Neural Network)已于今年5月7日在 Github 上正式开源.淘宝无线开发专家--陈以鎏(离青)在 GMTC 全球大前端技术大会为大家分享了 MNN 开发.开源中的 ...
- 开源一年,阿里轻量级AI推理引擎MNN 1.0.0正式发布
在经过充分的行业调研后,阿里淘系技术部认为当时的推理引擎如TFLite不足以满足手机淘宝这样一个亿级用户与日活的超级App. 于是,他们从零开始自己搭建了属于阿里巴巴的推理引擎MNN.1年前,MNN在 ...
最新文章
- Ray Tracing,Ray Casting,Path Tracing,Ray Marching 的区别?
- 2022第一位华为“天才少年”来了!绩点1.8逆袭!
- 自然语言处理NLP、自然语言理解NLU、自然语言生成NLG、任务家族
- mysql之基础操作grant、show、repair、log_error等
- freemarker自定义标签(二十一)
- 【C++ STL】vector库使用方法
- oracle backup arch,一个数据库备份的例子
- 利用cx_Freeze将py文件打包成exe文件(图文全解)(转帖)
- 用非递归方式实现二叉树后序遍历
- 云服务器 自有操作系统,云服务器 自有操作系统
- python实现随机抽取答题_如何在python中实现随机选择
- android不是内部或外部命令,也不是可执行的程序或批处理文件
- php实现数字英文验证码,PHP英文数字验证码生成类
- Openjudge-计算概论(A)-计算三角形面积
- 月均数据_数据|| 焊接不锈钢管、卷板、棒相继被调查,出口印度的量逐年降!...
- C#常用正则表达式收藏
- “色情机器”改掉手机PIN码 勒索安卓设备用户
- 小程序和Android开发,微信小程序和Android开发的对比
- 微信小程序 --- 物流快递查询
- java护眼的颜色_爱护眼睛,从IDEA开始,护眼色设置走起-护眼设置
热门文章
- 经典书籍《征服市场的人》阅读心得
- 计算机毕业设计Java心理健康管理系统(源码+系统+mysql数据库+Lw文档)
- java毕业设计大学生心理咨询管理系统mybatis+源码+调试部署+系统+数据库+lw
- 领域模型 PO、VO、DAO、BO、DTO、POJO
- python turtle画表情包--不可以色色
- 【调剂】河北农业大学2020年硕士研究生招生调剂工作办法
- 物流快递发货单接口API代码-快递100API
- cocos2d-x教程和项目实例集合
- LeetCode 2171. 拿出最少数目的魔法豆
- ESP8266-WIFI模块使用AT指令连接外网服务器