当下人工智能技术正加速发展,渗透到云、边、端和应用的各个层面,与海量IoT设备进行深度融合,不断拓展应用场景。然而在AIoT场景中,嵌入式设备往往算力有限,难以承载庞大的AI模型。如何在资源有限的终端场景实现 AI 模型的有效部署,是加速AI落地的重要问题。AI 工程师们研发了各种试图缩小模型大小并保持性能的办法,例如量化和蒸馏。其中,模型量化是将浮点计算转成低比特定点计算的一种模型压缩技术,可以有效减少模型算力消耗并提升计算速度,当前已经在工业界发展比较成熟。

目前相对成熟的模型量化方案是 INT8 量化。以ResNet-50 模型为例,原本需要用 float 32 表示的权重,量化后只需要使用  INT8 表示,通过这样的处理,模型体积可以减少到原来的1/2,再加上 TensorCore 的加持,还会有近 8 倍的网络加速。而如果更进一步,将模型用INT4 表示,可以带来更多的速度提升。

为了推动低比特量化技术的发展,旷视天元MegEngine 团队开源了 INT4 的源码实现,这也让MegEngine成为首个开源 CUDA INT4 源码实现的深度学习框架。MegEngine采用均匀线性量化方案,实现了非对称量化和对称量化两种INT4的数据类型,同时通过算子融合优化、kernel优化等方法,使得量化后的模型可以依然保持较高的精度以及良好的运行速度。同样以ResNet-50为例,INT4 相比 INT8 有 1.3倍的加速。

具体代码实现可以查看文末“阅读原文”

随着 CUDA INT4 的开源,目前MegEngine 框架不仅支持浮点数 FP32 和 FP16,而且支持 INT8 和 INT4 的对称和非对称量化推理。此外,MegEngine框架开发了诸多工具,帮助用户提升模型推理性能、简化部署流程,包括自动代码裁剪功能,支持用户全自动的针对算子进行代码裁剪;TracedModule 方案以及 MegEngine Lite,基于旷视海量业务打磨出的模型推理最佳实践,化解模型转换部署难题;流程管理工具FastRun, 可以为每个计算自动选择最快的算法,从而保证整个网络的运行时间最短,让 MegEngine 用户运行不同的网络时都能收获最好性能。

自开源以来,MegEngine不断优化,已先后发布29个版本,推出一系列实用功能,降低AI算法生产门槛,助力AI应用快速落地。未来,旷视将继续支持和拥抱开源,并将自身在开源领域积累的技术和经验与业界共享,推动人工智能技术创新和行业发展。

点击“阅读原文”,访问GitHub链接了解详情

直播预告

在本届2022 世界人工智能大会(WAIC)上,旷视天元MegEngine 异构计算组负责人王彪,将出席今晚的技术 Workshop,为大家分享开源深度学习框架实现支持 CUDA int4的设计思路和踩坑经验。

旷视天元 MegEngine 开源 CUDA INT4 量化源码实现相关推荐

  1. ​8次迭代5大升级,旷视天元1.0预览版正式发布

    9月18日,在中关村论坛旷视平行论坛上,旷视研究院院长.首席科学家孙剑正式发布了深度学习开源框架天元MegEngine 1.0预览版,并对天元的技术特性与发展方向进行了深入解读. 旷视于2014年开始 ...

  2. 最全解读 | 旷视天元Beta版核心技术升级全面解读

    7 月 11 日,旷视研究院在 2020 WAIC · 开发者日「深度学习框架与技术生态论坛」上围绕 6 月底发布的天元深度学习框架(MegEngine)Beta 版本核心技术升级与开源生态建设进行了 ...

  3. 视频回顾 | 旷视天元Beta版重大技术升级与生态建设

    7 月 11 日,旷视研究院在 2020 WAIC · 开发者日「深度学习框架与技术生态论坛」上围绕 6 月底发布的天元深度学习框架(MegEngine)Beta 版本核心技术升级与开源生态建设进行了 ...

  4. 深度学习“炼丹”难?三分钟带你了解国产丹炉旷视天元

    自从炼丹界推出新丹药"深度学习",各大炼丹世家(Google, Facebook, Microsoft)不惜重金招纳炼丹贤士.优秀的炼丹师一师难求,上古炼丹世家Google曾发布英 ...

  5. springcloud断点续传源码_两套SpringCloud版的开源项目,项目源码和教程齐全

    最近很多粉丝问我有没有新的完整的项目,因为现在很多流传的项目都太老了,实战意义不是很强.很多程序员每项技术单独拿出来有可能很厉害,例如:springcloud.springboot.redis.ngi ...

  6. WoShop跨境电商国际支付Paypal支付商城全开源无加密商城源码

    WoShop跨境电商国际支付Paypal支付商城全开源无加密商城源码 现在的企业都喜欢直接用源码进行开发,特别是在跨境电商版块这一行,很多企业都是直接购买跨境电商系统源码再进行一个二次开发,从而给自己 ...

  7. WoShop跨境电商USDT支付语言插件全开源无加密商城源码

    WoShop跨境电商USDT支付语言插件全开源无加密商城源码 基于现场直播+购物模式,用户可以"边看边买"现场直播商城平台,全终端支持,统一管理后台,传播更强,管理更方便,支持私有 ...

  8. 一对一视频直播系统开源一对一视频交友源码程序

    一对一视频直播系统相较于传统直播系统有更强的社交性和工具性.传统的直播可以作为独立软件平台去运营,面对的受众群体也十分广泛,可以说是"全民直播"."直播+"的概 ...

  9. 基于STC51:四轴飞控开源项目原理图与源码(入门级DIY)

    目录 前言(作者:宏晶科技) 一.飞控配件 二.接线 三.原理图 四.调试 五.程序 六.完整工程.原理图文件获取 前言(作者:宏晶科技) 本飞控仅仅是姿态飞行控制,没有GPS.电子罗盘.气压高度计. ...

最新文章

  1. swift 中showAlertTitle的使用
  2. mysql server id为0_MySQL内核月报 2014.12-MySQL· 答疑释惑·server_id为0的Rotate-阿里云开发者社区...
  3. numpy中的ndim、shape、dtype、astype
  4. tomcat运行错误: 无效的源发行版:16
  5. Posix本地通信用于同一设备或native和framework层之间
  6. php基础教程 第十步 阶段性知识补充
  7. redis 能不能监听特定的key失效_php监听redis key失效触发回调事件
  8. mysql5.7用户管理
  9. Socket常见错误代码与描述
  10. 物联网设备感染Mirai病毒发起的DDoS攻击
  11. 选择嵌套_还不会if函数的嵌套判断,学会这方法,就跟复制粘贴一样简单
  12. 程序员打字练习_程序员必须来看的面试圣经!!
  13. 全国各地电台在线收听大全(转)
  14. DDR123信号完整性测试分析技术探析
  15. 北京地铁各条线路介绍
  16. 处理C盘容量不足问题(以AppData为例)
  17. 计算机基础--Linux详解
  18. 有关南怀瑾、朱熹周易断卦法的个人观点
  19. 2022年,谁在推动音视频产业的新拐点?
  20. ubuntu--ogv格式转mp4格式

热门文章

  1. 圆柱绕流UDF-parallel主动运动
  2. 【Python】机器学习笔记03-朴素贝叶斯(Naive Bays)
  3. 美军网络中心战与军事信息系统安全
  4. 0430课堂笔记--标识符-数据类型
  5. 在小红书怎样打造好个人IP?如何进行个人IP的定位?
  6. 原材料行业采购供应链系统实现业务数据线上化,助力企业便捷管理
  7. 教程 | 10分钟入门简笔画 11(简笔小插画入门)
  8. npm安装脚手架工具常见错误解决方法
  9. ASP.NET - 编写ASP.NET应用程序的十大技巧
  10. 【Python机器学习】决策树、逻辑回归、神经网络等模型对电信用户流失分类实战(附源码和数据集)