AI算力需求6年增长30万倍,「超异构计算」才能满足下一个10年
今年 3 月,「强化学习教父」Richard Sutton 在《苦涩的教训》一文中指出,「70 年的人工智能研究史告诉我们,利用计算能力的一般方法最终是最有效的方法。要在短期内有所提升,研究人员要利用专门领域的人类知识。但如果想要长期的获得提升,利用计算能力才是王道。」
大家都知道,这波人工智能的浪潮的三要素分别是数据、算力和算法。虽然仍有争议,但是计算力的大幅提升确实是这波深度学习革命的决定因素之一。
去年OpenAI发布的一份报告显示,自2012年以来,在最大规模的人工智能训练中所使用的计算量呈指数级增长,3.5个月的时间翻一倍(相比之下,摩尔定律(Moore’s Law)有18个月的倍增周期)。自2012年以来,该指标增长了30多万倍(18个月的倍增周期只会增加12倍)。
在过去的几十年里,摩尔定律一直推动着芯片制程和性能的稳步提升,然而摩尔定律已经失速,CMOS的微缩至少在十年内还是会继续进行下去,但随着技术难度的挑战越来越高,需要投入的资源会越来越高,必然会导致整个成本上升,如何才能发挥摩尔定律的经济效益?按照这个趋势,想要满足未来AI发展的需求,芯片行业势必要有所变革。
在上个世界八十年代,异构计算的出现满足了各种不同任务的计算需求,推动了个人计算机和互联网的发展。
然而大数据和人工智能时代的到来,新的计算需求不断衍生出来,当我们展望下一个十年,或者更长远的未来,随着人工智能应用的愈加广泛和深入,特别是万物互联时代的到来,AI需要在云边端上全面落地,传统的异构计算已经不能满足日益发展的人工智能计算需求,
于是,在异构计算上更进一步,英特尔开始押注「超异构计算」。
AI时代需要超异构计算
首先,传统的异构是指在完成一个任务时,采用一种以上的硬件架构设计,把它们组合在一起。组合方式主要包括:
- 一体化SoC,也就是直接把不同的芯片在不同的板级连接起来,它的专用性最强、能耗最低、性能可能也最高,能效比非常好,但需要量很大,也就是应用范围很广,才值得去做,但要花上十几个月时间以及大量研发经费来开发,这就要求设计人员对应用场景的理解一定够深,且产品的灵活度不高,如果需求有变动,就要再等一个研发周期;
- 分体式板卡,也就是将各种计算能力的加速内核放到一个芯片中,它的优势在于灵活,想用的时候可以随意组合,但板与板之间连接的功耗、带宽速度都要打很大折扣。
在真正的系统中应用AI时,它从来不是单独发生的,而是和其它的计算技术深度融合。所以,真正要完成一项任务,仅有AI是不够的,需要多种计算任务同时进行。传统的异构计算,已经不能满足产业应用对AI计算的需求。
英特尔认为,我们需要迈向超异构时代。
超异构将提供更多的灵活性和更快的产品上市时间,它包含三大要素:多架构、多功能芯片;多节点和先进封装技术;统一的异构计算软件。
据了解,多架构、多功能的独立芯片可以根据计算负载分成以下4种:标量计算,CPU 就是典型的标量处理器;矢量计算,主要是指向量计算;矩阵计算,主要应用在是卷积神经网络中;空间计算,即运算的时候有灵活的空间处理架构,这个方面的代表是 FPGA。
其中CPU是最通用的,虽然可能不是其中性能最好的。GPU在性能模型上有些有趣的创新,它比以前更通用,但不像CPU那么通用,但是GPU对于这种高强度工作负载的性能更好。FPGA加速器,它们的效率要高得多。例如,对于特定功能而言,FPGA加速器效率更高,更节能,更具成本效益,但它并不通用。
所谓“超异构计算”,“超”就超在可以把很多现有的、不同节点上已经验证得挺好的晶片集成在一个封装里,把这几种计算整合在一起达到“计算最优化”。我们真正要关注的是性能和通用性的不同搭配组合,因此英特尔我希望提供标量、矢量、矩阵和空间的多种架构组合,部署在CPC、GPU、FPGA和加速器套件之中。
在多架构、多功能芯片方面,英特尔提供了一个端到端的丰富产品线布局。目前,英特尔已经推出了包含CPU、FPGA、AISC等在内的一系列已经芯片解决方案,而且还将于2020推出首款独立显卡,并且预计在2021年推出7纳米通用显卡,完整覆盖了从边缘一直到云端的计算场景。
在多节点和先进封装技术方面,传统的封装就是把芯片平铺在一起,这样有几个缺点,第一是增加了面积,第二是它们之间的连通带宽还需要加速。2.5D和3D封装就是为了解决这些问题,不只是把计算芯片和内存连起来,还能把计算芯片互相连起来,同时还能把芯片像高楼一样分成几层堆起来,这就是先进封装技术。
具体来说,超异构计算整合先进计算单元有以下几个关键点:一是与板级设计一样,用多功能、多架构的芯片处理和加速不同的运算负载;二是把计算单元封装在一个芯片里,但这与板级层面的连接不同,是在封装层设计先进的技术,把带宽放大,同时功耗降低,体积减小,是一种封装集成技术;三是使用这种复杂的超异构模式,不能给软件开发人员增加难度,因此超异构计算还需要统一的异构计算软件。
软硬协同:OneAPI
对于大部分开发者来说,一般是根据软件去选择硬件,而不是反过来,因此英特尔将「统一的异构计算软件」也包含到了「超异构计算」这个大框架里。
也就是说,简化软件开发是超异构的要素之一,英特尔需要以一个统一的软件接口,让客户编程即可扩展到 CPU、GPU、FPGA 和 ASIC 芯片等硬件平台上。
而目前英特尔正在做的工作就是打造 OneAPI。
OneAPI旨在提供一个统一的编程模型,以简化跨不同计算架构的应用程序开发工作,而 OneAPI 也会吸收英特尔在 OpenVINO 等创新平台上的经验。OpenVINO软件开发者工具包实现了跨不同的SVMS(Scalar、Vector、Matrix、Spatial)架构,提供一致、优化的深度学习推理能力。
据了解,OneAPI将支持直接编程和API编程,并将提供统一的语言和库,可以在包括CPU、GPU、FPGA和AI加速器等不同硬件上,提供完整的本地代码性能。
- 直接编程:One API包括一个全新的直接编程语言Data Parallel C++ (DPC++),这是一个可替代单架构专用语言的开放式、跨行业的编程语言。通过使用开发者熟悉的编程模型,DPC++ 能够提供并行编程的效率和性能。DPC++以C++为基础,融合了Kronos Group的SYCL,并包含在一个开放社区流程中开发的语言扩展。
- 基于API的编程:One API强大的库跨越多个可受益于加速的工作负载领域。库函数针对每个目标架构都进行了定制编码。
- 分析与调试工具:在领先的分析工具的基础上,英特尔将提供加强版的分析与调试工具,以支持DPC++和广泛的SVMS架构。
据悉,英特尔将在今年第四季度发布一个One API开发者测试版本,显然,对于AI开发者来说,值得期待。
AI算力需求6年增长30万倍,「超异构计算」才能满足下一个10年相关推荐
- 深度:日流量高达500万的「大众点评」,或将成为养老机构营销重要布局方向
撰文丨魏圆源 开篇: 这几年,我们发现一个比较有意思的现象:有老人和家属开始通过"大众点评"查询养老机构,同时也有养老机构的入住客户就是通过大众点评导流,"泰康" ...
- OpenAI解析「AI算力」:3个半月翻一倍,6年超过30万倍
来源:OpenAI 「雷克世界」编译:嗯~是阿童木呀.KABUDA.EVA 摘要:近日,OpenAI发布了一份分析报告显示,自2012年以来,在最大规模的人工智能训练中所使用的计算量呈指数级增长,3. ...
- 「镁客·请讲」酷哇机器人刘力源:主打低速自动驾驶场景,AI环卫需求正在急速增长...
作为创业公司,得首先保证自己活下去,也就是找到一个中间的商业化落地场景. 说到自动驾驶,很多人的第一反应都是摇头,因为不安全. 不论是Uber自动驾驶汽车去年撞死行人,还是Waymo在年底突然大呼&q ...
- 「镁客·请讲」酷哇机器人刘力源:主打低速自动驾驶场景,AI环卫需求正在急速增长... 1
作为创业公司,得首先保证自己活下去,也就是找到一个中间的商业化落地场景. 说到自动驾驶,很多人的第一反应都是摇头,因为不安全. 不论是Uber自动驾驶汽车去年撞死行人,还是Waymo在年底突然大呼&q ...
- 年薪30万,达到人生巅峰,入职字节一个月,我却被无情碾压
今年的金九银十并不像往年那样有铺天盖地的岗位和约不过来的面试机会,再看正在招聘的岗位,动不动就要求代码能力,能开发自动化测试平台,能对已有xxx框架二次开发,还要上机笔试,变态程度不亚于古代皇帝选妃了 ...
- 企业增长过程中的「伪命题」
本文已获得伟大航路战略咨询(ID:wdhlzx)官方授权发表 引言 如今的品牌升级更多的案例是,更新logo,提炼个新的广告语,重新定个位,增加产品或优化产品,再拍些新的广告片,做个"全域传 ...
- AI成为硬件增效“杀手锏”,百度输入法的「To B」探索
以AI为引擎,立足B端,放眼产业,百度输入法toB发力的故事还很长. 作者|KIMIMA 出品|产业家 传统硬件行业发展陷入瓶颈,新的增长点在哪里? 可以肯定的是,消费者在寻求智能设备.从智能汽车到智 ...
- 【AI产品】智能修图时代已来临?「咔嗒」一下,轻松后期
欢迎来到<AI产品>专栏,本专栏面向所有热爱人工智能技术的朋友.同学.在本专栏中,会多多分享给大家不同种类的且新奇有趣的AI产品,对产品中的核心技术进行深度剖析.文章底部会推荐相关核心技术 ...
- 专访普林斯顿大学贡三元教授:做 AI 研究要有价值观,数学更是「制胜法宝」
https://mp.weixin.qq.com/s?__biz=MzI5NTIxNTg0OA==&mid=2247495153&idx=1&sn=71d58ac0b3dc50 ...
最新文章
- Java 集合框架(二)—— ArrayList
- 获取checkbox所选中的值
- 【机器学习】如何简单形象又有趣地讲解神经网络是什么?
- 0x21.搜索 - 树与图的遍历、拓扑排序
- 「最新」《美国人工智能未来20年研究路线图》
- 使用Xcode External Build System实现Rust 项目 Capture GPU Frame 在线调试 Metal 2018.12.18
- centos删除php_Linux CentOS完全卸载PHP
- 你会接受师兄的追求吗?
- 基于Semtech LoRa SX1268 电路设计及PCB布局
- Ninject学习笔记三
- 计算机第二章基础知识习题,计算机基础知识习题.docx
- 关于Block的个人总结
- Android高级模糊技术
- KNX数据格式,温度转换
- APP测试点(思维导图)
- 分布式文件系统(HDFS)与linux系统文件系统关系
- 有赞 html模板,有赞的微商城可视化编辑是如何做到的?
- 工具篇:TailScale免费实现远程设备互连(无费用方案,亲测,零基础安装),支持手机、Windows或linux系统、NAS
- Set接口下的三个实用类
- 经典游戏----飞机大战
热门文章
- HTML样式offset[Direction] 和 style.[direction]的区别
- EBS form日历可选范围设置(calendar.setup )介绍
- ContentResolver.query()—buildQueryString()
- Android深入浅出系列之Android工具的使用—模拟器(一)
- [转]C# 2.0新特性与C# 3.5新特性
- 如何在调试页面的时候清除页面的缓存?
- 博客园第一天,开放封闭原则
- hdu 3664 1~n排列(aii ) 为k个数
- 转:C#中的abstract与virtual
- C# 创建控制台应用程序