作为全球最大的半导体公司(2019年Q1数据),英特尔一直以「硬实力」示人,然而就是这样一家公司却有超过15000名软件工程师,在GitHub的2018贡献排行榜上全球第五。

深度学习时代,英伟达凭借GPU抢去了不少风头,然而如今人工智能已经进入到大规模生产部署阶段,英特尔正凭借着不断扩大的硬实力,以及不断增强的软实力,抢占AI全生命周期的制高点。

AI计算迈入超异构时代,英特尔如何布局?

针对深度学习全生命周期,英特尔已经推出了包含CPUFPGAAISC等在内的一系列已经芯片解决方案,而且还将于2020推出首款独立显卡,并且预计在2021年推出7纳米通用显卡。

2019年4月,英特尔发布第二代至强可扩展处理器。第一代至强可扩展处理器就优化了人工智能深度学习的训练(training)和推理(Inference)能力。第二代至强可扩展处理器里加入了深度学习加速技术(Deep Learning Boost),在英特尔AVX-512指令集中扩展了新的VNNI矢量神经网络指令,强化了深度学习的推理能力,它的意义在于,比如过去卷积神经需要三条指令,而现在的话就需要一条指令就可以了,加速技术在处理图像识别,语音识别以及对象检测等场景下会有明显加速效果。

从技术角度来看,大多数情况下GPU更适合训练阶段,英特尔强化的推理能力更适用于人工智能的应用侧,CPU的推理能力能更多地出现在城市交通、安全管理、零售或者是金融业的应用场景中。

在FPGA领域,英特尔此前发布了Arria 10 FPGA,不但提供速度等级更快的内核性能,并且还提供高达 20% 的 fMAX 优势;它使用了公开的 OpenCores 设计。1 与前代 FPGA 和 SoC 相比,英特尔Arria 10 FPGA 的功耗降低了 40%,并具有业内唯一的硬核浮点数字信号处理 (DSP) 模块,速度高达 1.5 tera 次浮点运算/每秒 (TFLOPS)。

此外,英特尔在Agilex上提供了最先进的FPGA解决方案,其最新的10nm嵌入式芯片组旨在解决企业网络和数据中心的“以数据为中心”的难题。Agilex产品具有可定制的异构3D系统级封装,包括模拟、内存、计算和定制 I/O 组件——其中包括 DDR5、 HBM,还有一块Intel Optane DC。它们得到了英特尔One API的全面支持,并且还提供了迁移到ASIC的解决办法。英特尔声称,与英特尔老式的14nm Stratix10FPGA相比,Agilex FPGA的性能提高了40%,总功耗则降低了40%。

除了CPU和FPGA,英特尔在收购Movidius、Nervana以及Mobileeye之后也推出相应的专用芯片,分别针对不同的AI场景,而且英特尔正在研发的新一代Xe架构的GPU也已经提上日程。

可以看出,英特尔在AI芯片领域的布局已经自成一体,从云端到终端,从训练到推理,再到无人机、自动驾驶等AI落地场景,英特尔的芯片已经无处不在。

不过,英特尔的宏图不止于此,未来AI对计算力的要求会越来越高,然而摩尔定律已经走到了尽头,传统的异构计算已经不能满足产业应用对AI计算的需求,英特尔则希望通过超异构计算来适应未来的计算需求。

异构计算在上世纪八十年代就已出现,它是指在完成一个任务时,采用一种以上的硬件架构设计,把它们组合在一起。组合方式主要包括:一体化SoC,它的专用性最强、能耗最低、性能可能也最高,能效比非常好,但需要量很大,也就是应用范围很广,才值得去做;分体式板卡,它的优势在于灵活,想用的时候可以随意组合,但板与板之间连接的功耗、带宽速度都要打很大折扣。

而超异构将提供更多的灵活性和更快的产品上市时间,推动计算创新发展。它包含三大要素:多架构、多功能芯片;多节点和先进封装技术;统一的异构计算软件。

在多架构、多功能芯片方面,包括了标量、矢量、矩阵、空间等多种架构。标量架构比如CPU,矢量架构比如GPU,矩阵架构比如深度神经网络的专用加速芯片,空间架构比如FPGA。对英特尔而言,就是要提供多样化的标量、矢量、矩阵和空间架构组合,从而实现超异构计算。

英特尔首席架构师、英特尔公司高级副总裁兼架构、图形与软件部门总经理Raja Koduri在演讲时也曾表示:

性能和通用性对于每个架构都很重要。这里我们用Y轴代表通用性,X轴代表能效。可以看到CPU是最通用的,虽然可能不是其中性能最好的。GPU在性能模型上有些有趣的创新,它比以前更通用,但不像CPU那么通用,但是GPU对于这种高强度工作负载的性能更好。FPGA加速器,它们的效率要高得多。例如,对于特定功能而言,FPGA加速器效率更高,更节能,更具成本效益,但它并不通用。我们真正要关注的是这条曲线的不同斜率(性能和通用性的不同搭配组合)。因此,我们树立了清晰的愿景和清晰的路线图:“我们希望提供标量、矢量、矩阵和空间的多种架构组合,部署在CPCGPUFPGA和加速器套件之中”

当然,想要继续保持计算力“指数级”的增长,就必须要硬件和软件来共同创新。「软件社区和硬件社区相互交流,并真正去思考彼此的问题,这比以往任何时候都更重要。」

软硬兼施,英特尔全面拥抱开源

虽然在人们的印象中,英特尔是一家芯片公司,但是这家公司现在拥有 15,000 余名软件工程师,而且在GitHub上已经有超过600个repository,并且积极拥抱开源。

为什么软件如此重要?

正如Raja Koduri在英特尔开源技术峰会(OSTS)2019上所说的那样,对于全新硬件架构的每一个数量级的性能提升潜力,软件都将能带来两个数量级的性能提升。英特尔公司副总裁兼系统软件产品部门总经理苏义德也在峰会上强调了软件在英特尔公司发展中的重要性,表示:“软件是英特尔的一项重要战略资产,将帮助我们挖掘商业价值,真正释放公司的整体增长潜力。”

在AI领域更是如此,这也是英特尔围绕AI推出MKL-DNN、BigDL、Analytics ZOO、OpenVINO等一系列配套的软件解决方案的原因。

MKL-DNN:英特尔 MKL-DNN 是一个开源的性能增强库,能够提高在英特尔架构上运行的深度学习框架的速度。英特尔 MKL-DNN 专为在英特尔架构上加快深度学习框架的速度而设计,包含了高度矢量化和线程化的构建模块,支持利用 C 和 C++ 接口实施卷积神经网络。

BigDL:BigDL 是一个分布式的深度学习框架,在大数据分析领域发展迅速,并且也是一个开源的框架。BigDL 有很多特点,比如:与 Spark 和 Hadoop 生态系统进行了完整集成,具有可拓展性等很多重要的功能。可根据数据大小在任意集群中训练模型、支持构建端到端的大数据分析与深度学习等 pipeline、可执行数据并行分布式训练,实现高可扩展性。BigDL 用户可在 Spark 和大数据平台上构建了大量数据分析与深度学习的应用,如视觉相似性、参数同步、比例缩放等。

深度学习应用程序可以编写为标准的 spark 库。这些 Spark 框架中统一的库可以读取大量数据。此外,它还支持 Numpy、Scipy、NLTK、Pandas 等 Python 库;与 TensorBoard 集成用于可视化分析;支持加载现有的 Torch 模型。企业客户使用 BigDL 和Spark 还有一个重要的原因,相比 TensorFlow,BigDL 不仅更快,通过并行计算它能够更快地重新训练模型。

Analytics ZOO:Analytics Zoo是一个统一的大数据+人工智能平台,支持基于Spark的分布式TensorFlow、Keras和BigDL,目的是方便用户开发基于大数据、端到端的深度学习应用。Analytics Zoo,它提供了一组丰富的高级 API 可以将BigDL、Keras 和 TensorFlow 程序无缝集成到 Spark 的 pipeline 中;还有几个内置的深度学习模型,可用于对象检测、图像分类、文本分类等。该库还提供端到端的参考用例,如异常检测、欺诈检测和图像增强,以将机器学习应用于实际问题。

OpenVINO:OpenVINO是一个可以加快高性能计算机视觉和深度学习视觉应用开发的工具套件,它能够支持英特尔平台的各种加速器,包括CPU、GPU、FPGA以及Movidius的VPU,来进行深度学习,同时能够直接支持异构的执行。OpenVINO对深度学习和传统的计算机视觉这两类方法都有很好的支持,包含一个深度学习的部署工具套件,这个工具套件可以帮助开发者,把已经训练好的网络模型部署到目标平台之上进行推理操作。

除了上面介绍的软件产品,英特尔公司架构图形与软件集团副总裁和数据分析技术总监马子雅介绍道,

英特尔一直以来致力于为客户提供全栈式的人工智能解决方案。在硬件层面,我们有非常完整的产品组合。从前端到数据中心,从专用到通用芯片,这其中包括 CPU、GPU、FPGA,加速器、内存、存储、网络、硬件都在我们的业务范畴之内。在其之上我们又提供一整套的优化软件,比如数学 库层面,我们对各种各样的数学库进行优化,保证在我们的硬件上实现最佳性能。 像 Intel Data Analytics Acceleration Library、Math Kerenl Library for Deep Neura Networks(MKL-DNN)、nGraph 等等。在框架层面我们对最流行的深度 学习框架进行优化来提升性能,包括 TensorFlow、Caffe、BigDL、Mxnet。在工具层面,我们提供多种多样灵活的工具来帮这些数据科学家加速人工智能的开发, 比如 Intel Deep Learning Studio 等。平台层面我们又提供一站式全堆栈的系统 方案,帮助客户加速人工智能的开发。在最终解决方案层面可以直接和终端客户合 作,帮助客户构建部署完整的人工智能解决方案,加速客户从原始数据到落地到收益的进程。

马子雅说,「我们会对每一层软件的优化,尽可能挤出硬件的全部性能。最终所有的软件加起来,可以提升 8 倍,而不是 1-2 倍。」这或许是对英特尔未来AI战略的最好诠释。

GitHub贡献全球第5,超15,000名软件工程师,后深度学习时代英特尔如何「软硬兼施」相关推荐

  1. 2020年Interbrand全球最佳品牌榜发布;SK海力士将以90亿美元收购英特尔NAND闪存及存储业务 | 美通企业日报...

    今日看点 2020年Interbrand全球最佳品牌榜单发布.在过去12个月,社交媒体和传播品牌表现良好,包括Instagram(第19位).YouTube(第30位)和首次进入排行榜的Zoom(第1 ...

  2. 全球名校课程作业分享系列(7)--斯坦福计算机视觉与深度学习CS231n之基于cifar10的卷积神经网络实践

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/yaoqiang2011/article ...

  3. 全球名校课程作业分享系列(8)--斯坦福计算机视觉与深度学习CS231n之tensorflow实践

    课程作业原地址:CS231n Assignment 1 作业及整理:@邓妍蕾 && @郭承坤 && @寒小阳 时间:2018年2月. 出处:http://blog.cs ...

  4. 有了性能超92%笔记本电脑的A12X Bionic,苹果可以和英特尔x86处理器分手了?

    继九月的iPhone XS发布会之后,苹果在10月30日又举行了一场发布会,更新了许久没有更新的产品,比如Macbook Air和Mac mini.当然也发布了新一代iPad Pro,除了外观屏幕的变 ...

  5. 超详细配置教程,搭建Windows深度学习环境

    点上方蓝色"菜鸟学Python",选"星标"公众号 重磅干货,第一时间送到 选自towardsdatascience,作者:Ahinand 机器之心编译 虽然大 ...

  6. 超详细配置教程,搭建 Windows 深度学习环境

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 选自 | towardsdatascience 作者 | Ahina ...

  7. 链表中环的入口结点 python_【Github 5K星】BAT头条滴滴小米等笔试面经+深度学习/算法/NLP资源汇总!...

    最近,在GitHub上有位id为imhuay的热心人带头建立了一个关于国内知名互联网企业笔试和面试经验的资源库,光从名称上就能看出其内容有多丰富:<2018/2019/校招/春招/秋招/算法/机 ...

  8. 赛扬处理器_首批15瓦四核处理器即将成为历史:英特尔宣布停产4个型号

    2017年问世的Kaby Lake Refresh系列15瓦U系列处理器即将停产,它们是英特尔最早推出的低压版4核处理器.Core i7-8650U和i5-8350U最后订单日期为10月23日,最后出 ...

  9. 2020年全球及中国术后镇痛药行业市场现状分析,非阿片类药物需求不断增长「图」

    一.主要术后镇痛药简介 大部分接受手术的患者均会经历术后疼痛,即手术后出现的急性疼痛.术后疼痛包括躯体疼痛及内脏疼痛,持续时间通常约三至七天.术后疼痛控制在促进患者恢复正常功能方面有重要作用,并减少与 ...

最新文章

  1. 苹果支付和ios安全 - 你需要知道的
  2. 通过变长数组(VLA)来看编译器的不同
  3. 怎么解决svn清理失败且路径显示乱码问题
  4. iOS去除导航栏和tabbar的横线
  5. wind2008中如何显示隐藏文件/夹
  6. android栈式存储,线性表数据结构解读(三)栈结构Stack
  7. java uuid 效率_java uuid第一次性能
  8. 【Python CheckiO 题解】Bigger Price
  9. 2018.12.18运算符,分支结构(循环),异常处理,函数
  10. from PyQt4 import QtGui,QtCore出错-解
  11. c语言递归函数检测回文,递归法判断回文字符串,急用
  12. java8 lambda maplist排序_「java8系列」流式编程Stream
  13. 脉冲宽度调制pdm_PWM (脉冲宽度调制)原理与实现
  14. Oracle数据库日常管理之数据备份,恢复及迁移 (第五讲 )
  15. caffe 使用cudnn 加速报错
  16. 文化的作用与本质是什么
  17. 2018-2019-1 20165320 《信息安全系统设计基础》第八周学习总结
  18. 基于STM32单片机设计指纹考勤机+上位机管理
  19. iOS开发调试技巧之模拟定位国外位置
  20. 《奋斗》徐志森的财商课

热门文章

  1. STM32与BLE蓝牙通信 Android APP配置(二)
  2. iPhone抓包stream
  3. Java中实例变量的线程安全问题的分析
  4. 老男孩的运维笔记文档-中级部分(运维中级)列表(二)
  5. 使用matplotlib绘制3D立方体图
  6. Ubuntu 安装 anaconda
  7. aggr代码 cellranger_cellranger使用的初步探索(3)cellranger aggr
  8. Win10系统有时鼠标会无法点击但几秒时间不等会恢复正常
  9. python基础教程目录-Python基础教程(第2版 修订版) 简介,目录书摘
  10. 计算机的图标怎么会恢复,桌面图标变成未知图标了怎么恢复?