盯住未来！揭秘英特尔的AI芯片生意

https://www.toutiao.com/a6696048046452507143/

2019-05-28 20:06:16

英特尔的未来将是人工智能。去年，英特尔的人工智能芯片部门收入达到了10亿美元，英特尔预计这一市场每年还会以30%的速度增长，有望从2017年的25亿美元增长到2022年的100亿美元。

但尽管如此，英特尔所面临的的竞争也达到了前所未有的激烈程度，巨头中的英伟达、高通、Marvell 和 AMD，初创公司中的 Hailo Technologies、Graphcore、Wave Computing、Esperanto 和 Quadric，甚至连亚马逊也对英特尔摆出了一副要挟的姿态。所以，在重压之下英特尔近年也动作频频，先是在2015年收购了FPGA公司 Altera，一年后又收购了 Nervana，为全新一代AI加速器芯片组奠定了基础。去年八月，英特尔又拿下了深度学习创业公司Vertex.AI。

然而，英特尔的野心却并未止步于此，在近日接受的采访中，英特尔副总裁兼架构主管Gadi Singer及英特尔人工智能产品部门的高级主管 Casimir Wierzynski透露出了英特尔在光基、光子电路加速人工智能计算和光学芯片等方面都正积极探索。

“人工智能硬件是一个数十亿美元的机会，我们将投资于几个产品线，其中一些产品将专注于高效率加速等方面。”Singer说。

软件

Singer指出，没有软件的硬件毫无价值，所以英特尔特别注意人工智能拼图中的软件生态系统部分。

去年4月，英特尔宣布将开放源代码 nGraph，这是一个神经网络模型编译器，可以优化跨多个处理器架构的汇编代码。与此同时，英特尔推出了 One API，这是一套将计算引擎映射到一系列处理器、图形芯片、FPGA 和其他加速器的工具。今年5月，英特尔新成立的人工智能实验室(AI Lab)免费提供了一个用于自然语言处理的跨平台库 NLP Architect，该库旨在为对话助手灌输名称实体识别、意图提取和语义解析等功能。

Singer 指出，这些并不是英特尔开源的唯一工具包。他们现在提供了用于神经网络压缩研究的开源Python软件包Distiller，可以用来去除与目标任务无关的人工智能模型，以缩小这些模型的规模。还有一个叫 Coach 的强化学习框架，可以让用户在训练环境中嵌入人工智能代理，目标场景是机器人和自动驾驶汽车。

2018年春天，英特尔发布了OpenVINO (Open Visual Inference & Neural Network Optimization)，这是一个用于人工智能边缘计算开发的工具集，集成了预先训练过的人工智能模型，用于目标检测、面部识别和物体跟踪。它与传统的 CPU 或FPGA类专用芯片一起工作，目前已经被 GE Healthcare 等公司用于医疗成像。

Singer 表示，OpenVINO 旨在通过 Movidius Neural Compute SDK 来补充英特尔的计算机视觉软件开发软件包，该软件包将视频处理、计算机视觉、机器学习和管道优化结合到一个单一的软件包中，Movidius Neural Compute SDK 包括一组用于编译、分析和检查机器学习模型的软件。它们与 Intel 的 Movidius Neural Compute API 属于同一类，Movidius Neural Compute API 旨在简化以 C、C + + 和 Python 等编程语言进行的应用程序开发。

其中许多套件都运行在英特尔的 AI DevCloud 中，这是一个由 Xeon Scalable 处理器支持的云托管 AI 模型训练和推理平台。Devcloud 提供可伸缩的存储和计算资源，使开发人员能够针对硬件远程测试、优化和验证模型，例如 Aaeon Technologies 等制造商的 mini-PCIe 开发板。

隐私

Singer表示，英特尔认识到保护隐私是人工智能训练和推理的重要发展趋势之一。他指出，去年年底开源的 HE-Transformer 是在这方面迈出的重要第一步。HE-Transformer 是基于微软研究院的简单加密算术库(SEAL)的 nGraph 后端，它允许人工智能模型对加密数据进行操作。

He-transformer 中的"HE"是"同态加密"（homomorphic encryption）的缩写，这是一种加密技术，可以在使用算法加密的密文——明文(文件内容)上进行计算。它生成一个加密的结果，在解密时，该结果与对未加密文本执行的操作的结果完全匹配。

HE-Transformer实际上还增加了一个可以应用于开源框架的神经网络抽象层，比如 Google 的 TensorFlow，Facebook 的 PyTorch，和 MXNet。

“我们相信，安全和隐私极其重要，它们实际上是大规模机器学习的一股重要推动力量，”他说，“例如，如果你想获取许多医院里许多患者的信息，那么保护隐私问题就变得非常重要，只要你不能保护他们的隐私，那么你就不能访问这些数据。”

当被问及英特尔是否会继续开发像谷歌的 TensorFlow Privacy 这样的机器学习库时，Singer 说相关的工作正在进行中，TensorFlow Privacy 采用了一系列的统计技术来保证人工智能模型训练中的隐私。“在这个阶段，我们不会讨论这个问题，因为对于我们的深度学习能力来说，现在还为时尚早，”他说，“但目前投资者的兴趣很高，而且投资规模很大。”

加速器和 FPGA

大多数人工智能系统的核心神经网络是由神经元组成的，或者是以生物神经元为模型的数学函数。这些神经元分层排列，通过“突触”连接起来，将信号传递给其他神经元。这些信号输入神经网络，从一层传递到另一层，并通过调整每个连接的突触强度(权重)来缓慢地“调整”网络，随着时间的推移，网络从数据集中提取特征并识别跨样本趋势，最终学会做出预测。

神经网络不会摄取原始图像、视频、音频或文本。相反，来自训练语料库的样本被代数转换成多维数组，如标量(单数)、向量(标量的有序数组)和矩阵(标量排列成一个或多个列和一个或多个行)。而封装标量、向量和矩阵的第四种实体类型“张量”在描述有效的线性变换(或关系)时增加了描述。

例如，一张包含数百万像素的图像，可能会被转换成大量的数字矩阵，而从录音的话语中提取的单词和短语可能会被映射到矢量，这种技术被称为嵌入。

不出所料，一些硬件可以比其他硬件更有效地处理这些统计操作。处理器通常足以进行推理和一些涉及复杂顺序计算的训练，特别是像 Intel 的第二代 Xeon Scalable CPU，它拥有矢量神经网络指令和被称为 DL Boost AI 的深度学习软件优化组合。为此，英特尔声称其第二代 Xeon可伸缩 CPU 在人工智能工作负载上提供高达2.4倍的性能，占数据中心推理的60% ，在图像识别、目标检测和图像分割等推理工作负载方面的性能高达14倍。英特尔还声称，其即将推出的10纳米Ice Lake架构将提供比市场上的同类产品最多高8.8倍的人工智能推断吞吐量。

但是，一些最苛刻的深度学习任务涉及到张量操作，此时，图形卡和特殊设计的ASIC芯片显然就更有利于这些操作。这是因为它们包含了数以千计的核心，能够并行地执行数以百万计的数学计算。

“尽管CPU对于推断非常有效，但在某些情况下需要进行张量操作。深度学习中最苛刻的任务是使用多维数组，并在张量上完成所有的算术。”他说，“从解决方案体系结构的角度来看，在优化软件和其他硬件特性方面不断增强 CPU 是有意义的，但 CPU 本身不足以覆盖所有这些类型的用例。”

考虑一下像英特尔的16nm Myriad x VPU 这样的视觉处理器。它的优化图像信号处理和推断设备具有立体声块，可以处理最高180Hz的双720p feed流，还拥有可以跨8个传感器、以硬件为基础编码高达4K 视频分辨率的可调信号处理器管道。此外，它还有英特尔的神经计算引擎(Neural Compute Engine)，这是一个专用的硬件加速器，具有本地 FP16支持和8位定点支持。

英特尔声称，这种芯片高效运转起来可以达到每秒4万亿次计算和每秒1万亿次运算的专用神经网络计算，或是其前身(Myriad 2)在深度神经网络推理表现上大约10倍的性能。

FPGA 与专用的加速器不太一样，因为它们的硬件倾向于针对一般的、更广泛的计算和数据功能。但是它们在可编程性方面确实有优势，这使得开发人员能够在制造后对它们进行配置和重新配置。这可能是微软为 Project Brainwave 选择英特尔 Stratix 10 FPGA 的原因之一，Project Brainwave 是一个为加速深层神经网络训练和部署而优化的云服务。

英特尔在 Agilex 提供最先进的 FPGA 解决方案，这是其最新的10nm 嵌入式芯片组合，旨在解决企业网络和数据中心“以数据为中心”的挑战。

Agilex 产品具有可定制的异构3D 系统封装，包括模拟、内存、计算和定制 I/O 组件ーー包括 DDR5、 HBM 和 Intel Optane DC。它们完全支持 Intel 的 One API，并且提供了到 ASIC 的迁移路径。

英特尔声称，AgilexFPGAs 的性能比英特尔的老式14nm Stratix10FPGAs 高出40% ，总功耗则低40% ，这部分要归功于他们的第二代 HyperFlex 架构。

Nervana

早在2017年，英特尔首次宣布其正在研发的两款人工智能加速器芯片——一款用于工作负载推断，另一款用于训练。今年1月，英特尔在CES的一次新闻发布会上进一步详细介绍了这款推断产品。它被称为 Nervana 神经网络处理器(NNP-I) ，适用于 PCIe 插槽(或基于 OCP 加速器模块规范的夹层板)，基于10纳米工艺制造，将涵盖基于英特尔Ice Lake结构的处理器核处理一般操作，以及神经网络加速。

NNP-I 针对图像识别进行了优化，具有与其他芯片不同的体系结构; 它缺乏标准的缓存层次结构，其芯片内存由软件直接管理。Singer 说，由于其高速的芯片内外互连，NNP-I 能够将神经网络参数分散到多个芯片上，实现非常高的并行性。此外，它使用了一种新的数字格式—— Flexpoint，这种格式可以提高推理任务的中心数量计算量，使芯片能够适应大型机器学习模型，同时保持“行业领先”的功率效率。

“图像可能是最适用于加速器的用例，因为很多图像识别功能都是矩阵乘法功能，”Singer 说，“当你使用自然语言处理和推荐系统时，需要更多的混合类型的计算，CPU 核心可以让你在本地执行大量的张量活动和 CPU 任务，而不必将数据移出芯片。"

大规模生产 NNP-I 仍然路途遥远，但Singer说，它已经在英特尔的实验室运行多种拓扑。他希望今年能够投入生产，支持 Facebook 的 Glow Compiler，这是一个机器学习编译器，旨在加速深度学习框架的性能。

上述加速芯片——代号为“Spring Crest”的 Nervana Neural Net L-1000——可能与 NNP-I 一起出现。这种16nm 芯片的24个计算集群的人工智能性能是竞争显卡的10倍，是英特尔第一款 NNP 芯片 Lake Crest 的3-4倍。

Singer不愿透露更多信息，但他表示，关于 Spring Crest 的更多细节将在未来几个月公布。

“光”的力量

在英特尔人工智能产品部门负责英特尔硅光子组的Wierzynski 表示，NNP-I 和 Spring Crest 之外的设备可能与当今的人工智能加速器芯片大不相同。光子集成电路的工作正在进行中，光子集成电路是光学芯片的基础，与电子集成电路相比，光子集成电路有许多优点。

“几年前，一篇来自麻省理工学院的论文吸引了我的眼球，”Wierzynski对媒体讲，“尤其是其中对于电子与光子的比较。光子具有这些非常好的性质，它们可以在物质中快速移动，而且有控制光的方法，这样光子就可以被用来做一些有用的事情。”

Wierzynski指的是2017年波士顿的光学技术初创公司 Lightelligence 的首席执行官沈亦晨与他人合著的一篇论文，这篇发表在《自然-光子学》杂志上的研究论文描述了一种利用光干涉实现神经网络工作负载的新方法。

“加速深度学习的关键问题之一是，当芯片越来越小时，如何满足这种延迟越来越短的需求？” Wierzynski说，“我们在挑战硅的极限。这表现出来的一个方面是你需要一定数量的计算性能，但要在一定程度上控制能耗。”

为了达到这个目的，像 Lightelligence 这样公司的光学芯片只需要有限的能量，因为光产生的热量比电少，它们也不太容易受到环境温度、电磁场和其他噪音的影响。

此外，光子设计的延迟时间比硅材料的延迟时间提高了10,000倍，而且在功率消耗水平的表现上更低。在初步测试中，某些矩阵-矢量乘法被测量运行速度比最先进的电子芯片快100倍。

“我们的希望是，你将能够使用与人们现在使用的比较接近的人工智能模型,，”Wierzynski说，“我们也正在了解更多关于如何大规模构建光子回路的知识。”

这并不容易，正如 Wierzynski 所指出的，除了矩阵乘法之外，神经网络还有第二个基本构件：非线性。没有它们的网络只是简单地计算其输入的加权和，而不能做出预测。而且，问题仍然是什么样的非线性操作可以在光学领域执行。一种可能的解决方案是一种混合方法，即在同一个芯片上组合硅和光学电路。Wierzynski说，神经网络的一部分可以光学运行，另一部分可以电子化运行。

但这并不能解决光学芯片的缩放问题。快速的光子电路需要快速的存储器，而且还需要在大约200毫米的晶圆上封装每一个元件——包括激光器、调制器和光学组合器。

“在任何制造过程中，都会有缺陷，这意味着芯片内部和芯片之间会有细微的变化，这些都会影响计算的准确性，”Wierzynski说。

幸运的是，他和同事们正在努力寻找解决方案。在最近的一篇论文中，他们描述了在马赫-赞德干涉仪(MZIs)上建立人工智能系统的两种体系结构，MZIs 是一种光子电路，可以被配置成在与两束光的相位相关的量之间执行22个矩阵乘法。

在一个基准的手写数字识别(MNIST)的深度学习任务上对这两种体系结构进行仿真训练后，研究人员发现 GridNet 比 FFTNet (98% 对95%)具有更高的准确率，当它达到双精度浮点准确率时。重要的是，FFTNet 表现出了鲁棒性，即使加入了人工噪声，它的准确率也从未低于50% 。

Wierzynski说，这项研究为人工智能软件训练技术奠定了基础，这种技术可以避免在制造后对光学芯片进行微调，从而节省时间和人力。

“这是一种英特尔在过去几十年中为光电路煞费苦心开发的非常复杂的制造技术，并赋予其全新用途的方式，”他补充说，“对于这种技术来说，现在还处于初期阶段——在这个领域还需要做更多的工作，但已足够令人兴奋了。”

盯住未来！揭秘英特尔的AI芯片生意相关推荐

软硬一体打天下，英特尔在 AI 上做了些什么？
作者 | 屠敏出品 | CSDN(ID:CSDNnews) 「上个世纪 70-80 年代,康奈尔大学的教授弗雷德·贾里尼克和同事彼得·布朗等人在研究语音识别时,无意中开创了一种采用统计的方法解决智能 ...
AI洞观 | 一文读懂英特尔的AI之路
AI洞观 | 一文读懂英特尔的AI之路 https://mp.weixin.qq.com/s/E9NqeywzQ4H2XCFFOFcKXw 11月13日-14日,英特尔人工智能大会(AIDC)在北京召 ...
英特尔VS英伟达，AI芯片霸主争夺战重装上阵!
编者按:本文为"新智元"(ID:AI_era)对Nervana Systems CEO的专访,作者闻菲,36氪经授权发布. 根据MarketsandMarkets最新市场研究报告, ...
英特尔在移动芯片为何衰败看完此文豁然开朗
不久前,PC 业务营收疲软的英特尔裁掉了 12000 名员工,此举让我们不禁开始担忧这家掀起微处理器革命的公司的未来. 现今增长迅猛的智能手机市场可以说是完全建立在ARM的微处理器技术之上的,而 AR ...
华为招聘状态查看_英特尔放弃5G芯片研发：三星受益；爱立信2019年Q1净利润约2.51亿美元；华为也将要与高通和解；天津首个5G电话成功打通...
点击上方"通信人才网" 订阅! 导读:今日热点爱立信2019年Q1净利润约2.51亿美元扭亏为盈近日,爱立信发布截至2019年3月31日的第一季度财报.财报显示:爱立信第一季 ...
英特尔或退出芯片制造业务，拥抱台积电
英特尔首席执行官Bob Swan周四花了近一个小时的时间讨论一个想法:自己不生产芯片.这个想法过去对于这家世界上最大的半导体公司来说无法想象. 英特尔周五警告7纳米制程工艺中仍存在"缺陷&q ...
群聊金山云与英特尔的“AI as a Service”，你都get到了什么？
戳蓝字"CSDN云计算"关注我们哦! 作者:刘晶晶针对用户需要优化传统云主机框架却无从下手的现实情况,金山云携手英特尔打造出了AI as a Service这种全新解决方案,据说 ...
海康存储携手英特尔发布AI企业私有云
近日,武汉海康存储技术有限公司(以下简称海康存储)携手英特尔(Intel)在杭州举办了AI存储新品发布会,该发布会主题为"AI+存储新疆界--赋能企业私有云",海康存储的企业私有云 ...
阅片机器人性能增8倍，帮电网大省钱：英特尔加速AI推理细节
智东西(公众号: zhidxcom)文 | 心缘智东西7月13日消息,英特尔AIDC开发者大会于本周四在深圳举行,在上午场中,英特尔展示围绕硬件.软件和生态活动的AI产品阵列.(英特尔AIDC秀肌肉 ...

盯住未来！揭秘英特尔的AI芯片生意

盯住未来！揭秘英特尔的AI芯片生意相关推荐

最新文章

热门文章