GitHub贡献全球第5，超15,000名软件工程师，后深度学习时代英特尔如何「软硬兼施」

作为全球最大的半导体公司（2019年Q1数据），英特尔一直以「硬实力」示人，然而就是这样一家公司却有超过15000名软件工程师，在GitHub的2018贡献排行榜上全球第五。

深度学习时代，英伟达凭借GPU抢去了不少风头，然而如今人工智能已经进入到大规模生产部署阶段，英特尔正凭借着不断扩大的硬实力，以及不断增强的软实力，抢占AI全生命周期的制高点。

AI计算迈入超异构时代，英特尔如何布局？

针对深度学习全生命周期，英特尔已经推出了包含CPU、FPGA、AISC等在内的一系列已经芯片解决方案，而且还将于2020推出首款独立显卡，并且预计在2021年推出7纳米通用显卡。

2019年4月，英特尔发布第二代至强可扩展处理器。第一代至强可扩展处理器就优化了人工智能深度学习的训练（training）和推理（Inference）能力。第二代至强可扩展处理器里加入了深度学习加速技术（Deep Learning Boost），在英特尔AVX-512指令集中扩展了新的VNNI矢量神经网络指令，强化了深度学习的推理能力，它的意义在于，比如过去卷积神经需要三条指令，而现在的话就需要一条指令就可以了，加速技术在处理图像识别，语音识别以及对象检测等场景下会有明显加速效果。

从技术角度来看，大多数情况下GPU更适合训练阶段，英特尔强化的推理能力更适用于人工智能的应用侧，CPU的推理能力能更多地出现在城市交通、安全管理、零售或者是金融业的应用场景中。

在FPGA领域，英特尔此前发布了Arria 10 FPGA，不但提供速度等级更快的内核性能，并且还提供高达 20% 的 fMAX 优势；它使用了公开的 OpenCores 设计。1 与前代 FPGA 和 SoC 相比，英特尔Arria 10 FPGA 的功耗降低了 40%，并具有业内唯一的硬核浮点数字信号处理 (DSP) 模块，速度高达 1.5 tera 次浮点运算/每秒 (TFLOPS)。

此外，英特尔在Agilex上提供了最先进的FPGA解决方案，其最新的10nm嵌入式芯片组旨在解决企业网络和数据中心的“以数据为中心”的难题。Agilex产品具有可定制的异构3D系统级封装，包括模拟、内存、计算和定制 I/O 组件——其中包括 DDR5、 HBM，还有一块Intel Optane DC。它们得到了英特尔One API的全面支持，并且还提供了迁移到ASIC的解决办法。英特尔声称，与英特尔老式的14nm Stratix10FPGA相比，Agilex FPGA的性能提高了40%，总功耗则降低了40%。

除了CPU和FPGA，英特尔在收购Movidius、Nervana以及Mobileeye之后也推出相应的专用芯片，分别针对不同的AI场景，而且英特尔正在研发的新一代Xe架构的GPU也已经提上日程。

可以看出，英特尔在AI芯片领域的布局已经自成一体，从云端到终端，从训练到推理，再到无人机、自动驾驶等AI落地场景，英特尔的芯片已经无处不在。

不过，英特尔的宏图不止于此，未来AI对计算力的要求会越来越高，然而摩尔定律已经走到了尽头，传统的异构计算已经不能满足产业应用对AI计算的需求，英特尔则希望通过超异构计算来适应未来的计算需求。

异构计算在上世纪八十年代就已出现，它是指在完成一个任务时，采用一种以上的硬件架构设计，把它们组合在一起。组合方式主要包括：一体化SoC，它的专用性最强、能耗最低、性能可能也最高，能效比非常好，但需要量很大，也就是应用范围很广，才值得去做；分体式板卡，它的优势在于灵活，想用的时候可以随意组合，但板与板之间连接的功耗、带宽速度都要打很大折扣。

而超异构将提供更多的灵活性和更快的产品上市时间，推动计算创新发展。它包含三大要素：多架构、多功能芯片；多节点和先进封装技术；统一的异构计算软件。

在多架构、多功能芯片方面，包括了标量、矢量、矩阵、空间等多种架构。标量架构比如CPU，矢量架构比如GPU，矩阵架构比如深度神经网络的专用加速芯片，空间架构比如FPGA。对英特尔而言，就是要提供多样化的标量、矢量、矩阵和空间架构组合，从而实现超异构计算。

英特尔首席架构师、英特尔公司高级副总裁兼架构、图形与软件部门总经理Raja Koduri在演讲时也曾表示：

性能和通用性对于每个架构都很重要。这里我们用Y轴代表通用性，X轴代表能效。可以看到CPU是最通用的，虽然可能不是其中性能最好的。GPU在性能模型上有些有趣的创新，它比以前更通用，但不像CPU那么通用，但是GPU对于这种高强度工作负载的性能更好。FPGA加速器，它们的效率要高得多。例如，对于特定功能而言，FPGA加速器效率更高，更节能，更具成本效益，但它并不通用。我们真正要关注的是这条曲线的不同斜率（性能和通用性的不同搭配组合）。因此，我们树立了清晰的愿景和清晰的路线图:“我们希望提供标量、矢量、矩阵和空间的多种架构组合，部署在CPC、GPU、FPGA和加速器套件之中”

当然，想要继续保持计算力“指数级”的增长，就必须要硬件和软件来共同创新。「软件社区和硬件社区相互交流，并真正去思考彼此的问题，这比以往任何时候都更重要。」

软硬兼施，英特尔全面拥抱开源

虽然在人们的印象中，英特尔是一家芯片公司，但是这家公司现在拥有 15,000 余名软件工程师，而且在GitHub上已经有超过600个repository，并且积极拥抱开源。

为什么软件如此重要？

正如Raja Koduri在英特尔开源技术峰会（OSTS）2019上所说的那样，对于全新硬件架构的每一个数量级的性能提升潜力，软件都将能带来两个数量级的性能提升。英特尔公司副总裁兼系统软件产品部门总经理苏义德也在峰会上强调了软件在英特尔公司发展中的重要性，表示：“软件是英特尔的一项重要战略资产，将帮助我们挖掘商业价值，真正释放公司的整体增长潜力。”

在AI领域更是如此，这也是英特尔围绕AI推出MKL-DNN、BigDL、Analytics ZOO、OpenVINO等一系列配套的软件解决方案的原因。

MKL-DNN：英特尔 MKL-DNN 是一个开源的性能增强库，能够提高在英特尔架构上运行的深度学习框架的速度。英特尔 MKL-DNN 专为在英特尔架构上加快深度学习框架的速度而设计，包含了高度矢量化和线程化的构建模块，支持利用 C 和 C++ 接口实施卷积神经网络。

BigDL：BigDL 是一个分布式的深度学习框架，在大数据分析领域发展迅速，并且也是一个开源的框架。BigDL 有很多特点，比如：与 Spark 和 Hadoop 生态系统进行了完整集成，具有可拓展性等很多重要的功能。可根据数据大小在任意集群中训练模型、支持构建端到端的大数据分析与深度学习等 pipeline、可执行数据并行分布式训练，实现高可扩展性。BigDL 用户可在 Spark 和大数据平台上构建了大量数据分析与深度学习的应用，如视觉相似性、参数同步、比例缩放等。

深度学习应用程序可以编写为标准的 spark 库。这些 Spark 框架中统一的库可以读取大量数据。此外，它还支持 Numpy、Scipy、NLTK、Pandas 等 Python 库；与 TensorBoard 集成用于可视化分析；支持加载现有的 Torch 模型。企业客户使用 BigDL 和Spark 还有一个重要的原因，相比 TensorFlow，BigDL 不仅更快，通过并行计算它能够更快地重新训练模型。

Analytics ZOO：Analytics Zoo是一个统一的大数据+人工智能平台，支持基于Spark的分布式TensorFlow、Keras和BigDL，目的是方便用户开发基于大数据、端到端的深度学习应用。Analytics Zoo，它提供了一组丰富的高级 API 可以将BigDL、Keras 和 TensorFlow 程序无缝集成到 Spark 的 pipeline 中；还有几个内置的深度学习模型，可用于对象检测、图像分类、文本分类等。该库还提供端到端的参考用例，如异常检测、欺诈检测和图像增强，以将机器学习应用于实际问题。

OpenVINO：OpenVINO是一个可以加快高性能计算机视觉和深度学习视觉应用开发的工具套件，它能够支持英特尔平台的各种加速器，包括CPU、GPU、FPGA以及Movidius的VPU，来进行深度学习，同时能够直接支持异构的执行。OpenVINO对深度学习和传统的计算机视觉这两类方法都有很好的支持，包含一个深度学习的部署工具套件，这个工具套件可以帮助开发者，把已经训练好的网络模型部署到目标平台之上进行推理操作。

除了上面介绍的软件产品，英特尔公司架构图形与软件集团副总裁和数据分析技术总监马子雅介绍道，

英特尔一直以来致力于为客户提供全栈式的人工智能解决方案。在硬件层面，我们有非常完整的产品组合。从前端到数据中心，从专用到通用芯片，这其中包括 CPU、GPU、FPGA，加速器、内存、存储、网络、硬件都在我们的业务范畴之内。在其之上我们又提供一整套的优化软件，比如数学库层面，我们对各种各样的数学库进行优化，保证在我们的硬件上实现最佳性能。像 Intel Data Analytics Acceleration Library、Math Kerenl Library for Deep Neura Networks(MKL-DNN)、nGraph 等等。在框架层面我们对最流行的深度学习框架进行优化来提升性能，包括 TensorFlow、Caffe、BigDL、Mxnet。在工具层面，我们提供多种多样灵活的工具来帮这些数据科学家加速人工智能的开发，比如 Intel Deep Learning Studio 等。平台层面我们又提供一站式全堆栈的系统方案，帮助客户加速人工智能的开发。在最终解决方案层面可以直接和终端客户合作，帮助客户构建部署完整的人工智能解决方案，加速客户从原始数据到落地到收益的进程。

马子雅说，「我们会对每一层软件的优化，尽可能挤出硬件的全部性能。最终所有的软件加起来，可以提升 8 倍，而不是 1-2 倍。」这或许是对英特尔未来AI战略的最好诠释。