大多数企业使用 AI 时其实更偏重推理型的应用。基于 CPU 平台,特别是集成深度学习加速技术的英特尔至强平台的 AI
云服务,在很多应用场景都足以应对他们的实战需求,而且其部署更快、更便捷,上手门槛也低。

不论是使用成熟的英特尔架构 AI 优化软硬件组合打造 AI 云主机,还是对 AI 云平台上的特定模型进行深度优化,抑或是从 AI
框架层面开展基础合作,英特尔与 CDS 首云、阿里云及百度等云服务提供商的紧密协作,已经催生了至强 CPU 之上丰富多样的 AI
云服务,它们都在助力更多企业跨越智能化鸿沟。

移动互联网 “早古” 时期,普通人因为收入差距问题而无法做到人手一部智能手机,从而导致数字鸿沟。同样,在当前这个 AI,也就是人工智能扮演越来越关键作用的时代,企业也站在了类似的抉择交接线上——是否有足够的实力或能力拥抱智能化?而这个问题的成本,可就不是一个小小的智能手机了。因缺少 AI 人才、技术积累或财力支持而难以靠自身力量完成 AI 基础设施建设的企业,在智能化转型的过程中正将面临这样的智能化鸿沟,能否破解,很可能会关乎新十年中它们的命运走向。

如何消除智能化鸿沟?

要解决问题,就要先精确定位问题所在。

一方面,构建 AI 能力对于普通企业来说,IT 基础设施维护、AI 框架搭建、训练和推理、硬件和软件、人才和巨额算力成本等这些 “夯地基” 的事情需要从零做起,然而大部分企业,尤其是传统行业企业并没有相关经验;另一方面,智能化转型又迫在眉睫,企业需要快速让自己具备 AI 能力,才能赶上不断变化的需求。

企业在 AI 应用开发和使用各阶段可能遇到的挑战,虽然不全,但已足够 “挑战”

包括那些有一定的 AI 人才、技术积累与创新能力,但仍不足以支撑自身智能化转型的企业在内,大家都在寻找一种功能全面、部署便捷且性价比高的法子,来帮助它们快速完成 AI 能力的构建和部署。

这就给了云服务提供商大展身手的机会,通过输出快捷、高效、实惠的 AI 云服务,帮助条件和实力不足的企业快速部署和实践 AI 应用,它们可以做到既惠人,又利已。

意外!CPU 成 AI 云服务热门选择

紧迫的需求,已经在过去数年催生了众多针对 AI 的云服务和产品,IaaS 和 PaaS 级别的服务是主流,例如 AIaaS (AI as a Service)、AI 在线服务、增强型 IaaS、企业级 AI 一体机,深度学习云平台等等,硬件搭配也是多种多样,例如基于 CPU、GPU、TPU、NPU、FPGA 等等,都在为企业 AI 转型提供包括基础设施构建及优化、AI 应用开发和部署,以及 AI 模型训练与推理效能优化在内的多种支持。

有趣的是,CPU 作为通用处理器,在 AI 云服务的抢眼程度,并不亚于专用的 AI 加速芯片。通过实际应用分析,我们不难发现,如果不是专注于 AI 算法模型训练和开发的企业,大多数企业使用 AI 时其实更偏推理型的应用。对他们来说,基于 CPU 平台的云服务,特别是集成了可加速 AI 应用的 AVX-512 技术和深度学习加速技术的英特尔® 至强® 平台的 AI 云服务,其实在很多应用场景中都足以应对实战需求,且不论对于他们,还是云服务提供商而言,部署都更快、更便捷,上手门槛也低。

就这样,可能与大家的印象相悖,CPU 成为了很多云服务提供商输出,以及企业采用 AI 云服务时的热门选择,这使得以 CPU 为基础设施的 AI 云服务异军突起。

用 CPU 做 AI 云服务,集成 AI 加速是前提

如前文提到,基于 CPU 的云服务要受欢迎,并不是仅仅做好通用计算任务就够了,首先就要针对 AI 应用在硬件上集成特定的加速能力。

作为老牌 CPU 厂商的英特尔® ,早在 2017 年就于第一代至强® 可扩展处理器上导入了可以加速浮点运算(涵盖 AI 运算)的 AVX-512 技术;而后又在 2019 年推出的第二代至强® 可扩展处理器上集成了可以加速 INT8 的英特尔® 深度学习加速技术,专攻推理优化;2020 年和今年,分别面向多路和单、双路服务器的第三代至强® 可扩展处理器依次亮相,后者靠 INT8 加速主攻推理,前者则通过同时支持 INT8 和 BF16 加速,兼顾了 CPU 上的 AI 训练和推理任务。

2021 年面向单路和双路服务器的全新第三代至强® 可扩展处理器的主要优势,包括再次提升 AI 推理性能

CPU 有了 AI 加速能力,用它来构建 AI 云服务的根基就已奠定。但为了充分发挥出这些硬件 AI 加速能力,英特尔® 还同步提供了一系列开源 AI 软件优化工具,包括基础性能优化工具 oneDNN,可帮助 AI 模型充分量化利用 CPU 加速能力、预置了大量预优化模型并能简化它们在 CPU 平台上部署操作的 OpenVINO,以及可以在现有大数据平台上开展深度学习应用,从而无缝对接大数据平台与 AI 应用的 Analytics Zoo 等。英特尔® 还将 oneDNN 融入了TensorFlow、Pytorch 等主流 AI 框架,将它们改造成面向英特尔® 架构优化的 AI 框架。

通过这些举措,英特尔® 架构 CPU 平台加速 AI 应用的软硬两种能力就有了 “双剑合璧” 的效果。而英特尔® 和云服务提供商合作伙伴的实践,也正是基于此展开的。

CPU AI 云服务第一式,软硬打包上手快

得益于英特尔® 提供的全面AI加速软硬件组合,多数云服务提供商无需做更多调整和优化,就可迅速打造出针对 AI 的基础设施即服务或 AI 云主机产品。简单来说,就是将集成 AI 加速能力的至强® 可扩展平台与我们提到的软件工具,例如 oneDNN 或面向英特尔® 架构优化的 AI 框架软硬打包,就可快速形成易于部署和扩展的 AI 云主机镜像。

国内有云服务提供商早在 2017 年就进行了类似的尝试,通过使用英特尔® 优化软件,它激活了至强® 平台的 AI 加速潜能,并在部分应用场景实现了可与 GPU 相媲美的推理性能。

如果仅有性能优化还不够,还需要更快的模型部署能力,那就可以像 CDS 首云一样导入 OpenVINO。它通过至强® 可扩展平台、高性能 K8S 容器平台和 OpenVINO Model Server 这三者的组合大幅简化了 AI 模型的部署、维护和扩展。性能实测结果也表明,OpenVINO 不仅在用户并发接入能力上优于首云此前采用的 AI 框架,在推理应用的时延等关键性能指标上也有良好表现。

CDS 首云 AI 云服务方案架构

CPU AI 云服务第二式,深度优化收益多

仅仅是导入英特尔® 已经就绪的 AI 软硬件组合,就已能输出令人满足的 AI 云服务了,那么如果是和英特尔® 在 AI 云服务的算法及模型上进行更深入的优化,又会有什么惊喜呢?像阿里云这样的头部云服务提供商就通过实战给出了答案。

以阿里云为例,其机器学习平台 PAI 在与英特尔® 的合作中,利用了第三代英特尔® 至强® 可扩展处理器支持的 bfloat16 加速,来主攻 PAI 之上 BERT 性能的调优,具体来说就是以经过优化的 Float32 Bert 模型为基准,利用 BF16 加速能力优化了该模型的 MatMul 算子,以降低延迟。测试结果表明:与优化后的 FP32 Bert 模型相比,至强® 平台 BF16 加速能力能在不降低准确率的情况下,将 BERT 模型推理性能提升达 1.83 倍。

CPU AI 云服务第三式 扎根框架打根基

如果说从提供软硬协同的基础平台到定向深度优化算法,算是 AI 云服务在优化程度上的迈进,或者说云服务提供商与英特尔® 在 AI 云服务构建和优化上的深化合作的话,那么如果有云服务提供商能在深度学习框架这个 AI 基石上与英特尔® 开展合作,那是不是会更具意义呢?

为这个问题输出答案的是百度,它的开源深度学习平台 “飞桨” 先后结合第二代和第三代至强® 可扩展处理器在计算、内存、架构和通信等多层面进行了基础性的优化。其结果也是普惠性的——优化后的飞桨框架能够充分调动深度学习加速技术,可将众多 AI 模型,特别是图像分类、语音识别、语音翻译、对象检测类的模型从 FP32 瘦身到 INT8,在不影响准确度的情况下,大幅提升它们的推理速度。

例如在图像分类模型 ResNet50 的测试中,飞桨搭配英特尔® 今年发布的全新第三代至强® 可扩展处理器对其进行 INT8 量化后,其推理吞吐量可达 FP32 的 3.56 倍之多。

如此性能增幅,再加上 CPU 易于获取、利用和开发部署的优势,让飞桨的开发者们可借助 AI 框架层面的优化,更加快速、便捷地创建自己可用 CPU 加速的深度学习应用。而为了给企业开发者们提供更多便利,百度还推出了 EasyDL 和 BML(Baidu Machine Learning)全功能 AI 开发平台,通过飞桨基于全新第三代至强® 可扩展处理器的优化加速,来为企业提供一站式 AI 开发服务。

展望未来,跨越智能化鸿沟不仅靠算力

前文 CDS 首云、阿里云和百度的实例,可以说是充分反映了用 CPU 做 AI 云服务的现状,而这些云服务也正是为当前希望跨越智能化鸿沟的企业设计的。当然,它们也会持续演进,比如说随着未来 AI 技术的进一步发展,特别是大数据与 AI 融合带来的新需求,不论是用 CPU 还是专用加速器,不论是企业自建 AI 基础设施和应用,还是云服务提供商输出的 AI 云服务,都会在数据存储而非算力上面临越来越多的挑战。

毕竟,算力、算法和数据是并驾齐驱的 “三驾马车”,随着数据规模进一步暴增,数据存储也将对 AI 的部署和应用带来更多挑战。

好消息是,国内的云服务提供商也早已和英特尔® 就此展开了前瞻创新,例如百度智能云早在 2019 年就推出了 ABC(AI、Big Data、Cloud)高性能对象存储解决方案,能利用英特尔® 傲腾® 固态盘的高性能、低时延和高稳定来满足 AI 训练对数据的高并发迭代吞吐需求。

值得一提的是,英特尔® 在今年发布全新第三代至强® 可扩展处理器时,也带来了与其搭档的英特尔® 傲腾® 持久内存 200 系列和傲腾® 固态盘 P5800X。

相信未来会有更多专攻 AI 应用场景的存储系统导入这些新品,把更多数据存放在更靠近 CPU 或其他加速器的地方,从数据就绪或 “供给” 层面提升 AI 推理和训练的性能。而提供这些 AI 优化型存储系统或服务的,多数也很可能是技术实力雄厚的云服务提供商们,这样一来,用户就不用担心在应对智能化鸿沟时再遇到大数据和 AI 对接的难题了。

AI 时代竟有智能化鸿沟,具备哪些条件才能跨过?相关推荐

  1. AI时代竟有智能化鸿沟,具备哪些条件才能跨过?

    来源:CSDN 移动互联网"早古"时期,普通人因为收入差距问题而无法做到人手一部智能手机,从而导致数字鸿沟.同样,在当前这个AI,也就是人工智能扮演越来越关键作用的时代,企业也站在 ...

  2. AI时代的文本智能化利器:百度语义理解技术与平台文心ERNIE

    阅读原文:https://mp.weixin.qq.com/s/Efs1929lxXEv7C3Up72EVg 语言与知识技术,被归类为认知智能,一直是人工智能最热门的研究与应用领域. 9月15日,百度 ...

  3. 投资恒指期货需要具备什么条件?

    怎么在恒指期货上做交易?这是一个很模糊的设问,从侧面反映投资人有非常的大的解惑需求,和对自己的定位还不是很清楚,实际上问的是两个问题. ​ 第一,投资人应该具备什么条件才能进行恒指期货交易,这是资格的 ...

  4. AI时代的产品管理:产品经理需要具备的5项技能

    已使用讯飞转录,听音频解放双眼 从2019年3月开始,我们一直在打造一款名为Get智能写作的产品.但是由于缺乏经验,我们犯了很多错误,踩了不少坑.2019年11月16日,在Mixlab活动上,我做了一 ...

  5. 商汤“变法”:推中小学AI教材,mini自驾车,要打造AI时代的「清明上河图」...

    作者 | 阿司匹林 出品 | AI科技大本营(ID:rgznai100) 2019 年的进度条已经近半,这次商汤带来了一场令人"眼花缭乱"的发布会,一口气推出了覆盖五大行业的 11 ...

  6. 日本“妻子”机器人上线1小时被抢空,AI时代人类可还有未来?

    日本"妻子"机器人被哄抢,不要房车不要彩礼 日本研发出一款"美女机器人",将其命名为"妻子",光看她的外形,你能识别出她其实只是一个机器人吗 ...

  7. AI公开课:19.03.20吴甘沙-驭势科技联合创始人《AI时代的自动驾驶趋势》课堂笔记以及个人感悟

    AI公开课:19.03.20吴甘沙-驭势科技联合创始人<AI时代的自动驾驶趋势>课堂笔记以及个人感悟 导读       为什么要大大小小的公司都要做无人驾驶?因为它真的是一个很大的舞台,具 ...

  8. AI时代的交换机什么样?华为CloudEngine 16800告诉你!

    [中国,北京,2019年1月9日] "网络新引擎AI赢未来"华为网络春季新品发布会在北京顺利召开,华为发布了业界首款面向AI时代的数据中心交换机CloudEngine 16800, ...

  9. 弯道超车时机已来 百度:中国有机会定义AI时代的用户体验标准

    近日,百度人工智能交互设计院发布了一份聚焦于未来3年内的AI人机交互趋势研究报告(以下简称"<报告>").<报告>从"人机交互介质".& ...

最新文章

  1. 在ASP.NET中操作文件的例子
  2. 一起谈.NET技术,在.NET Workflow 3.5中使用多线程提高工作流性能
  3. centOS下为PHP安装Xdebug
  4. 这可能是对 IOC 和 DI 解释的最清楚的一篇文章了!
  5. 开源神器!答应我,别再用 abc 做变量名了好么!
  6. MySQL高级 - 存储引擎 - 特性
  7. 荣耀v10Android9新功能,荣耀10、荣耀V10开启安卓9.0内测 日常领跑行业
  8. android studio 获取SHA1值 MD5值
  9. 使用OSHI 检索系统信息,超牛逼、超级秀、超级巴适!!快来看看吧!不然你会后悔的!!666
  10. percona-toolkit---pt-heartbeat
  11. 面向对象实现放大镜_面向音乐家和音乐爱好者的开放式硬件:耳机,放大器等
  12. 余承东生日朋友圈深夜连发五个“感恩”:这是一个难忘的日子
  13. 扎克伯格拒绝参加加拿大议会 或因藐视罪名被拘留
  14. 中国超级计算机城市,“霾没”全国104个城市 华北华东多地爆表
  15. delphi中webbrowser的用法
  16. Sipp命令行参数说明
  17. python+selenium+autoit实现自动百度识图
  18. 超级好用的流程图js框架
  19. 计算机怎样设置光盘启动项,怎么设置开机启动项-设置光盘启动教程
  20. phpmail通过qq发邮箱失败_PHPMailer使用QQ邮箱实现邮件发送功能

热门文章

  1. matlab求解平面方程的原理
  2. 产品经理入门到大神的资料全推荐
  3. 软购联盟让正版软件得到更好的推广
  4. otrs软件_Otrs用手册.doc
  5. 三相逆变器双pi控制器参数如何调节_学术简报︱如何解决并网逆变器的重复控制器积分饱和问题?...
  6. 划重点 | 如何让App开发及运营更走心,并兼具不可复制性?
  7. 【备忘】mychrome编译尝试,最终失败了,只是解决了stdafx的问题
  8. 算数-平均数、中位数和众数平均数
  9. 「FlutterBug」FlutterBoost启动黑屏处理(升级空安全版本)
  10. Position为absolute的div或dropdown menu在设置了overflow的div中显示不完全(cropped)