人工智能模型的复杂度不断增加,对内存的需求也越来越大。深度学习的进一步发展需要解决内存限制问题,而当前的解决方案无法利用所有可用计算,业内人士逐渐意识到需要专用芯片来支持深度学习训练和推理。

英特尔则在人工智能方面提供优越的硬件选择,并通过软件来最大化释放硬件的性能,从而帮助客户无论是数据多么复杂或位于哪里都可以自如运行AI应用。

7月3日-4日,在百度AI开发者大会上,英特尔公司副总裁兼人工智能产品事业部总经理Naveen Rao宣布,英特尔正与百度合作开发英特尔® Nervana™神经网络训练处理器(NNP-T)。这一合作包括全新定制化加速器,以实现极速训练深度学习模型的目的。

此次NNP-T是一类全新开发的高效深度学习系统硬件,能够加速大规模的分散训练。与百度的密切合作能够确保英特尔开发部门始终紧跟客户对训练硬件的最新需求。

从2016年起,英特尔便一直针对英特尔®至强®可扩展处理器优化百度飞桨(PaddlePaddle*)深度学习框架。如今,通过为百度飞桨优化NNP-T,双方能够为数据科学家提供更多的硬件选择。

与此同时,英特尔还通过更多技术来进一步增强这些AI解决方案的性能。例如,凭借英特尔傲腾数据中心级持久内存所提供的更高内存性能,百度能够通过其Feed Stream*(信息流)服务向数百万用户提供个性化移动内容,并通过百度AI推荐引擎获得更高效的客户体验。

此外,鉴于数据安全对于用户极其重要,英特尔还与百度共同致力于打造基于英特尔软件保护扩展(SGX)技术的MesaTEE*——内存安全功能即服务(FaaS)计算框架。

Naveen Rao表示:“未来几年,AI模型的复杂性以及对大规模深度学习计算的需求将爆发式增长。英特尔和百度将延续双方十多年的合作并聚焦于联合设计和开发全新的硬件以及配套软件,从而向‘AI 2.0’的新疆界不断迈进。”

而在英特尔分论坛上,英特尔及其合作伙伴分别就边缘计算、百度超级计算平台的软硬件优化、英特尔 DL Boost、百度海洋引擎与英特尔SGX的合作、爱奇艺在OpenVINO™上的AI实践以及英特尔AEP的分布式系统在AI训练和数据处理上的实践等方面的技术细节进行了探讨。我们将从以下四个演讲中阐释英特尔取得的主要进展。

英特尔DL Boost的至强云端深度学习推理优化实践


英特尔DL Boost是一套旨在加快人工智能深度学习速度的处理器技术。英特尔人工智能资深架构师姚伟峰讲述了利用英特尔DL Boost的至强云端深度学习推理优化实践。

DL Boost基于AVX-512扩展新的矢量神经网络指令集,性能提升是数量级的,具有更好的TCO,为终端用户提供更一致性的体验。他指出,英特尔 DL Boost VNNI就是为加速深度学习推理任务而生。他还从图优化、量化、算子优化三方面详细讲解了XEON深度学习推理优化。

英特尔MKL-DNN优化的深度学习框架和OpenVINO™

英特尔软件产品开发部、资深AI 技术咨询工程师胡英以英特尔MKL-DNN优化的深度学习框架为主讲述了如何利用英特尔AI软件工具加速深度学习。

英特尔MKL-DNN是一个开源的、性能强化的函数库,用于加速在CPU上的深度学习框架,包含高度矢量化和线程化的构建模块,支持利用C和C++接口实施卷积神经网络。

英特尔MKL-DNN主要在以下对象上运行:基元、引擎和流。库文档对这些对象的定义如下所示:

  • 基元——任何操作,包括卷积、数据格式重新排序和内存。基元可以以其他基元为输入,但是智能输出内存基元。

  • 引擎——一种执行设备,如CPU。每个基元都映射为特定的引擎。

  • 流——一种执行环境,将基元提交至流后等待完成。提交至流的基元可能有不同的引擎。流对象也可以跟踪基元间的相关性。

OpenVINO是英特尔基于自身现有的硬件平台开发的一种可以加快高性能计算机视觉和深度学习视觉应用开发速度工具套件,支持各种英特尔平台的硬件加速器上进行深度学习,并且允许直接异构执行。 支持在Windows与Linux系统,使用Python/C++语言。

OpenVINO工具包主要包括两个核心组件,模型优化器和推理引擎。

OpenVINO的主要特点有:

  • 在英特尔平台上提升计算机视觉相关深度学习性能达19倍以上

  • 解除CNN-based的网络在边缘设备的性能瓶颈

  • 对OpenCV,OpenXV*视觉库的传统API实现加速与优化

  • 基于通用API接口在CPU、GPU、FPGA等设备上运行加上

爱奇艺在OpenVINO™上的AI实践

软件工具包OpenVINO,专为在边缘部署深度神经网络而设计,广泛支持各种框架,只需编写一次,可扩展到不同加速器上使用,使边缘AI实现高性能、高效率。

借助英特尔OpenVINO工具包,能够帮助开发人员加快深度神经网络推理应用的开发,支持深度神经网络测试、调整和原型制作,可以帮助开发者进入实际应用的量产阶段。

爱奇艺助理研究员虞科华分享了他们在OpenVINO上的AI应用开发的相关实践 。首先是应用开发方法主要包括三点:

  • 训练模型:固化模型

  • 模型优化:图分割、客制化层、 客制化子图

  • 推理引擎:模型级联计算、多输入尺寸设计、自动评估CPU端执行特征

另外,虞科华指出OpenVINO FPGA后端实践主要包括两方面:1推理引擎: 异构Plugin、 异构执行分析;性能分析:Bitstream精度、异构Affinity设置、流水线化。

OpenVINO目前在爱奇艺的落地服务主要有AI雷达、图文审核、视频标签、图片审核等。

百度计算平台的软硬件优化

作为英特尔重要的合作方,百度AI系统架构师丁瑞全介绍了在百度大规模分布式训练系统中与英特尔在软硬件优化方面的合作。

在系统设计上,百度超级AI计算平台X-MAN与英特尔进行合作共同推动OAI & OAM全球标准定义。

软硬件联合优化方面主要包括四个方面。IO优化,百度Fast-F共享并行文件系统,同时基于英特尔 SPDK,为AI场景海量小文件而优化 ;预处理优化,通过预取 + 硬件Offload + 均衡CPU与AI加速卡配比的方式进行合作;数据下发优化,增加下行链路 + 避免冲突;前后向计算优化,自动混合精度 (AMP) +大显存增大batch size 英特尔 AI芯片可支持bfloat16*, 其动态范围相比float16 的更大液冷+48V供电 支持计算性能更强的芯片;通信优化,软件算法优化以及英特尔 SCR* ICL支持多机互联。

加速AI应用落地,英特尔AI 2.0的进阶之道相关推荐

  1. 加速智能边缘应用落地 英特尔携生态伙伴展示AI计算盒参考设计最新成果

    7月28日,在以"同芯智远,共赢边缘"为主题的2021英特尔AI计算盒参考设计(以下简称"AI计算盒")主题分享会上,英特尔携手边缘AI领域的众多合作伙伴一同见 ...

  2. 英特尔 AI 引擎,加速 AI 工作负载的强大利器!

    从数据预处理.经典机器学习,到语言处理和图像识别等深度学习模型,AI 的身影到处可见,遍及广泛的工作负载和用例. 配备英特尔® AI 引擎的英特尔® 至强® 可扩展处理器,结合可服务整条 AI 流水线 ...

  3. 构筑超异构计算时代,英特尔 AI 全布局

    作者 | 伍杏玲 出品 | AI 科技大本营(ID:rgznai100) 我们正值数据井喷时代,据 IDC 发布<数据时代 2025>报告显示,全球每年产生的数据将从 2018 年的 33 ...

  4. 2022英特尔AI开发者大会视频专区

    2022是充满挑战的一年!传统行业遭遇疫情与外部环境的双重冲击,面临极大压力.在此形势下,利用人工智能技术对传统产业赋能,让企业实现降本增效,推动传统行业转型升级已经提上了日程.从技术本身来看,当前云 ...

  5. 英特尔AI芯片首次商用交货!推理性能3.7倍于英伟达T4,年贡献245亿涨250%

    李根 发自 旧金山  量子位 报道 | 公众号 QbitAI AI豪赌出业绩,产品启动商用--性能"吊打"友商. 今天(11月13日)在年度AI峰会上,老牌芯片霸主英特尔,交上最新 ...

  6. 英特尔 AI 芯片业务的现状与未来

    [CSDN 编者按]近两年来,在英伟达.高通.AMD.英特尔.华为等科技公司加速布局的战略规划下,芯片领域竞争愈演愈烈.如今随着人工智能时代的到来,再次为芯片市场激发新的活力,而与此同时,这意味着新一 ...

  7. 地平线获近亿美元A+轮融资,AI时代的英特尔被英特尔领投

    李根 发自 深夜凹非寺  量子位 报道 | 公众号 QbitAI 2015年余凯出走百度创业,被媒体问梦想是什么? 彼时"人工智能"只是个起起落落的历史古董,深度学习没太多人能听得 ...

  8. 美通社企业新闻汇总 | 2019.1.4 | 英特尔AI摄像机打击偷猎,施耐德电气助力世界级数据中心...

    要闻 英特尔AI摄像机助力打击偷猎,拯救濒危动物 施耐德电气助力蓝厅云数据中心,为最终用户带来可靠运营保障 国际珠宝品牌潘多拉推出中国猪年定制系列 珠海市首家希尔顿酒店正式开业 小鼠基因研究成为生命科 ...

  9. 英特尔“AI 养猪”!

    作者 | 胡巍巍 出品 | CSDN(ID:CSDNnews) 你最近吃得起猪肉吗? 对于中国人来说,车厘子自由不重要,猪肉自由才重要! 商务部10月23日消息,"上周我国猪肉价格为每公斤4 ...

最新文章

  1. java jdbc连接数据库的设计
  2. 免费的python课程-自学Python的10门免费课程,已学完
  3. 4.2 深层网络中的前向传播-深度学习-Stanford吴恩达教授
  4. tensorflow lstm 预测_图卷积神经网络GCN与递归结构RNN相结合的时间序列预测
  5. Java:从Java 8开始受益于内联类属性
  6. 里用gam使用_第一次使用Roam一头雾水?
  7. GPU大百科全书 第二章 凝固生命的光栅化
  8. Zabbix2.4.X_监控SNMP
  9. 迅为iTOP-IMX6ULL开发板Pinctrl和GPIO子系统实验-修改设备树文件
  10. Vivado ML 2021.1 环境安装
  11. 清理outlook缓存
  12. 算法进阶面试题07——求子数组的最大异或和(前缀树)、换钱的方法数(递归改dp最全套路解说)、纸牌博弈、机器人行走问题
  13. cairo显示多行文本
  14. 有公众号的情况下,复用资质快速注册小程序
  15. android怎么添加地铁卡,安卓手机公交卡怎么刷
  16. lsb_release 提示命令不存在
  17. 【数据分析】——分析方法
  18. Lienol 大神3月11日源码编译的的openwrt
  19. 西安到底需不需要互联网?
  20. 戴尔 OptiPlex 7070 台式电脑配置信息

热门文章

  1. express中的bin/www文件详解
  2. coredata Lightweight Migration 心得
  3. Web Developer中文版下载
  4. 还没用上 JDK 11吧,JDK 12 早期访问构建版使用
  5. 15:解决IntelliJ IDEA的乱码问题
  6. 算法总结---最常用的五大算法(算法题思路)
  7. list,set,map,数组间的相互转换
  8. Java通过JDBC连接MySQL数据库
  9. JConsole的使用
  10. Java学习笔记(二一)——Java 泛型