第三代英特尔® 至强® 可扩展处理器采用了英特尔10 纳米 + 制程技术。相比于第二代英特尔® 至强® 可扩展处理器,该系列处理器内核更多、内存容量和频率更高。阿里巴巴集团和英特尔的技术专家共同探索了这些能力对人工智能应用的意义,特别是在与英特尔® 深度学习加速(英特尔® DL Boost)结合使用时。我们还探索了英特尔® 低精度优化工具(英特尔® LPOT),助力客户在基于英特尔® 至强® 可扩展处理器的平台上快速开发和部署 AI INT8 模型。我们在第三代英特尔® 至强® 可扩展处理器上优化了阿里巴巴 Transformer 模型,并证明了 FP32 和 INT8 推理的性能相较于上一代处理器分别提升了 1.36 倍和 1.42 倍。

技术概览

Transformer 是阿里巴巴端到端AI机器学习平台(PAI)使用的关键模型,它广泛应用于自然语言处理(NLP)任务,并通过阿里巴巴线上服务供全球数百万用户使用。低时延、高吞吐量是 Transformer 成功的关键,而 8 位低精度操作正是有望满足这一要求的理想技术。

英特尔® DL Boost 为 8 位低精度推理的人工智能工作负载提供了强大的支持。依靠英特尔® LPOT 的支持,我们能在提升 8 位推理性能的同时显著降低精度损失。这些能力证明了英特尔在 AI 推理领域的领导地位,也展现了英特尔® DL Boost 和第三代英特尔® 至强® 可扩展处理器的强悍实力。

模型分析

模型结构
图一展示了 Transformer 构造块的子图。

图一  Transformer 构造块的子图(图片来源:Vaswani, et al., 2017)

从此图可以看出,有些操作适用于 INT8 量化,以便更好地发挥采用英特尔® DL Boost 矢量神经网络指令的英特尔® AVX-512(AVX512_VNNI)的作用。我们利用英特尔® LPOT 自动生成一个符合预定义精度损失目标的 INT8 模型。目前,LPOT 支持在 PyTorch 原生 Imperative 路径上进行量化参数搜索调整。我们依靠它来探索所有可能的量化参数组合空间,例如每个可量化算子使用不同的每张量、每通道量化,以及非对称/对称设置,以便获得优化的量化模型。下图显示了使用英特尔® LPOT 生成 Transformer 低精度模型的代码片段。

关于如何使用英特尔® LPOT 启用新的量化模型,更多详情参见 GitHub 的 LPOT 页面

模型配置
阿里巴巴的 Transformer 模型是一个 PyTorch 模型。我们采用 profiling 的方法来分析模型性能。从下图中的 FP32 模型配置日志可以得知,它是一个计算密集型模型,在该模型中,总时间的 70% 均被计算密集型操作占用,如多项式乘(conv)和矩阵相乘(matmul)。从中可知,AVX512_VNNI 指令能为 Transformer 模型带来显著的性能提升,而第三代英特尔® 至强® 可扩展处理器更高的内存带宽和频率也有利于内存密集型操作。

以下是 INT8 模型配置日志,从中可以得知,如果对所有矩阵相乘(matmul)操作进行量化,计算性能可提升 76.644/(20.296 + 6.632) = 2.84 倍。注:对多项式乘(conv)操作进行量化后,计算性能可提升 59.65/11.65 = 5.12 倍,超过了 4 倍理论峰值性能提升。这是因为 FP32 多项式乘(conv)操作在 oneDNN 路径上运行,与 INT8 多项式乘(conv)FBGEMM 操作相比,该路径实际上包括实际多项式乘(conv)计算之前和之后的两个额外 reorder 算子。

性能与验证
我们分别在第二代和第三代英特尔® 至强® 可扩展处理器上测试了 Transformer 模型,均得到了显著的性能提升。FP32 和 INT8 端到端性能提升分别如表一和表二所示。

表一 Transformer 模型 FP32 推理性能提升

表二 Transformer 模型 INT8 推理性能提升

图二以图表形式显示了测试结果。

图二 基于 FP32 和 INT8 数据类型获得的代际性能提升

采用最新的英特尔® DL Boost (INT8) 技术后,性能得到了大幅提升,与 FP32 解决方案相比约提升 3.1 倍;在阿里巴巴定制的第三代英特尔® 至强® 可扩展处理器平台,总吞吐量与第二代英特尔® 至强® 可扩展处理器平台相比提高了约 42%。

精度方面,我们采用客户数据对 INT8 Transformer 模型进行验证,结果显示精度损失为 0.4%,能够满足客户需求。

结论

与第二代英特尔® 至强® 可扩展处理器系列相比,第三代英特尔® 至强® 可扩展处理器提升了内核数量、频率和内存带宽,这令 PyTorch Transformer INT8 模型的性能提升了 1.42 倍,PyTorch Transformer FP32 模型的性能提升了 1.36 倍。阿里巴巴采用英特尔最新处理器和 INT8 量化工具后,可为阿里巴巴 PAI-Blade 推理工具集带来 3.1 倍性能提升。阿里云预计,这将有助于加快 Transformer 任务的运行,并向阿里巴巴数百万客户提供更高效的服务。

配置详情

基于 PyTorch 1.7.1 的阿里巴巴 PAI NLP Transformer 模型在第三代英特尔® 至强® 可扩展处理器上的吞吐量性能

基准配置:英特尔截至 2021 年 3 月 19 日的测试。2 节点,2* 英特尔® 至强® 铂金 8269C 处理器,26 核,超线程开启,睿频开启,总内存192GB (12 插槽/ 16 GB/ 2933 MHz),BIOS:SE5C620.86B.02.01.0013.121520200651(0x4003003),CentOS 8.3,4.18.0-240.1.1.el8_3.x86_64,编译器:gcc 8.3.1,Transformer 模型,深度学习框架:PyTorch 1.7.1,https://download.pytorch.org/whl/cpu/torch-1.7.1%2Bcpu-cp36-cp36m-linux_x86_64.whl,BS=1,客户数据,26 个实例/2 插槽,数据类型:FP32/INT8

新配置:英特尔截至 2021 年 3 月 19 日的测试。2 节点,2* 英特尔® 至强® 铂金 8369B 处理器,32 核,超线程开启,睿频开启,总内存 512 GB (16 插槽/ 32GB/ 3200 MHz),BIOS: WLYDCRB1.SYS.0020.P92.2103170501 (0xd000260),CentOS 8.3,4.18.0-240.1.1.el8_3.x86_64,编译器:gcc 8.3.1,Transformer 模型,深度学习框架:PyTorch 1 . 7 . 1,https://download.pytorch.org/whl/cpu/torch-1.7.1%2Bcpu-cp36-cp36m-linux_x86_64.whl,BS=1,客户数据,32 个实例/2 插槽,数据类型:FP32/INT8

所有性能数据均为实验室环境下测试所得。

第三代英特尔 至强 可扩展处理器(Ice Lake)和英特尔 深度学习加速助力阿里巴巴 Transformer 模型性能提升相关推荐

  1. 科技新品 | 可与华为苹果手机互联的腕表;专业4K战术型电竞萤幕;第三代英特尔至强可扩展处理器...

    "科技新产品动态"栏目把新鲜的具有代表性的科学产品带到您眼前,涉及消费电子,半导体.服务器.智能家电等众多品类,提供图片和简单的文字介绍. TISSOT天梭表发布腾智·无界系列腕表 ...

  2. 第三代英特尔至强可扩展处理器,英特尔数据中心的“芯法宝”

    作者 | 宋 慧 出品 | CSDN云计算 头图 | 付费下载于东方IC 距离英特尔发布第三代至强可扩展处理器Ice Lake的全系列产品,已经过去一个多月了.全新一代的至强处理器除了核数增加.性能提 ...

  3. 全新第三代英特尔® 至强® 可扩展处理器重磅发布,点燃数字经济,应对万变挑战!

    过去15年,中国的数字经济年复合增长率超过了20%,对整体经济增长的贡献达到了70%.当下,中国数字经济规模接近了40万亿元,总体量居于全球第二位.今年3月份的"十四五"规划单列篇 ...

  4. 第三代英特尔至强可扩展处理器亮相,性能平均跃升46%

    英特尔宣布推出其更先进的数据中心平台.该平台拥有非凡的性能,已为行业内从云到网络,再到智能边缘的相当广泛的工作负载进行了优化,并为其提供强大驱动力.作为英特尔数据中心平台的基础,全新第三代英特尔®至强 ...

  5. 全球最快学术超算Frontera,也用英特尔至强可扩展处理器

    近日,英特尔和德州大学奥斯汀分校德克萨斯高级计算中心(TACC).美国国家科学基金会(NSF).戴尔科技集团和其它科技合作伙伴共同推出全球排名第五的超级计算机,同时也是学术界最快的超级计算机-Fron ...

  6. 华为发布基于第二代英特尔®至强®可扩展处理器家族的新一代服务器

    2019年4月4日,在主题为"+智能,计算进化"的发布会上,华为正式发布了基于第二代英特尔® 至强® 可扩展处理器以及支持英特尔®傲腾 ™ 数据中心级持久内存的新一代FusionS ...

  7. TYAN 于Computex2023 展示支持第四代英特尔至强可扩展处理器的新款服务器

    [台北讯2023年5月30日]隶属神达集团,神雲科技旗下服务器通路领导品牌TYAN®(泰安),于2023 台北国际计算机展(Computex 2023)5月30日至6月2日展览期间,在台北世贸南港展览 ...

  8. 一图get面向物联网边缘计算的第四代英特尔至强可扩展处理器

    --END--

  9. 成长型企业想要数字化转型?第三代英特尔️至强️可扩展平台给你高效、灵活的底气

    2020 年 5 月,"国内国际双循环"成为众多成长型企业的催化剂.2020 年末,中国小企业增长突破4000 万家,其中 10-99 人的企业近 1000 万家.这些不断增长的小 ...

最新文章

  1. Spring Boot+Gradle+ MyBatisPlus3.x搭建企业级的后台分离框架
  2. 从生成对抗网络到更自动化的人工智能
  3. ASP.NET MVC 5 学习教程:添加控制器
  4. session的常用方法。
  5. 30道四则运算题目---课堂作业--软件工程c++
  6. IT运维服务管理中知识
  7. 云计算和并行计算的关系
  8. 算法 --- 希尔排序、归并排序、快速排序的js实现
  9. wince bib文件合成
  10. 统计数据:Google排名高的是什么样的页面?
  11. 坐飞机也能享受百兆宽带了,这个技术是怎么实现的?
  12. JFFS2文件系统的移植
  13. node mysql sequlize_初步使用Sequelize模块 - Node实战
  14. 网页回到顶部的js代码实现
  15. 【信息学奥赛一本通】题解目录
  16. QQ拼音输入法词库和搜狗输入法词库[相互导入](使用Excel公式)
  17. 中信证券显示连接服务器,我的中信证券的交易软件真不好用
  18. Android自定义View 顶部导航栏
  19. DateTime.Now函数详解 所有用法
  20. GSAP动画效果三——3D动画

热门文章

  1. 哪些“惯性”在2021可能被打破?(20210106).PDF
  2. Exploiting sample correlation for crowd counting with multi-expert network
  3. 两位诺奖得主加持、解决“不可能三角”的UPoS机制来了
  4. 国内B2C 26个经典购物网站商城收集(更新至2009年11月3日)转载
  5. App 启动流程全解析
  6. AE基础教程(3)——第3章 合成窗口-缩放,网格,参考线使用
  7. 现在做什么生意比较赚钱,且投资小利润大?
  8. 分治法实验之大整数乘法(算法设计分析)
  9. Oracle 12c系列(二)|PDB的创建
  10. mach3软件常见问题和解决方案