基于亚马逊云科技 Trainium 芯片的 Amazon EC2 Trn1 实例可以为热门机器学习模型在亚马逊云平台上进行深度学习训练提供最佳性能,与基于 GPU 芯片的同类型实例相比,可实现多达50%的训练成本节省。目前,包括 PyTorch, Helixon 和 Money Forward 等客户和合作伙伴已经开始使用 Trn1 实例。

01

亚马逊云科技于2022年10月10日正式宣布全面推出由亚马逊云科技 Trainium 芯片提供支持的 Amazon Elastic Compute Cloud(Amazon EC2)Trn1 实例。Trn1 实例专为在云中对机器学习模型进行高性能训练而构建,与基于 GPU 的同类实例相比,可节省高达50%的训练成本。Trn1 实例在亚马逊云科技上为热门机器学习模型提供最快的训练速度,使客户能够减少训练时间,快速迭代模型以提高准确性,并提升自然语言处理、语音和图像识别、语义搜索、推荐引擎、欺诈检测和预测等各种工作负载的生产效率。使用 Trn1 实例毋需最低承诺或预付费用,客户只需为使用的计算量付费。

如需开始使用 Trn1 实例,请访问:

aws.amazon.com/ec2/instance-types/trn1

02

越来越多的客户正在构建、训练和部署机器学习模型,支持有可能重塑其业务和客户体验的应用程序。这些机器学习模型正变得越来越复杂,而且使用越来越多的训练数据来帮助提高准确性。有鉴于此,客户必须在数千台加速器上扩展其模型,从而导致了训练成本的增加。这也直接影响了研发团队实验和训练不同模型的能力,从而限制了客户将其创新成果推向市场的速度。亚马逊云科技已经提供了最广泛和最深入的机器学习硬件加速器的计算产品,例如由亚马逊云科技 Inferentia 芯片支持的 Inf1 实例、G5 实例、P4d 实例和 DL1 实例。但是,即使使用当今最快的加速实例,训练更复杂的机器学习模型仍然可能昂贵且耗时。

由亚马逊云科技 Trainium 芯片支持的全新 Trn1 实例可在亚马逊云平台上提供最高性价比和最快的机器学习模型训练,与最新基于 GPU 的 P4d 实例相比,可节省高达50%的深度学习模型训练成本。亚马逊云科技推出的 Neuron 软件开发工具包,全面支持 Trn1 实例,允许客户只需最少的代码修改即可开始使用,该工具包已经集成到 PyTorch 和 TensorFlow 等主流机器学习框架中。

03

Trn1 实例支持多达16个专为部署深度学习模型而构建的Trainium加速器。Trn1 实例是首批提供高达 800Gbps 网络带宽的 Amazon EC2 实例(比最新基于 GPU 的 EC2 实例降低了延迟,速度快了2倍),使用亚马逊云科技的第二代 Elastic Fabric Adapter(EFA)网络接口来提高扩展效率。Trn1 实例还使用 NeuronLink(一种高速实例内互连)来加快训练速度。客户将 Trn1 实例部署在由数万个 Trainium 加速器组成的 Amazon EC2 UltraCluster 中,可以快速训练最复杂的具有数万亿个参数的深度学习模型。

借助 EC2 UltraClusters,客户将能够通过与 EFA PB 级网络互连的多达30,000个 Trainium 加速器来扩展机器学习模型的训练,从而能够按需访问超级计算机性能,将训练时间从几个月缩短到几天。每个 Trn1 实例支持高达 8TB 的本地 NVMe SSD 存储,可快速访问大型数据集。Trainium 支持多种数据类型(FP32, TF32, BF16, FP16 和可配置 FP8)和随机舍入这种概率舍入方式。与深度学习训练中常用的传统舍入模式相比,随机舍入的性能和准确性更高。Trainium 还支持动态张量形状(Dynamic Tensor Shape)和自定义算子(Custom Operators),以提供灵活的基础设施,满足客户的训练需求。

04

“多年来,我们看到机器学习从大型企业使用的小众技术逐渐发展成为我们许多客户业务的核心部分,我们预计机器学习训练很快就会在他们的计算需求中占据较大的比例,”亚马逊云科技 Amazon EC2 副总裁 David Brown 说到。“基于我们的高性能机器学习芯片 Inferentia 取得的成功,Trainium 是我们专为高性能训练而打造的第二款机器学习芯片。由 Trainium 提供支持的 Trn1 实例将帮助我们的客户把训练时间从几个月缩短到几天,大大提高成本效益。”

Trn1 实例基于亚马逊云科技 Nitro 系统构建,该系统是由亚马逊云科技设计的硬件和软件创新集合,可简化隔离多租户、私有网络和快速本地存储的交付。亚马逊云科技 Nitro 系统将 CPU 虚拟化、存储和网络功能转移到专用硬件和软件中,从而提供与裸机几乎无异的性能。Trn1 实例同时也支持通过其他亚马逊云科技服务提供,包括 Amazon SageMaker, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon Elastic Container Service (Amazon ECS) 和 Amazon Batch。Trn1 实例支持多种购买选项,包括按需实例、预留实例、Savings Plan 或竞价实例。Trn1 实例现已在美国东部(弗吉尼亚北部)和美国西部(俄勒冈)上市,并且即将在其他亚马逊云科技地区推出。

有关 Trn1 实例的更多信息,请访问:

aws.amazon.com/blogs/aws/amazon-ec2-trn1-instances-for-high-performance-model-training-are-now-available

05

亚马逊的产品搜索引擎索引了数十亿种产品,每天处理数十亿次客户查询,是世界上使用最频繁的服务之一。

“我们正在训练多模态、多语言、多环境的大型语言模型,对多项任务进行预训练,涵盖多项实体(产品、查询、品牌、评测等),以改善客户购物体验,”亚马逊搜索高级首席科学家 Trishul Chilimbi 说到。“与其他加速机器学习解决方案相比,Amazon EC2 Trn1 实例通过提供最佳的性能功耗比提供了一种更可持续的方式来训练大型语言模型,并以最低的成本为我们提供优异性能。我们计划探索新的可配置 FP8 数据类型和硬件加速随机舍入,以进一步提高我们的训练效率和开发速度。”

PyTorch 是一个开源机器学习框架,可加速从研究原型设计到生产部署的路径。

“在 PyTorch,我们希望加快将机器学习从研究原型设计到应用于客户的生产的过程。我们与亚马逊云科技广泛合作,为新的亚马逊云科技 Trainium 驱动的 Trn1 实例提供原生 PyTorch 支持。构建 PyTorch 模型的开发人员只需对 Trn1 实例进行最少的代码更改即可开始训练,”在 PyTorch 担任工程经理负责 Applied AI 的 Geeta Chauhan 表示。“此外,我们还与 OpenXLA 社区合作,使 PyTorch 分布式库能够轻松实现从基于 GPU 的实例到 Trn1 实例的模型迁移。我们对 Trn1 实例为 PyTorch 社区带来的创新激动不已,包括更高效的数据类型、动态形状、自定义算子、优化了硬件的随机舍入和亟需的调试模式。所有这些功能使得 Trn1 非常适合 PyTorch 开发人员广泛采用,我们期待将来能一起推动 PyTorch 的发展,进一步优化训练性能。”

Helixon 为基于蛋白质的疗法构建下一代人工智能解决方案,开发 AI 工具,使科学家能够破译蛋白质功能和相互作用,查询大规模基因组数据集以识别目标,并设计抗体和细胞疗法等疗法。

“今天,我们使用 Fully Sharded Data Parallel 之类的分布式训练库在许多基于 GPU 的服务器上进行并行模型训练,但这仍然需要我们数周时间来训练单个模型,”Helixon 首席执行官彭健说到。“我们很高兴能够利用亚马逊云科技上网络带宽最高的 Amazon EC2 Trn1 实例来提高我们分布式训练任务的性能,减少我们的模型训练时间,同时降低了我们的训练成本。”

Money Forward, Inc. 是一个为企业和个人提供开放和公平的金融平台。

“我们在 Amazon EC2 Inf1 实例上推出了大规模 AI 聊天机器人服务,与基于 GPU 的同类实例相比,我们的推理延迟降低了97%,同时成本也得以下降。由于我们会定期对定制自然语言处理模型进行微调,因此减少模型训练时间和成本也很重要,”Money Forward 首席技术官 Takuya Nakade 说到。“根据我们在 Inf1 实例上成功迁移推理工作负载的经验以及我们在基于亚马逊云科技 Trainium 的 EC2 Trn1 实例上的初步工作,我们预计 Trn1 实例将在提高端到端机器学习性能和成本方面带来更多价值。”

Magic 是一家从事产品和研究的综合性公司,开发就像同事一样的人工智能,提高世界的生产力。

“训练大型基于自回归解码器的模型是我们工作的重要组成部分。亚马逊云科技 Trainium 驱动的 Trn1 实例专为这些工作负载而设计,提供近乎无限的可扩展性、快速节点间联网以及对16位和8位数据类型的高级支持,”Magic联合创始人兼首席执行官 Eric Steinberger 表示。“Trn1 实例将帮助我们以更低的成本更快地训练大型模型。Trainium 对 BF16 随机舍入提供原生支持,对此我们感到特别兴奋,在性能得以提高的同时,数字准确性也与全精度没什么差别。”

听说,点完下面4个按钮

就不会碰到bug了!

基于亚马逊自研机器学习训练芯片 Trainium 的 Amazon EC2 Trn1 实例正式上线相关推荐

  1. 亚马逊推出了SecureCRT免费的云主机服务器 Amazon EC2,

    chmod 600 /home/xiaoqiang.he/.ssh/* 亚马逊推出了免费的云主机服务器 Amazon EC2,它是通过安全密钥来访问主机的.问题是下载的密钥在SecureCRT 上无法 ...

  2. 基于亚马逊云科技 Serverless架构的实时数仓架构

    近年来,各级政府和企业响应数字化转型的号召,都已开始或者即将开始数字化转型.各类企业通过前期的业务线上化.信息化,积累了大量数据,而数字化转型就是要聚合这些数据,进行深入挖掘分析,用数据来驱动业务,用 ...

  3. TP-Link基于亚马逊云科技部署面向运营商的IoT云管平台

    很多出海企业经常面临着加速多线布局谋求更快发展与既有架构难以支撑的两难之境,此时寻求业务伙伴的支持成为了一个普遍选择,亚马逊云科技对TP-Link的助力即是一个"好风凭借力,送我上青云&qu ...

  4. 基于亚马逊云科技无服务器服务快速搭建电商平台——部署篇

    概览 受疫情影响消费者习惯发生改变,刺激了全球电商行业的快速发展.除了依托第三方电商平台将产品销售给消费者之外,企业通过品牌官网或者自有电商平台销售商品也是近几年电商领域快速发展的商业模式. 独立站电 ...

  5. 亚马逊云科技中国峰会:深度学习Amazon DeepRacer

    序言 Amazon DeepRacer是什么? Amazon DeepRacer是亚马逊推出的一款基于深度学习和强化学习技术的自主驾驶模拟赛车平台.它提供了一个云端仿真环境和一个物理赛车模型,让用户可 ...

  6. 亚马逊fire充不上电_如何在Amazon Fire TV上使用Alexa语音助手

    亚马逊fire充不上电 Unbeknownst to many Amazon Fire TV and Fire TV Stick owners, you can easily access Amazo ...

  7. 亚马逊商品详情API接口-(item_get-获得AMAZON商品详情接口),亚马逊详情API接口

    一.亚马逊商品详情API接口-(item_get-获得AMAZON商品详情接口),亚马逊详情API接口可以获取到商品价格,商品库存,商品销量,商品ID,商品图片,商品sku属性,sku详情,sku图片 ...

  8. java开发亚马逊mws_GitHub - iotwlw/Amazon-MWS-SDK: 基于亚马逊MWS Java SDK 的封装

    amazon-mws-java-sdk 亚马逊MWS服务的Java-SDK封装 安装 在pom.xml中添加依赖 top.guyi.amazon Amazon-MWS-SDK 1.0.0.1 依赖放在 ...

  9. 基于亚马逊云科技的流式传输云游戏,让安卓游戏出奇制胜

    将游戏从云端流式传输到移动设备是一项新兴技术,可以方便低端移动设备,在硬件条件受限的情况下,提高游戏品质.有了这项技术,玩家无需更换升级移动设备(如智能手机.平板电脑和智能电视),就能享受高品质游戏体 ...

最新文章

  1. 你的能力代表你能走多远
  2. 2022-2028年中国密集型光波复用(DWDM)设备行业市场前瞻与投资战略规划分析报告
  3. 进程控制概念简介 多线程上篇(三)
  4. CF1407D Discrete Centrifugal Jumps(单调队列+DP)
  5. python 源码安装教程_python安装步骤
  6. java新手笔记1 Hello World!
  7. deepin下载python_深度操作系统中怎样下载python?
  8. C++ Byte转十六进制字符串输出
  9. Ext JS 4.2.0发布
  10. ionic -- 实现根据拼音字母搜索人员
  11. 笔记本计算机风扇声音大怎么办,怎么解决笔记本风扇声音大 笔记本风扇声音大解决办法【图文】...
  12. Python库中,如何使用jieba模块来实现古典名著《西游记》的分词
  13. 【深度学习】生成对抗网络GAN|GAN、WGAN、WGAN-UP、CGAN、CycleGAN、DCGAN
  14. 记一次图片压缩内存溢出的问题
  15. 软考之路(一)千里之行始于足下
  16. 蓝桥杯 算法训练 王,后传说
  17. 塞尔维亚国家队大名单:马蒂奇领衔,古德利落选
  18. 浅析SFX脚手架源码
  19. Stateflow使用C语言结构体,关于使用Stateflow调用外部C代码的教程介绍
  20. 是要成为海贼王的男人——日记4.23

热门文章

  1. 从Excel表格中复制列数据并粘贴到Word表格中
  2. Dust3D开源项目分析——渲染与材质部分 | 材质预览 Part 1
  3. 有奖补!2022年武汉市集成电路产品发展若干政策专项资金申报要求以及申报奖励补贴标准
  4. java实现获取微信公众服务号消息
  5. 微服务开源项目-sky平台
  6. apache Tika介绍及使用
  7. 视频教程-自然语言处理实战——LSTM情感分析-深度学习
  8. 从人口迁移数据来看,哪个省复工最快?
  9. 有赞一面:还有任务没执行,线程池被关闭怎么办?
  10. java poi 创建电子表格