摘要:AI进入产业的门槛变高,开发者想要做出优秀的AI模型就不得不在算力和成本之间折中,怎么办?

为帮助企业在AI落地过程中进一步实现降本增效,华为云推出AI黑科技——弹性训练。

今年,AI界最被热议的当属OpenAI最新发布的GPT-3模型,作为迄今为止发布的最大自然语言处理(NLP)转换器,它的模型参数有1750亿个,使用了45TB的数据,算力要求为3640pfs-day,训练费用高达1200万美金。

如果AI开发者想要使用大数据来训练模型,就需要超强的算力,同时不得不支付高昂的训练费用。这就导致AI进入产业的门槛变高,开发者想要做出优秀的AI模型就不得不在算力和成本之间折中。

一方面,在预算投入有限的情况下,AI开发者只能使用较弱的算力,从而造成AI服务开发的滞后。另外一方面,对于云厂商来说,由于用户使用时间和规模的灵活性,经常会存在空闲的计算资源没有被使用,造成浪费。华为云AI黑科技弹性训练动态缩减和扩展节点,很好地解决了AI开发者算力不足和云厂商算力空闲的矛盾。

灵活调配算力资源,弹性训练为AI开发降本增效

华为云弹性训练方案实时监控资源池的算力情况,如果有空闲的计算资源,会把该资源分配给正在训练中的弹性作业,提高该训练作业的算力,从而使该训练作业快速收敛。在有新任务提交时,华为云弹性训练方案又会根据资源池空闲资源和弹性作业的使用情况,把资源回收后给新起的任务,保证新的训练的快速效应。

弹性训练流程

弹性训练可以根据模型训练速度的要求,自适应匹配最佳资源数。具体在产品上,它提供两种模式。

一是Turbo模式,可以充分利用空闲资源加速已有训练作业,在大多数典型场景下加速效率大于80%,训练速度提升10倍,并且不会影响模型收敛精度。

二是Economic模式,可以通过最大化资源利用率,给开发者提供极致的性价比,在大多数典型场景下可以提升性价比30%以上。

工程和算法多个维度优化,降低模型训练难度

华为云弹性训练方案需要解决多个复杂的分布式训练问题:如何实现动态多次弹性后训练的收敛过程和收敛结果和普通非弹性训练等价一致、如何保证弹性过程中优雅切换、如何解决混部等场景中straggler拖累系统性能、如何使用户减少代码修改、如何选择合适的通信框架从而减少梯度汇聚时间。华为云弹性训练方案从工程和算法多个维度进行优化,解决了上述问题,实现了训练的准确率不降低、加速比理想。

具体来说,华为云弹性训练方案具有易用、高效、优雅的训练框架和等价的训练过程,普惠的强大算力、高利用率的云资源四大优势。

易用、高效、优雅的训练框架

华为云的弹性训练基于易用高效的训练框架,用户只需要根据要求,简单的修改代码,就可以满足弹性训练的要求。

弹性训练框架支持NCCL通信,支持all_reduce或点对点的组网模式,可以高效的进行梯度聚合,因此有很好的加速性能。

同时,它也支持多GPU/NPU性能监控,支持基于每个GPU/NPU的性能进行训练负载动态调整,在混部等多GPU/NPU性能不均衡的场景下,依然具有很好的性能。

除此之外,弹性训练框架可以保证弹性过程是优雅的。弹性训练过程中涉及到节点数的变多和变少。在节点数变多时,它可以保证老节点在新节点切入前正常训练,新节点在准备好平滑的切入训练,因此不需要老节点长时间等待。在节点数变少时,弹性训练框架可以让释放的节点平滑退出。

等价的训练过程

弹性训练过程节点数是动态变化的,在弹性的动态过程中如何调整训练超参,保证模型的收敛是一个巨大的挑战。华为云的弹性训练方案在理论上可以保证,在初始设置正确的训练超参后,节点在弹性过程中变多或变小时,训练的模型的收敛过程和结果是一致的。因此用户在使用训练方案时,不需要因为弹性而引入过于复杂的超参调整策略,另外也不需要担心弹性的引入对收敛结果造成影响。等价训练过程让用户可以放心的使用弹性训练。

普惠的强大算力

相比传统的直接购买确定的算力方案,AI开发者在投入很少的情况下,可以获得巨大的算力。用户提起弹性训练作业后,在训练过程中可以获得华为云中空闲的运算资源,算力迅速增强,因此在较短的时间内就可以把训练跑完,从而实现高频的训练迭代、快速的服务上线变现。弹性方案真正让用户实现了用得起。

高利用率的云资源

传统的资源强化定制方案,导致无法盘活空闲资源,不能根据实时资源使用情况,动态调整已经训练的作业。因此在传统方案中,经常会出现训练任务算力不足、耗时漫长的同时资源池中大量资源闲置的矛盾局面。

相比之下,华为云弹性训练方案具有极大的灵活性。基于弹性训练方案,华为云实时监控资源池中资源的情况,动态调整弹性训练作业的算力情况,当资源池中有空闲资源时,就将空闲资源分配给训练作业,保证资源的充分利用。

在弹性方案确定后,华为云的弹性训练方案自动监控调整,无需人为参与,方便高效。该方案满足了云服务商充分利用算力资源的需求和AI开发者的诉求,实现了双赢。

弹性训练方案应用前景广阔

随着数据的爆发式增长,AI进入行业当中越发需要大算力的支撑来处理大数据。未来,弹性训练方案具有广阔的应用空间。使用华为云的弹性训练方案在ImageNet(大型可视化数据库 )上训练resent50模型。在开始时使用1节点训练模型,在有空闲资源后,将训练节点调整为16,此时的线性加速比为10。在训练60个epoch后top1 accuracy为76.1%。精度保持一致的情况下,华为云的弹性训练方案使收敛速度快了9倍。

华为云一直秉持着“将简单留给开发者,复杂留给华为云”的理念。华为云AI不断迭代创新,推出黑科技功能,加速AI进入产业,落地实际场景,让千行百业共享AI技术红利。

点击关注,第一时间了解华为云新鲜技术~

ModelArts黑科技揭秘|弹性训练,让训练资源张弛有度相关推荐

  1. ModelArts黑科技揭秘|模型智能评估、诊断,让模型来个“体检

    摘要:华为云AI开发平台ModelArts黑科技加持AI研发,让模型开发更高效.更简单,降低AI在行业的落地门槛.全面的可视化评估以及智能诊断功能,使得开发者可以直观了解模型各方面性能,从而进行针对性 ...

  2. 北京冬奥黑科技; 揭秘虎年春晚硬核科技;全球首款AR隐形眼镜问世;索尼3D显示技术路径曝光...

    点击文章内容即可跳转至相应原文阅读 >> 祝大家开工大吉,虎年顺利! 北京冬奥从开幕式就黑科技曝了! 这一次的北京冬奥会,从开幕式就直接火了!首先是从冰立方中破冰而出并随着音乐冉冉升起的奥 ...

  3. 文章伪原创检测在线,黑科技揭秘

    自媒体时代,内容创作已成为一种热门行业,但是许多人为了追求效率和快速发布文章,采用了伪原创的方式.这种行为不仅会影响文章质量,而且还会受到惩罚.那么如何检测文章是否伪原创呢?本文将揭秘文章伪原创在线检 ...

  4. 黑科技揭秘:面对海量的文本翻译任务,阿里翻译团队是如何解决的

    对国际化企业来说语言问题是亟待突破的重要关口.面对海量的文本翻译任务,昂贵低效的人工翻译显然不能满足需求,利用计算机自动进行文本翻译的机器翻译才是解决这个问题的关键.阿里翻译团队在机器翻译领域做了大量 ...

  5. 黑科技揭秘:面对海量的文本翻译任务,阿里翻译团队是如何解决的 1

    摘要: 对国际化企业来说语言问题是亟待突破的重要关口.面对海量的文本翻译任务,昂贵低效的人工翻译显然不能满足需求,利用计算机自动进行文本翻译的机器翻译才是解决这个问题的关键.阿里翻译团队在机器翻译领域 ...

  6. 黑科技揭秘:3分钟,轻松构建一张覆盖全球的企业专有网络

    2018杭州云栖大会主论坛上,阿里巴巴研发技术总经理 蒋江伟在大会现场演示了分钟级构建企业专有网络的技术. 回顾一下当时的场景,一共有三步操作:上电, WAN口连接Internet,LAN口连接电脑, ...

  7. 黑科技揭秘:百种异常随机注入,专有云为何稳如泰山

    关键应用服务中断引发一系列连锁反应,起因仅是一块磁盘被写满?为什么这么巧,两个小概率的问题偏偏一起发生,造成保护失效?为什么我们做了测试演练,然而真正发生问题依然踩坑?"2018杭州云栖大会 ...

  8. 黑科技揭秘:阿里云如何做到从业务宕机到恢复业务运行只用一分半钟时间

    2018杭州云栖大会主论坛上,阿里云打造的混合云容灾方案惊喜亮相,并直接在现场进行了全过程的演示,凸显出阿里云技术的强大心智. 整个混合云容灾演示在5分钟内呈现了阿里云秒级RPO,分钟级RTO企业应用 ...

  9. 黑科技揭秘:如何通过阿里云超算,使得汽车仿真效率提升25%

    在汽车行业,过去有一句俗话,一辆车从设计到下线,"至少要11辆真实碰撞试验",今天,在现代化的汽车制造业,通过长期发展的设计和仿真软件,几乎所有的环节,都可以做到设计与仿真一体化的 ...

最新文章

  1. mac上投屏android_全平台Win/Mac全设备Android/iOS 免费无线投屏神器
  2. Python基础教程:默认参数和可变参数
  3. ubuntu建立向windows一样的快捷方式
  4. P5004-专心OI - 跳房子【dp,矩阵乘法】
  5. HashMap的put方法(Java7)和putVal方法(Java8)
  6. python捕获异常装饰器_python异常装饰器--比较全的版本了
  7. 隐马尔可夫(HMM)/感知机/条件随机场(CRF)----词性标注
  8. hive指定hadoop执行队列
  9. Kubernetes 弃用 Docker !
  10. 神策数据推荐系统:中文关键词提取新模型
  11. UnityParticle1:粒子系统简介
  12. i3能装Linux虚拟机,使用i3wm重新安装Ubuntu
  13. Excel打开密码怎么解除
  14. 京东多个物流信息怎么批量查询,并分析派件时效
  15. 解决“error C1083: 无法打开包括文件: “HPSocket.h”: No such file or directory”
  16. 如何下载网站的在线视频
  17. ai边缘平滑_如何用PS,将图像边缘线条处理圆滑
  18. 算命的理科生——顺口说说算命的事......
  19. 机器人体验营笔记(二)基础
  20. 域名证书到期监控告知

热门文章

  1. Bootstrap 状态切换
  2. Bootstrap 源码版文件结构
  3. 计算机f8键的功能,详解:XP系统修改启动时F8键有哪些功能?
  4. Git笔记(8) 远程仓库的使用
  5. 视觉SLAM笔记(38) 3D-3D: ICP
  6. 开关电源怎么测试文波_开关电源纹波标准与规范测试说明
  7. Web前端和后端开发的区别和要求
  8. 用自己电脑做服务器,建个人网站
  9. Permission denied (publickey).
  10. Android判断网络状态