晓查 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

因为通用计算芯片不能满足神经网络运算需求,越来越多的人转而使用GPU和TPU这类专用硬件加速器,加快神经网络训练的速度。

但是,用了更快的GPU和TPU就一定能加速训练吗?

训练流水线的所有操作并不都是在加速器上运行。上游数据处理(如磁盘I/O和数据预处理)就不能在加速器上运行。

随着GPU等加速器越来越快,超过了CPU、磁盘处理数据的速度,上游就逐渐成了训练瓶颈。

在某些情况下,GPU上游的代码花费的时间甚至是GPU本身运行时间的几倍。上游没做完,下游只能空等,浪费了大量时间。

为此,Google AI团队,提出一种简单的数据回波(Data Echoing)方法,可以解决这个问题。该方法最多能将训练速度加速3倍以上,且对模型的精度没有明显影响。

Jeff Dean也在Twitter上转发点赞。

重复数据让GPU不空等

很多情况下,上游花费的时间比加速器更长,使用更快的GPU或TPU根本不会提高训练速度。如果投入大量的工程工作以及额外的计算资源,确实可以加快流水线的速度。

对于非常小的数据集,可以离线预先计算扩增的数据集,并将整个预处理的数据集加载到内存中。

但这种方法不适用于大多数机器学习训练场景,既耗时又分散了改善推理性能的主要目标。

与其等待更多的数据,不如利用已有的数据来使加速器保持忙碌状态。

在加速器空置50%情况下,预处理batch的第一个优化步骤之后,我们可以重复利用该batch再进行一次训练。

如果重复数据与新数据一样有用,训练效率会提高一倍。

实际上,由于重复数据不如新数据有用,因此数据回波提供的加速要小一些,但和加速器处于空闲状态相比,仍然可以提供明显的加速。

通常有几种方法可以在给定的神经网络训练管道中实现数据回波。

Google提出的技术,是将数据复制到训练管道中某个位置的随机缓冲区中,无论在哪个阶段产生瓶颈之后,都可以将缓存数据插入任意位置。

数据回波在样本级别对数据进行混洗,而batch回波则对重复批次的序列进行混洗。另外还可以在数据扩充之前插入缓冲区,以使重复数据的每个副本略有不同,因此不是简单机械重复,而是更接近一个新样本。

加速3倍多,精度无损失

那么数据回波到底多有用呢?

Google在五个神经网络训练管道上尝试了数据回波,涵盖了图像分类、语言建模和目标检测3个不同的任务,并测量了达到特定性能目标所需的新样本数量。

Google发现,数据回波可以用更少的新样本来达到目标性能,这表明重复使用数据对于降低磁盘I/O很有用。在某些情况下,重复数据几乎与新数据一样有用。

在ImageNet的ResNet-50训练任务中,数据回波可以显著提高训练速度,加速了3倍以上。

从云存储中读取一批训练数据所花的时间是使用每一批数据执行训练步骤的6倍。因此数据最多可以重复5次。

我们将回波因子定义为重复每个数据项的次数,对于以上任务,回波因子最大是5。如果重复样本与新样本一样有用,则应该带来6倍加速,而实际上只加速了3.25倍,但也相当可观。

可能有人会担心重复使用数据会损害模型的最终性能,但实验发现,测试的任何工作负载,数据回波都不会降低最终模型的质量。

随着GPU和TPU性能的继续提升,和通用处理器的差距会越来越大,Google期望数据回波和类似策略将成为神经网络培训工具包中越来越重要的一部分。

怎么样,谷歌AI的这项最新研究,是不是也给你训练神经网络带来一些新启发?

论文地址:
https://arxiv.org/abs/1907.05550

博客地址:
https://ai.googleblog.com/2020/05/speeding-up-neural-network-training.html

作者系网易新闻·网易号“各有态度”签约作者

喜欢就点「在看」吧 !

为了不让GPU等CPU,谷歌提出“数据回波”榨干GPU空闲时间,训练速度提升3倍多...相关推荐

  1. 谷歌提出“数据回波”榨干GPU空闲时间,训练速度提升3倍多

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作分享,不代表本公众号立场,侵权联系删除 转载于:量子位 AI博士笔记系列推荐 周志华<机器学习>手推 ...

  2. 阿里公开自研AI集群细节:64个GPU,百万分类训练速度提升4倍

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟  报道  | 公众号 CVLianMeng 转载于 :量子位 AI博士笔记系列推 ...

  3. 单机训练速度提升高达640倍,快手开发GPU广告模型训练平台

    作者|廉相如(快手FeDA智能决策实验室 ) 如何有效处理大规模用户数据进行广告推荐?对于互联网企业的发展和进步至关重要.这也是为何快手成立西雅图实验室并实现新一代GPU广告模型训练平台的原因之一.快 ...

  4. 旷视孙剑博士提出LGD,训练速度提升51%,适用于目标检测的知识蒸馏

    来源:新智元 [导读]知识蒸馏已经成了目前常用的模型压缩方法,但相关研究还局限在图像分类任务上.最近旷视孙剑博士联手西安交大发表了一篇论文,提出新模型LGD,无需一个强力的teacher模型也能在目标 ...

  5. AI一分钟 | 李开复:AI创业公司估值今年会降20%~30%;谷歌让搜索结果加载速度提升两倍...

    ▌李开复:AI 创业公司估值今年会降 20%~30% 创新工场创始人李开复的新书<AI·未来>昨天正式全球发售,在发布现场,李开复谈到目前国内 AI 创业企业现状时表示,今年国内 AI 创 ...

  6. 谷歌发布TF新工具:计算速度提升2倍,减少无效参数

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 一顿操作后,需要实时模糊背景的视频,看起来流畅了不少: 实时目标检测的延迟也更低了: 这是谷歌特意为移动设备和Web端开发的一系列新工具,可 ...

  7. 谷歌提出新分类损失函数:将噪声对训练结果影响降到最低

    晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 训练数据集里的标签通常不会都是正确的,比如图像分类,如果有人错误地把猫标记成狗,将会对训练结果造成不良的影响. 如何在不改变训练样本的情况 ...

  8. GPU和CPU芯片区别:为何要用GPU挖矿?

    CPU和GPU之所以大不相同,是由于其设计目标的不同,它们分别针对了两种不同的应用场景.CPU需要很强的通用性来处理各种不同的数据类型,同时又要逻辑判断又会引入大量的分支跳转和中断的处理.这些都使得C ...

  9. GPU 编程 CPU 异同点_GPU编程6--CPU与GPU的区别

    我们学习GPU编程,肯定都是要有CPU编程的基础,不可能连C都不会就直接学习GPU,因此,我们这一节就来讲一下CPU与GPU的不同,可以让大家更好的了解GPU编程. 硬件架构不同,以Intel的某款8 ...

最新文章

  1. [转]:xmake插件开发之色彩高亮显示
  2. 2.6 mailx邮件
  3. linux是否有免安装程序,在线Ubuntu Linux系统,免安装体验Linux系统
  4. k8s中流量分离以及资源隔离实战
  5. 微软开源的Trill是什么?
  6. 已婚男人看见美女都这个眼神?
  7. oracle导库需要删除原始库,导入dmp文件时,需要删除原有ORACLE数据库实例
  8. 计算机专业的英语文献,计算机专业英语论文参考文献
  9. Javascript 中 Array.push 要比 Array.concat 快 945 倍
  10. mysql 生成日历表_如何在SQL中创建100年的日历表
  11. windows库的创建和使用:静态库+动态库
  12. 关于Android发送邮件
  13. Linux命令行大小写转换
  14. pygame安装教程(window)
  15. 【建议收藏】产品经理面试题合集
  16. 教你制作第一个C++游戏!#1 引入
  17. python 大文件分片上传_Python实现大文件分片上传
  18. Jetson Nano使用yolov4-Tiny进行目标检测
  19. 【bzoj1123】BLO
  20. 温度换算(C/C++/Java)

热门文章

  1. 【数据结构】双链表的应用
  2. 【MATLAB】符号数学计算(一):符号对象的创建
  3. 阿里亲制明信片,字节、百度直接发锅……这些公司的新年礼盒越来越会玩~
  4. 百度携手同济大学,瞄准AI、智慧交通等核心科技领域攻关
  5. 当 AI 闯入法律界,第一步是当律师的得力助手
  6. 一周内咸鱼疯转2.4W次,最终被所有大厂封杀!
  7. AI+DevOps正当时
  8. 这就是芬兰:先让全国1%的人学起AI!
  9. 算法和编程面试题精选TOP50!(附代码+解题思路+答案)
  10. 喜大普奔!TensorFlow终于支持A卡了