OpenAI披露最新研究成果：AI训练如何扩展到更大规模？

我们发现，梯度噪声尺度（gradient noise scale），作为一种简单的统计量，可以预测神经网络训练在诸多任务上的并行性。由于复杂的任务往往具有更强噪声的梯度，因此增长的大批次规模可能在未来变得更加有用，也消除了AI系统进一步发展的一个潜在限制。更广泛地说，这些结果表明，神经网络训练并不需要被看成一门神秘的艺术，而是可以得到严格的规范化和系统化。

在过去几年内，AI研究人员采用数据并行化技术——将大批次数据分散到很多台机器上，在加速神经网络训练方面不断取得成功。研究人员成功地使用成千上万个批次进行图像分类和语言建模，甚至使用数百万个批次训练RL代理来玩Dota2游戏。这些大批次使单个模型的训练中能够具有越来越多的计算量，成为AI训练计算快速增长的重要推动者。然而，过大的批次规模呈现出算法回报快速降低的情况，而且不清楚为什么对某些任务来说这些限制过大，而对其他任务来说这些限制又过小[1]。

梯度噪声尺度（基于训练的近似平均）解释了跨六个数量级的一系列任务中关键批次大小的绝大多数变化（r^2 = 80%）。批次大小采用图像、令牌（用于语言模型）、或观察值（用于游戏）的数量来衡量。

我们发现，通过测量梯度噪声尺度——一个可用于量化网络梯度信噪比[2]的简单统计量，我们可以近似预测最有效的批次大小。受其启发，噪声尺度度量了数据中能够被模型观测到的变化（在给定的训练阶段）。当噪声尺度小时，快速地并行查看大量数据变得冗余；而当噪声尺度大时，我们仍能够从大批次的数据中学到很多信息。

这种类型的统计量被广泛应用于样本大小选择，并被提出用于深度学习，但是还没有被系统地度量或应用于现代模型训练运行。我们在上图所示各种机器学习任务上验证了这种预测，包括图像识别、Atari游戏和Dota。具体来说，我们在这些任务中采用各种批次大小进行训练（每个任务单独调整学习率），并将训练加速与噪声尺度预测出来的结果进行比较。由于大批量通常需要仔细昂贵的调整或特殊的学习率规划才能有效，因此提前预知上限给训练新模型提供了重大的实践价值。

我们发现，训练的挂钟时间和用于训练的总体计算量（与美元成本成比例）之间的折中对比，有助于可视化这些实验结果。在非常小的批次大小情形中，增大一倍的批次大小能减半训练时间的同时不带来额外的计算（用一半的时长跑两倍的数据）。在非常大的批次大小情形中，更多的并行化并不会导致更快的训练。曲线的中间有一个“拐弯”，而梯度噪声尺度预测了拐弯发生的位置。

提高并行度使得在合理的时间内训练更复杂的模型成为可能。我们发现Pareto前沿图是可视化算法与尺度之间的比较的最直观方式。

我们通过设置性能水平（如Beam Rider的Atari游戏中的得分为1000），制作了这些曲线，查看不同批次大小下训练达到该性能所需要的时间。这些结果与我们的模型预测结果，在大量不同性能目标值情况下，都匹配地相当好。

达到给定分数所需的经验和训练时间之间的折中是可以预测的。

梯度噪声尺度中的模式

在梯度噪声尺度中，我们观测到了几种模式，从而为AI训练未来可能有的样子提供了一些线索。

首先，在我们的实验中，噪声尺度通常在训练过程中增加一个数量级或更多。直观地说，这意味着，网络在训练早期会从任务中学习更“明显”的特征，而在后期学习更加复杂的特征。例如，在图像分类情形中，网络首先可能学习识别小尺度的特征，如大多数图像中呈现的边缘或纹理；而在后期才将这些片段组合成更一般的概念，如猫和狗。为了看到全量的边缘或纹理，网络只需要看少量的图像，因此噪声尺度更小；一旦网络对更大的对象有了更多的理解，它就能够处理更多的图像而不需要看重复的数据。

一些初步迹象表明，这样的效果也发生在同一数据集上的不同模型上：更强大的模型有着更高的梯度噪声尺度，而这仅仅是因为它们进一步减少了损失。因此，有证据表明，训练过程中增加的噪声尺度不只是一个人为收敛假象，而是由于模型变得更好导致的。如果这是真的，那么我们期望，未来更强大的模型具有更高的噪声尺度，因而也更加可并行化。

其次，主观上更困难的任务也更易于并行化。在有监督学习场景中，从MNIST到SVHN，到ImageNet都有明显的进步。在强化学习场景中，从Atari Pong到Dota 1v1，到Dota 5v5也有明显的进步，其中最优批次大小相差10,000倍以上。因此，随着AI发展至处理新的和更困难的任务，我们期望模型能够容忍更高的批次大小。

启发

数据并行度显著影响了AI能力的前进速度。更快的训练使得构建更强大的模型成为可能，并通过更快的迭代来加速研究。

在更早的AI和计算的研究中，我们观察到，用于训练最大的机器学习模型的计算，每3.5个月翻一番；这种趋势是由经济学（肯花多少钱用于计算）以及算法并行训练的能力共同驱动的。后一个因素（算法的可并行化能力）更难以预测，其限制也没有得到很好地理解，而我们当前的研究成果则是朝着系统化和量化它前进了一步。特别是，我们有证据表明，更加复杂的任务和相同任务上更加强大的模型，将容许比我们迄今所看到的更激进的数据并行性，从而为训练计算的持续快速指数级增长提供关键的驱动力（这甚至还没有考虑最近模型并行化的进展，它有可能在数据并行化之上考虑更进一步的并行化）。

训练计算的持续增长以及可预测的算法基础，进一步突出了未来几年AI能力快速增长的可能性，也强调了研究确保AI系统的安全性以及负责任地使用它们的紧迫性。AI政策的一个核心挑战是，如何使用像这样的度量来预测未来AI系统的特点，并使用这些知识来构思相应的政策让社会最大化AI技术的正面影响和最小化它们的负面影响。

OpenAI致力于，继续严格分析使我们对AI的未来有所预见，并采取措施解决分析出来的问题。

如果你想学习“AI科学”，并帮助我们实现更加数据驱动的神经网络训练，请考虑申请OpenAI的工作。

[1] 与本文平行的一份补充研究，对大批次训练进行了细致的实验测试，并对之前的文献进行了全面的回顾，清理了早期工作中诸多不一致的地方。他们发现，潜在的并行性在任务之间存在显著差异，我们的工作似乎解释了这种差异的主要部分。他们的工作也建议，大批次训练不会影响泛化能力。我们相信本文和其他研究中的系统调研对这个领域非常有价值，我们也会致力于继续研究“AI科学”。

查看英文原文：How AI Training Scales（https://blog.openai.com/science-of-ai/）

OpenAI披露最新研究成果：AI训练如何扩展到更大规模？相关推荐

OpenAI 首个研究成果生成式模型系列
OpenAI 首个研究成果生成式模型系列字数4628 阅读932 评论2 喜欢4 OpenAI 现在第一个研究成果已经公开:这四个项目有着同样的主题--那就是加强或者使用了生成式模型. 生成式模 ...
NeurIPS 2019年十篇机器学习领域的论文解读：来自谷歌、Facebook、普林斯顿大学、斯坦福大学最新研究成果
本文整理总结了NeurIPS 2019上十篇机器学习领域的论文,这些论文来自谷歌.Facebook.普林斯顿大学.斯坦福大学等团队的最新研究成果,供大家参考学习. Differentiable Ran ...
港科夜闻｜香港科大唐本忠院士团队整合最新研究成果：刺激响应型聚集诱导发光材料...
关注并星标每周阅读港科夜闻建立新视野开启新思维 1.香港科大唐本忠院士团队整合最新研究成果:刺激响应型聚集诱导发光材料.香港科大唐本忠院士和浙江大学团队,从不同刺激响应类型,如力.光.极性.温度 ...
阿里云视频云视频增强领域最新研究成果入选国际顶级学术会议
ICASSP 2022(International Conference on Acoustics, Speech and Signal Processing)是全球最全面的信号处理及其应用方面的顶级 ...
HIV艾滋最新研究成果进展（2021年11月）
自 1981 年首例艾滋病病例报告以来,人类和艾滋病的抗争已持续 40 年.时至今日,艾滋病仍是一项重要的全球公共卫生问题.联合国艾滋病规划署相关报告显示,2020年全球约有150 万新发 HIV 感 ...
网易云信AI音频最新研究成果获世界顶级学术会议 ICASSP 2022 认可
近日,全球顶级音频技术会议 ICASSP 2022 公布了论文入选名单.网易云信音频实验室论文--<一种针对实时通信的基于神经网络的啸叫检测方法>(A Neural Network-bas ...
像人类一样理解言外之意，阿里AI最新研究成果被国际顶会收录
AI的语言理解能力又进一步了!7月30日,在全球线上举行的人工智能顶会SIGIR 2020上,阿里巴巴研究团队表现突出,共有29项研究成果入选,是全球论文数量最多的科技公司.据悉,阿里在多个成果中展现 ...
腾讯安全科恩实验室发布最新研究成果，针对奔驰车载娱乐系统的安全研究
5月12日,腾讯安全科恩实验室发布<梅赛德斯-奔驰汽车信息安全研究综述报告>(以下简称<报告>),这是安全研究机构首次对现代车载娱乐系统进行全面的安全性分析,对指引车企完善网联 ...
DeepMind最新研究：AI击败了人类，设计了更好的经济机制
"人类面临的许多问题并不仅仅是技术问题,还需要我们为了更大的利益在社会和经济中进行协调.""要想人工智能技术能够提供帮助,它需要直接学习人类的价值观." --D ...

OpenAI披露最新研究成果：AI训练如何扩展到更大规模？

梯度噪声尺度中的模式

启发

OpenAI披露最新研究成果：AI训练如何扩展到更大规模？相关推荐

最新文章

热门文章