文献阅读--Scaling Laws for Neural Lauguage Models

预印本2020
https://arxiv.org/pdf/2001.08361.pdf

智源大会一个panel中在讨论区，一个同行提到的一篇文章。
我们现在确实比较缺乏，train model 策略理论上的支撑。
这里给出了一个实验上的结论。
其实，当时Vit的作者提到，他们后续会发一个关于Vision model的 scaling law

做了什么：

从实验上调查，语言模型loss和众多因素的关系，这些因素包括：模型架构，网络模型的size，用来训练的算力，可以用来train模型的有效的数据量。语言任务的high ceiling 和 low floor 导致可以有七个orders of magnitude in scale。

结论的一个总结：

模型的performance strongly depends on scale ( para-data-compute), weakly depends on model shape(depth & width)
平滑的幂律，考虑模型参数N，数据集规模D，训练算力C，当一个量不收到另外两个量的瓶颈时，在六个order of magnitude 上，呈现出比较好的幂律规律，具体的数值，论文中有公式。
过拟合的普遍性：这是一个再train大模型的时候非常常见的问题。大模型通常指：大的数据集和大的模型参数。通常来说，数据集合模型参数都增加会带来可预见的模型性能增加，但是只增加数据集或者模型参数，会有收益递减的效果。而他们给出一个公式：则是说，模型增长8倍，通常只需要数据量增加5倍数。
训练的普遍性：训练曲线大致也是一个幂函数的规律，训练的？？这里没太看明白
训练验证和测试的分布的转换会带来跟好的test performance：就是说，测试的性能和验证集密切相关，而验证集和测试集的分布有差异，虽然会带来一些penalty，但是这样的差异，也使得测试性能和train set的性能更加相似。
样本效率：大的模型是更加具有样本效率的，大的模型达到和小的模型相同的性能只需要更少的optimization step 和 fewer data point
收敛效率底下：当有固定的算力，但是，数据集大小和模型不受限制的时候，我们训练大模型并且很快就停止训练，可以得到理想的解。图三说明了一个事情，当有固定的算力时候，增大模型所带来的性能提升要比增大数据量所带来的性能提升快。
理想的batch size：给出了一种方法去计算。

核心： We need larger model

文献阅读--Scaling Laws for Neural Lauguage Models相关推荐

[论文阅读] 《Compiling ONNX Neural Network Models Using MLIR》
文章目录 <Compiling ONNX Neural Network Models Using MLIR> 要解决的问题名字由来解决方法 <Compiling ONNX Neu ...
【文献阅读】Augmenting Supervised Neural Networks with Unsupervised Objectives-ICML-2016
一.Abstract 从近期对unsupervised learning 的研究得到启发,在large-scale setting 上,本文把unsupervised learning 与superv ...
文献阅读课14-DIAG-NRE: A Neural Pattern Diagnosis Framework for远程监督关系抽取，模式标注去噪自动化,FN,FP，RL
文章目录 abstract 1. Introduction 2.相关工作 3.方法 3.1 NRE Models 3.2 Pattern Extraction 3.3 Pattern Reﬁnemen ...
[文献阅读]—Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation
前言论文地址:https://arxiv.org/pdf/1611.04558v1.pdf 代码地址:无233 前人工作&存在问题前人实现multilingual NMT的方法: 为每一个 ...
文献阅读：Scaling Instruction-Finetuned Language Models
文献阅读:Scaling Instruction-Finetuned Language Models 1. 文章简介 2. 实验 1. 数据集 & 模型 1. 数据集考察 2. 使用模型 2. ...
文献阅读：Improving neural networks by preventing co-adaptation of feature detectors
文献阅读:Improving neural networks by preventing co-adaptation of feature detectors ----通过防止特征检测器的共适应以改进 ...
文献阅读（60）ACL2021-Attention Calibration for Transformer in Neural Machine Translation
本文是对<Attention Calibration for Transformer in Neural Machine Translation>一文的浅显翻译与理解,如有侵权即刻删除. ...
文献阅读（63）NIPS2012-ImageNet Classification with Deep Convolutional Neural Networks
本文是对<ImageNet Classification with Deep Convolutional Neural Networks>一文的浅显翻译与理解,如有侵权即刻删除. 更多相关 ...
[文献阅读报告]：Take-over Time Prediction for Autonomous Driving in the Real-World: Robust Models, Data Aug
[文献阅读报告]:Take-over Time Prediction for Autonomous Driving in the Real-World: Robust Models, Data Aug ...
文献阅读（24）KDD2020-GCC：Graph Contrastive Coding for Graph Neural Network Pre-Training
本文是对<Graph Contrastive Coding for Graph Neural Network Pre-Training>一文的浅显翻译与理解,如有侵权即刻删除. 朋友们,我 ...

文献阅读--Scaling Laws for Neural Lauguage Models

做了什么：

结论的一个总结：

文献阅读--Scaling Laws for Neural Lauguage Models相关推荐

最新文章

热门文章