文献阅读--Scaling Laws for Neural Lauguage Models
预印本2020
https://arxiv.org/pdf/2001.08361.pdf
智源大会一个panel中在讨论区,一个同行提到的一篇文章。
我们现在确实比较缺乏,train model 策略理论上的支撑。
这里给出了一个 实验上的结论。
其实,当时Vit的作者提到,他们后续会发一个关于Vision model的 scaling law
做了什么:
从实验上调查,语言模型loss和众多因素的关系,这些因素包括:模型架构,网络模型的size,用来训练的算力,可以用来train模型的有效的数据量。语言任务的high ceiling 和 low floor 导致可以有七个orders of magnitude in scale。
结论的一个总结:
- 模型的performance strongly depends on scale ( para-data-compute), weakly depends on model shape(depth & width)
- 平滑的幂律,考虑模型参数N,数据集规模D,训练算力C,当一个量不收到另外两个量的瓶颈时,在六个order of magnitude 上, 呈现出比较好的幂律规律,具体的数值,论文中有公式。
- 过拟合的普遍性:这是一个再train大模型的时候非常常见的问题。大模型通常指:大的数据集和大的模型参数。通常来说,数据集合模型参数都增加会带来可预见的模型性能增加,但是只增加 数据集或者模型参数,会有收益递减的效果。而他们给出一个公式:则是说,模型增长8倍,通常只需要数据量增加5倍数。
- 训练的普遍性:训练曲线大致也是一个幂函数的规律,训练的??这里没太看明白
- 训练验证和测试的分布的转换会带来跟好的test performance:就是说,测试的性能和验证集密切相关,而验证集和测试集的分布有差异,虽然会带来一些penalty,但是这样的差异,也使得测试性能和train set的性能更加相似。
- 样本效率:大的模型是更加具有 样本效率的,大的模型达到和小的模型相同的性能只需要更少的optimization step 和 fewer data point
- 收敛效率底下:当有固定的算力,但是,数据集大小和模型不受限制的时候,我们训练大模型并且很快就停止训练,可以得到理想的解。图三说明了一个事情,当有固定的算力时候,增大模型所带来的性能提升要比增大数据量所带来的性能提升快。
- 理想的batch size:给出了一种方法去计算。
核心: We need larger model
文献阅读--Scaling Laws for Neural Lauguage Models相关推荐
- [论文阅读] 《Compiling ONNX Neural Network Models Using MLIR》
文章目录 <Compiling ONNX Neural Network Models Using MLIR> 要解决的问题 名字由来 解决方法 <Compiling ONNX Neu ...
- 【文献阅读】Augmenting Supervised Neural Networks with Unsupervised Objectives-ICML-2016
一.Abstract 从近期对unsupervised learning 的研究得到启发,在large-scale setting 上,本文把unsupervised learning 与superv ...
- 文献阅读课14-DIAG-NRE: A Neural Pattern Diagnosis Framework for远程监督关系抽取,模式标注去噪自动化,FN,FP,RL
文章目录 abstract 1. Introduction 2.相关工作 3.方法 3.1 NRE Models 3.2 Pattern Extraction 3.3 Pattern Refinemen ...
- [文献阅读]—Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation
前言 论文地址:https://arxiv.org/pdf/1611.04558v1.pdf 代码地址:无233 前人工作&存在问题 前人实现multilingual NMT的方法: 为每一个 ...
- 文献阅读:Scaling Instruction-Finetuned Language Models
文献阅读:Scaling Instruction-Finetuned Language Models 1. 文章简介 2. 实验 1. 数据集 & 模型 1. 数据集考察 2. 使用模型 2. ...
- 文献阅读:Improving neural networks by preventing co-adaptation of feature detectors
文献阅读:Improving neural networks by preventing co-adaptation of feature detectors ----通过防止特征检测器的共适应以改进 ...
- 文献阅读(60)ACL2021-Attention Calibration for Transformer in Neural Machine Translation
本文是对<Attention Calibration for Transformer in Neural Machine Translation>一文的浅显翻译与理解,如有侵权即刻删除. ...
- 文献阅读(63)NIPS2012-ImageNet Classification with Deep Convolutional Neural Networks
本文是对<ImageNet Classification with Deep Convolutional Neural Networks>一文的浅显翻译与理解,如有侵权即刻删除. 更多相关 ...
- [文献阅读报告]:Take-over Time Prediction for Autonomous Driving in the Real-World: Robust Models, Data Aug
[文献阅读报告]:Take-over Time Prediction for Autonomous Driving in the Real-World: Robust Models, Data Aug ...
- 文献阅读(24)KDD2020-GCC:Graph Contrastive Coding for Graph Neural Network Pre-Training
本文是对<Graph Contrastive Coding for Graph Neural Network Pre-Training>一文的浅显翻译与理解,如有侵权即刻删除. 朋友们,我 ...
最新文章
- 【转】RelativeLayout和LinearLayout及FrameLayout性能分析
- 正态分布的前世今生(一)
- GSM网络与CDMA网络话务量、基站容量相关计算
- Elasticsearch基础(五)搜索匹配
- logistic回归__基于Python和Numpy函数库
- 【rmzt】阳光美女win7主题
- mysql 数据库建模工具 mysqlworkbench
- 计算机专业学习目标计划怎么写,制定计算机学习计划范文3篇
- linux yum安装驱动,centos8安装alsa驱动
- vnc以及xfce安装\xrdp连接
- 逐鹿中原传奇服务器维护,逐鹿中原六十九区服务端
- java传递指针_Java:通过指针传递参数
- 统计自然语言处理基础-第三章 语言学基础(笔记)
- linux opengl es,OpenGL ES之GLFW窗口搭建
- Python如何让其他人通过局域网来访问你的本地的ip
- 各种智能卡(IC 卡、PSAM卡、CPU卡、M1卡、CPC卡)
- DSP应用学习:定点DSP的小数运算方法—Q格式
- 5大JavaScript前端框架简介
- 使用IDEA打包war包,并部署到Tomcat中(原创转载请附上博文链接)
- codves 2547 东方辉针城
热门文章
- 电流继电器的分类和原理
- 野蛮人传教士问题(上)
- 怎样的100位区块链开发者,入选这份严苛至极的特训名单?
- html页面会出现浏览器崩溃,电脑出现页面崩溃怎么解决
- Mosquitto修改默认端口port
- 特殊教育学校计算机教学计划,2017年特殊教育学校教学计划
- java 判断是否为英文字母_java判断是否是26个英文字母代码示例
- 用计算机打元宵节快乐,2019元宵节祝福语大全简短 祝大家元宵节快乐
- [置顶] 礼物:《红孩儿引擎内功心法修练与Cocos2d-x》之结点系统(场景,层,精灵)...
- php动态网页倒计时代码,js如何实现动态倒计时效果