预印本2020
https://arxiv.org/pdf/2001.08361.pdf

智源大会一个panel中在讨论区,一个同行提到的一篇文章。
我们现在确实比较缺乏,train model 策略理论上的支撑。
这里给出了一个 实验上的结论。
其实,当时Vit的作者提到,他们后续会发一个关于Vision model的 scaling law

做了什么:

从实验上调查,语言模型loss和众多因素的关系,这些因素包括:模型架构,网络模型的size,用来训练的算力,可以用来train模型的有效的数据量。语言任务的high ceiling 和 low floor 导致可以有七个orders of magnitude in scale。

结论的一个总结:

  1. 模型的performance strongly depends on scale ( para-data-compute), weakly depends on model shape(depth & width)
  2. 平滑的幂律,考虑模型参数N,数据集规模D,训练算力C,当一个量不收到另外两个量的瓶颈时,在六个order of magnitude 上, 呈现出比较好的幂律规律,具体的数值,论文中有公式。
  3. 过拟合的普遍性:这是一个再train大模型的时候非常常见的问题。大模型通常指:大的数据集和大的模型参数。通常来说,数据集合模型参数都增加会带来可预见的模型性能增加,但是只增加 数据集或者模型参数,会有收益递减的效果。而他们给出一个公式:则是说,模型增长8倍,通常只需要数据量增加5倍数。
  4. 训练的普遍性:训练曲线大致也是一个幂函数的规律,训练的??这里没太看明白
  5. 训练验证和测试的分布的转换会带来跟好的test performance:就是说,测试的性能和验证集密切相关,而验证集和测试集的分布有差异,虽然会带来一些penalty,但是这样的差异,也使得测试性能和train set的性能更加相似。
  6. 样本效率:大的模型是更加具有 样本效率的,大的模型达到和小的模型相同的性能只需要更少的optimization step 和 fewer data point
  7. 收敛效率底下:当有固定的算力,但是,数据集大小和模型不受限制的时候,我们训练大模型并且很快就停止训练,可以得到理想的解。图三说明了一个事情,当有固定的算力时候,增大模型所带来的性能提升要比增大数据量所带来的性能提升快。
  8. 理想的batch size:给出了一种方法去计算。

核心: We need larger model

文献阅读--Scaling Laws for Neural Lauguage Models相关推荐

  1. [论文阅读] 《Compiling ONNX Neural Network Models Using MLIR》

    文章目录 <Compiling ONNX Neural Network Models Using MLIR> 要解决的问题 名字由来 解决方法 <Compiling ONNX Neu ...

  2. 【文献阅读】Augmenting Supervised Neural Networks with Unsupervised Objectives-ICML-2016

    一.Abstract 从近期对unsupervised learning 的研究得到启发,在large-scale setting 上,本文把unsupervised learning 与superv ...

  3. 文献阅读课14-DIAG-NRE: A Neural Pattern Diagnosis Framework for远程监督关系抽取,模式标注去噪自动化,FN,FP,RL

    文章目录 abstract 1. Introduction 2.相关工作 3.方法 3.1 NRE Models 3.2 Pattern Extraction 3.3 Pattern Refinemen ...

  4. [文献阅读]—Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation

    前言 论文地址:https://arxiv.org/pdf/1611.04558v1.pdf 代码地址:无233 前人工作&存在问题 前人实现multilingual NMT的方法: 为每一个 ...

  5. 文献阅读:Scaling Instruction-Finetuned Language Models

    文献阅读:Scaling Instruction-Finetuned Language Models 1. 文章简介 2. 实验 1. 数据集 & 模型 1. 数据集考察 2. 使用模型 2. ...

  6. 文献阅读:Improving neural networks by preventing co-adaptation of feature detectors

    文献阅读:Improving neural networks by preventing co-adaptation of feature detectors ----通过防止特征检测器的共适应以改进 ...

  7. 文献阅读(60)ACL2021-Attention Calibration for Transformer in Neural Machine Translation

    本文是对<Attention Calibration for Transformer in Neural Machine Translation>一文的浅显翻译与理解,如有侵权即刻删除. ...

  8. 文献阅读(63)NIPS2012-ImageNet Classification with Deep Convolutional Neural Networks

    本文是对<ImageNet Classification with Deep Convolutional Neural Networks>一文的浅显翻译与理解,如有侵权即刻删除. 更多相关 ...

  9. [文献阅读报告]:Take-over Time Prediction for Autonomous Driving in the Real-World: Robust Models, Data Aug

    [文献阅读报告]:Take-over Time Prediction for Autonomous Driving in the Real-World: Robust Models, Data Aug ...

  10. 文献阅读(24)KDD2020-GCC:Graph Contrastive Coding for Graph Neural Network Pre-Training

    本文是对<Graph Contrastive Coding for Graph Neural Network Pre-Training>一文的浅显翻译与理解,如有侵权即刻删除. 朋友们,我 ...

最新文章

  1. 【转】RelativeLayout和LinearLayout及FrameLayout性能分析
  2. 正态分布的前世今生(一)
  3. GSM网络与CDMA网络话务量、基站容量相关计算
  4. Elasticsearch基础(五)搜索匹配
  5. logistic回归__基于Python和Numpy函数库
  6. 【rmzt】阳光美女win7主题
  7. mysql 数据库建模工具 mysqlworkbench
  8. 计算机专业学习目标计划怎么写,制定计算机学习计划范文3篇
  9. linux yum安装驱动,centos8安装alsa驱动
  10. vnc以及xfce安装\xrdp连接
  11. 逐鹿中原传奇服务器维护,逐鹿中原六十九区服务端
  12. java传递指针_Java:通过指针传递参数
  13. 统计自然语言处理基础-第三章 语言学基础(笔记)
  14. linux opengl es,OpenGL ES之GLFW窗口搭建
  15. Python如何让其他人通过局域网来访问你的本地的ip
  16. 各种智能卡(IC 卡、PSAM卡、CPU卡、M1卡、CPC卡)
  17. DSP应用学习:定点DSP的小数运算方法—Q格式
  18. 5大JavaScript前端框架简介
  19. 使用IDEA打包war包,并部署到Tomcat中(原创转载请附上博文链接)
  20. codves 2547 东方辉针城

热门文章

  1. 电流继电器的分类和原理
  2. 野蛮人传教士问题(上)
  3. 怎样的100位区块链开发者,入选这份严苛至极的特训名单?
  4. html页面会出现浏览器崩溃,电脑出现页面崩溃怎么解决
  5. Mosquitto修改默认端口port
  6. 特殊教育学校计算机教学计划,2017年特殊教育学校教学计划
  7. java 判断是否为英文字母_java判断是否是26个英文字母代码示例
  8. 用计算机打元宵节快乐,2019元宵节祝福语大全简短 祝大家元宵节快乐
  9. [置顶] 礼物:《红孩儿引擎内功心法修练与Cocos2d-x》之结点系统(场景,层,精灵)...
  10. php动态网页倒计时代码,js如何实现动态倒计时效果