作者:Pratik Bhavsar

编译:ronghuaiyang

来自:AI公园

导读

如果这21个问题你全部了解的话,你对最新的NLP进展的了解已经过关了。

2018年10月BERT发布之后发生了很多事情。

你知道BERT的掩码语言模型是老派模型吗?

你知道注意力的计算不需要平方时间复杂度吗?

你知道你可以偷用谷歌的模型吗?

我们这一代人中一些最聪明的人一直在紧张地工作,并有大量的产出!NLP现在是最性感的领域????

NLProc已经走了很长的路。

我们需要另一个总结!!

这20个问题会测试你对NLP当前状态的更新程度的了解,并为任何技术讨论做好准备。


什么是最新的预训练模型(PTM)?

https://arxiv.org/pdf/2003.08271.pdf

PTMs的训练任务是什么?

https://arxiv.org/pdf/2003.08271.pdf

在GLUE上,最好的PTMs是什么?

https://arxiv.org/pdf/2003.08271.pdf

更多的数据是不是总是可以得到更好的语言模型?

T5论文说不是的,质量比数量更重要。

https://arxiv.org/pdf/1910.10683.pdf

什么tokenisation方法对于训练语言模型是最好的?

这篇文章:https://arxiv.org/pdf/2004.03720.pdf,说一种新的方法Unigram LM要比BPE和WordPiece更好一些。

训练语言模型的最好的任务是什么

目前最好的方法是ELECTRA→在生成器的帮助下替换输入token,然后使用识别器来预测哪个token被替换了。

https://arxiv.org/pdf/2003.10555.pdf

https://arxiv.org/pdf/2003.10555.pdf

Also T5论文还说, dropping a span为3是最好的。

https://arxiv.org/pdf/1910.10683.pdf

Transformer训练的时候是否需要逐步的解冻参数?

T5 论文说不需要。

https://arxiv.org/pdf/1910.10683.pdf

如果你有固定的训练预算,你会通过改变什么来得到更好的语言模型?

T5 paper建议同时提升训练的步数和模型的大小。

https://arxiv.org/pdf/1910.10683.pdf

如果你的序列长度超过了512,你会用什么模型?

Transformer-XL或者Longformer

Transformer的处理时间随着序列的长度是怎么扩展的?

平方扩展。

如何降低长文档的transformers处理时间,因为它是序列长度的二次函数?

Longformer使用了一种随着序列长度线性扩展的注意力机制。

https://arxiv.org/pdf/2004.05150.pdf

Longformer在语义搜索中对编码长文档非常有用。下表显示了到目前为止所做的工作。

https://arxiv.org/pdf/2004.05150.pdf

BERT表现这么好是因为注意力层吗?

论文Attention is not Explanation认为注意力没有正确地与输出相关,因此我们不能说由于注意机制,模型的表现更好。

如果我们去掉一个注意力头,BERT的表现会下降很多吗?

不会 —见论文 Revealing the Dark Secrets of BERT

如果我们去掉一层,BERT的表现会下降很多吗?

不会 —见论文 Revealing the Dark Secrets of BERT

如果我们随机初始化BERT,BERT的表现会下降很多吗

不会 —见论文 Revealing the Dark Secrets of BERT

我们真的需要模型压缩吗?

也许不是!这篇文章的笔记:http://mitchgordon.me/machine/learning/2020/01/13/do-we-really-need-model-compression.html。

“模型压缩技术通过解释过度参数化模型趋向于收敛的结果类型,给我们一个关于如何训练适当参数化模型的提示。模型压缩有很多种类型,每一种都利用了一种不同类型的“简单性”,这种“简单性”通常在训练过的神经网络中可以找到:

  • 许多权重接近于零(修剪)

  • 权重矩阵是低秩的(权重分解)

  • 权重能只用几个位表示(量化)

  • 层通常学习类似的功能(权重共享)

如果暴露为API,我们可以偷一个模型来用吗?

可以的Y → 在这里解释了:http://www.cleverhans.io/2020/04/06/stealing-bert.html

当前蒸馏的最新进展是什么样的?

https://arxiv.org/pdf/2003.08271.pdf

更大的Transformer模型训练起来比小的更快?

更大的模型更快,见这篇文章:https://bair.berkeley.edu/blog/2020/03/05/compress/.

student-teacher框架的应用是什么?

Knowledge distillation用来产生更小的模型。

https://arxiv.org/pdf/1909.10351.pdf

对于不同的语言产生相似句子嵌入:https://arxiv.org/pdf/2004.09813v1.pdf

https://arxiv.org/pdf/2004.09813v1.pdf

如何设计模型?哪些是更重要的参数

这是一个很难回答的问题!所有这些都在“Scaling Laws for Neural Language Models”:https://arxiv.org/pdf/2001.08361.pdf中得到了解释

  • 测试损失 Vs 计算

  • 测试损失 Vs 数据集大小

  • 测试损失 Vs 参数

要设计和训练一个模型,首先要确定架构。然后得到它的参数量。由此,你可以计算出损失。然后选择所需的数据大小和计算量。

看一下图中的比例方程。

Scaling Laws for Neural Language Models


最后…

我希望你们能像我一样通过这些问题学到很多东西。要成为更好的NLP工程师,我们需要对快速发展的迁移学习有更深的理解。我相信这些想法会让你忙上几周????????????

添加个人微信,备注:昵称-学校(公司)-方向,即可获得

1. 快速学习深度学习五件套资料

2. 进入高手如云DL&NLP交流群

记得备注呦

你对NLP的迁移学习爱的有多深?21个问题弄懂最新的NLP进展。相关推荐

  1. nlp mrc的损失是什么_你对NLP的迁移学习爱的有多深?21个问题弄懂最新的NLP进展...

    作者:Pratik Bhavsar 编译:ronghuaiyang 导读 如果这21个问题你全部了解的话,你对最新的NLP进展的了解已经过关了. 2018年10月BERT发布之后发生了很多事情. 你知 ...

  2. 【综述】NLP领域迁移学习现状

    跟着博主的脚步,每天进步一点点 NAACL 2019 tutorial 完整呈现 翻译 | 栗 峰 校对 | 杨晓凡 在过去一年多的时间里,以预训练模型形式进行的迁移学习已经成为NLP领域的主流,许多 ...

  3. 入门学习次世代游戏3D建模,你必须弄懂这10件事情

    很多想学习3D建模的小伙伴,对于游戏行业和入行标准等信息都够不了解,今天,就为大家整理了一份新手想入行必备的攻略,快快看下来吧! 游戏3D建模行业前景怎么样? 钱途怎么样? 次世代近几年游戏市场一直保 ...

  4. 入门学习次世代游戏3D建模,你应该弄懂这10件事情

    很多想学习3D建模的小伙伴,对于游戏行业和入行标准等信息都够不了解,今天,就为大家整理了一份新手想入行必备的攻略,快快看下来吧! 游戏3D建模行业前景怎么样? 钱途怎么样? 次世代近几年游戏市场一直保 ...

  5. 业界首个面向NLP场景深度迁移学习框架

    机器之心发布 机器之心编辑部 阿里云正式开源了深度迁移学习框架 EasyTransfer,本文详细介绍了 EasyTransfer 框架的核心功能 近日,阿里云正式开源了深度迁移学习框架 EasyTr ...

  6. 谷歌提出“T5” 新NLP模型,突破迁移学习局限,多基准测试达SOTA!

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 转载自:AI科技评论 过去几年间,迁移学习给 NLP 领域带来了丰硕的成果,掀起了 ...

  7. AI体验馆上线!集成业界领先NLP场景深度迁移学习框架EasyTransfer

    简介:2020年10月,阿里云正式开源了深度迁移学习框架EasyTransfer,这是业界首个面向NLP场景的深度迁移学习框架. 目前集合该能力的AI体验馆已正式上线,免费体验:https://wor ...

  8. 阿里云开源EasyTransfer:业界首个面向NLP场景深度迁移学习框架

    阿里云开源EasyTransfer:业界首个面向NLP场景深度迁移学习框架 原文链接:https://zhuanlan.zhihu.com/p/267392773 阿里云正式开源了深度迁移学习框架 E ...

  9. 阿里云开源业界首个面向NLP场景深度迁移学习框架

    2020-10-21 12:55:23 机器之心发布 机器之心编辑部 阿里云正式开源了深度迁移学习框架 EasyTransfer,本文详细介绍了 EasyTransfer 框架的核心功能 近日,阿里云 ...

  10. 官方解读,谷歌“T5”模型,如何突破迁移学习局限,实现多基准测试SOTA

    2020-02-25 14:35 导语:实现多基准测试SOTA. 过去几年间,迁移学习给 NLP 领域带来了丰硕的成果,掀起了新一波的发展浪潮.而迁移学习之所以如此有效,得益于其利用自监督任务(如语言 ...

最新文章

  1. 关于JS 事件冒泡和onclick,click,on()事件触发顺序
  2. windows mysql dump_mysql在Windows下使用mysqldump命令手动备份数据库和自动备份数据库...
  3. 字节Java高工面试:java软件开发工程师的市场薪资
  4. 产品观,来自微信张小龙的
  5. leetcode 7整数反转和leetcode 9回文数
  6. ida调试linux程序,MAC使用IDA PRO远程调试LINUX程序
  7. JAVA Metrics 度量工具使用介绍
  8. MATLAB 生成随机数
  9. 计算机组成原理习题集
  10. 腾讯内部出品Android编程入门教程,快快收藏吧!!!
  11. 一个整数“犯二的程度”
  12. 计算机的玩法教程,第五人格电脑版怎么玩 电脑版玩法教程
  13. 华为云迁移工具推荐最佳实践:Xen虚拟化迁移到华为云
  14. 矩阵分析之Householder Reduction
  15. jstack 命令的使用和问题排查分析思路
  16. 医院财务会计的互联网变革
  17. mysql heartbeat 慢_当master down掉后,pt-heartbeat不停重试会导致内存缓慢增长_mysql
  18. 从《青云志》看完美世界如何玩转影游联动,打造S级手游
  19. VC2012下MFC程序各控件的常用方法
  20. Openjudge1.3答案

热门文章

  1. java-设计模式(行为型)-【命令模式】
  2. individual program总结2.0
  3. C++ 求解一整数划分问题
  4. 09年关门歇业的15大网站 雅虎旗下4网站上榜
  5. IEWebBrowser
  6. 用pycharm+flask 建立项目以后运行出现ImportError: No module named flask-login问题
  7. Alpine Linux:如何配置GUI的图形桌面环境:x Desktop Environment
  8. JAVA入门[5]-初步搭建SpringMVC站点
  9. C++Builder 解决绘图闪动问题
  10. Task Parallel Library