看我看我

这是我翻译这位大佬的第三篇文章了,我的翻译结束,翻译授权见最后。

之前的工作:

  • 图解transformer | The Illustrated Transformer
  • 图解GPT-2 | The Illustrated GPT-2 (Visualizing Transformer Language Models)

这部分内容为我主观注释,和原作无关。

文章目录

  • 看我看我
  • 正文
    • 举个:chestnut: :句子分类
    • 模型结构
      • 模型输入
      • 模型输出
    • 与卷及网络类似
    • Embedding新纪元
      • 简要回顾词嵌入Word Embedding
      • ELMo: 上下文语境很重要
      • ULM-FiT:将迁移学习引入NLP
      • Transformer:超越LSTMs的存在
      • GPT:使用Transformer Decoder的预训练语言模型
    • 迁移到下游任务
    • BERT:不用Decoder了,我们来用encoder
      • 掩码语言模型 Masked Language Model
      • 两个句子的任务
      • 不同任务中的BERT
      • BERT 的特征抽取
    • 带BERT出去炫
  • Jay Alammar's Blog

正文

2018年是NLP模型发展的转折点。我们不断探索单词和句子的表示方法,以求能最好地捕捉其中潜在的语义和关系。此外,NLP领域已经提出了一些功能强大的组件式模型,你可以免费下载,并在自己的模型和pipeline中使用它们(这被称为NLP领域的ImageNet时刻,类似的发展在几年前,计算机视觉领域的机器学习也是这样加速发展起来的)。

我来解释一下:

在CV(Computer Vision)领域,预训练+微调已经应用很久了。他们有在ImageNet上训练好的模型可以直接拿去用。但是在NLP(Natural Language Processing)领域并没有像ImageNet那样大的带标签的数据集,因此NLP领域迟迟没有大型预训模型,还是停留在比较低层次的研究上。

GPT的出现让研究人员看到了曙光,我们使用无标签数据也能做出大模型用于微调。从原来的静态词向量到Transformer的动态词向量,再到使用无标签数据预训练模型并用于微调,简直是开创性的工作。同年又涌现出了BERT。所以那一年真的是开辟了NLP领域工作的新时代。

在后边本文的作者会说“BERT被认为是NLP新时代的开始”,我不是很同意这个说法,我认为GPT是新时代的开始。

ULM-FiT和Cookie Monster没关系,但我一时半会儿没想到别的更适合的表示…….

Cookie Monster是芝麻街里边一个吃饼干的蓝色小怪兽。BERT是芝麻街里另一个黄色的角色。

在这一发展过程中,最新的里程碑工作之一是BERT。BERT被认为标志着NLP新时代的开始 。BERT模型在自然语言处理任务方面打破了多项记录。
BERT论文发布不久之后代码就开源了,还有已经在大型数据集上预训练好的模型可供直接下载。
这是一个重大的发展,BERT模型可以作为一个即插即用的组件,任何人都可以借助它建立一个NLP模型, 从而节省了从头开始训练模型所需的时间、精力、知识和资源。

使用BERT的两个步骤:下载在步骤1中已经在无标签数据上预训练好的模型,只需要考虑步骤2的的微调。

BERT 是建立在近期NLP领域中涌现的许多聪明想法之上的,包括但不限于半监督学习、ELMo、ULMFiT、GPT 和Transformer。

为了正确理解BERT是什么,我们需要了解许多概念。先不去看这些概念,让我们先看看BERT的使用方法。

举个

图解BERT、ELMo(NLP中的迁移学习)| The Illustrated BERT, ELMo, and co.相关推荐

  1. 阿里云开源EasyTransfer:业界首个面向NLP场景深度迁移学习框架

    阿里云开源EasyTransfer:业界首个面向NLP场景深度迁移学习框架 原文链接:https://zhuanlan.zhihu.com/p/267392773 阿里云正式开源了深度迁移学习框架 E ...

  2. JMC | 药物发现中的迁移学习

    导读 药物发现工作中可用于训练计算模型的数据集通常很少.标记数据的稀疏可用性是人工智能辅助药物发现的主要障碍.解决该问题的一种方法是开发可以处理相对异构和稀缺数据的算法.迁移学习是一种机器学习方法,可 ...

  3. 综述:NLP中的深度学习优势

    [简介]自然语言处理(NLP)能够帮助智能型机器更好地理解人类的语言,实现基于语言的人机交流.目前随着计算能力的发展和大量语言数据的出现,推动了使用数据驱动方法自动进行语义分析的需求.由于深度学习方法 ...

  4. 绒毛动物探测器:通过TensorFlow.js中的迁移学习识别浏览器中的自定义对象

    目录 起点 MobileNet v1体系结构上的迁移学习 修改模型 训练新模式 运行物体识别 终点线 下一步是什么?我们可以检测到脸部吗? 下载TensorFlowJS-Examples-master ...

  5. 势如破竹!169 篇论文带你看 BERT 在 NLP 中的 2019 年!

    来源: AI科技评论  编译 | JocelynWang 编辑 | 丛末 2019 年,可谓是 NLP 发展历程中具有里程碑意义的一年,而其背后的最大功臣当属  BERT ! 2018 年底才发布,B ...

  6. 业界首个面向NLP场景深度迁移学习框架

    机器之心发布 机器之心编辑部 阿里云正式开源了深度迁移学习框架 EasyTransfer,本文详细介绍了 EasyTransfer 框架的核心功能 近日,阿里云正式开源了深度迁移学习框架 EasyTr ...

  7. AI体验馆上线!集成业界领先NLP场景深度迁移学习框架EasyTransfer

    简介:2020年10月,阿里云正式开源了深度迁移学习框架EasyTransfer,这是业界首个面向NLP场景的深度迁移学习框架. 目前集合该能力的AI体验馆已正式上线,免费体验:https://wor ...

  8. 阿里云开源业界首个面向NLP场景深度迁移学习框架

    2020-10-21 12:55:23 机器之心发布 机器之心编辑部 阿里云正式开源了深度迁移学习框架 EasyTransfer,本文详细介绍了 EasyTransfer 框架的核心功能 近日,阿里云 ...

  9. 从Word Embedding到Bert模型---NLP中预训练发展史

    本文转自张俊林老师,希望加深记忆及理解. 本文的主题是自然语言处理中的预训练过程,会大致说下NLP中的预训练技术是一步一步如何发展到Bert模型的,从中可以很自然地看到Bert的思路是如何逐渐形成的, ...

最新文章

  1. 使用Cacti监控你的网络Cacti的安装
  2. 编译opencv文件
  3. 看看这套WPF开源基础控件库:WPFDevelopers
  4. css动画-模拟正余弦曲线
  5. ipv6寻址_什么是IPV4寻址?
  6. eclipse中为了format的代码更加好看,少换行,可以设置java、xml、jsp的代码line width。
  7. Android中UI(View)的刷新
  8. android内核读取file文件
  9. SharpGL学习笔记(一) 平台构建与Opengl的hello World (转)
  10. [AutoSAR]NXP HS12(X) AUTOSAR MCAL编译一下
  11. 20200816每日一句
  12. java学习是网上java学习视频好,还是报班比较好
  13. 谷歌账号 (亲测有效)
  14. 宝塔面板 - 通过宝塔面板安装的mysql 默认密码是什么
  15. 关于iphone5和iphone4兼容的尺寸问题
  16. NCE4 L11 How to grow old
  17. 芯片破解、解密方法介绍
  18. C# 给PDF签名时添加时间戳的2种方法(附VB.NET代码)
  19. 图书管理系统——C语言版
  20. 电阻、二极管、三极管搭出的逻辑电路

热门文章

  1. 转-Aria2-不限速全平台下载利器
  2. canal简介及canal部署、TCP原理和使用介绍
  3. Linux CentOS 8中安装openjdk
  4. Android 13 开发者预览版
  5. Centos Linux 安装杀病毒扫描软件 clamAV
  6. 2021黑龙江省高考成绩排名查询,黑龙江高中高考成绩排名,2021年黑龙江各高中高考成绩排行榜...
  7. java 根据日期获取天数_java获取日期之间天数的方法
  8. UMP认识:(一)系统架构
  9. 集体智慧编程 英文版
  10. VUE-PDF 实现pdf在线预览