1.自回归语言模型

1-1 自回归语言模型简介

一般的语言模型都是从左到右计算某个词出现的概率,但是当我们做完型填空或者阅读理解这一类NLP任务的时候词的上下文信息都是需要考虑的,而这个时候只考虑了该词的上文信息而没有考虑到下文信息。所以,反向的语言模型出现了,就是从右到左计算某个词出现的概率,这一类语言模型称之为自回归语言模型。像坚持只用单向Transformer的GPT就是典型的自回归语言模型,也有像ELMo那种拼接两个上文和下文LSTM的变形自回归语言模型。

        总结:自回归语言模型是根据上文或者下文来预测后一个单词。

1-2 实例说明

有文本 Paris is a beautiful city. I love Paris。假设移除了单词 city,替换为空白符_:

Paris is a beautiful __. I love Paris

模型需要预测空白符实际的单词。如果使用前向预测,那么模型以从左到右的顺序阅读序列中的单词,直到空白符:

Paris is a beautiful __.

如果使用反向预测,那么模型以从右到左的顺序阅读序列中的单词,直到空白符:

Paris love I .__ 

自回归模型天然就是单向的,意味着它们只会以一个方向阅读输入序列。

2.自编码语言模型

2-1 自编码语言模型简介

        自编码语言模型的核心思想与做完形填空一致。句子中随机一个单词用[mask]替换掉,同时根据该单词的上下文来预测该单词。我们都知道Bert在预训练阶段使用[mask]标记对句子中15%的单词进行随机屏蔽,然后根据被mask单词的上下文来预测该单词,这就是自编码语言模型的典型应用。相较于自回归语言模型,它能比较自然地融入双向语言模型,同时看到被预测单词的上文和下文。

总结:自编码语言模型是根据上下文来预测当前单词。

2-2 实例说明

自编码语言建模任务同时利用了前向(左到右)和反向(右到左)预测的优势。即,它们在预测时同时读入两个方向的序列。为了预测空白符,自编码语言模型同时从两个方向阅读序列,如下所示:

Paris is a beautiful __. I love Paris

3.两种模型对比

        自回归语言模型没能自然的同时获取单词的上下文信息(ELMo把两个方向的LSTM做concat是一个很好的尝试,但是效果并不是太好),而自编码语言模型能很自然的把上下文信息融合到模型中(Bert中的每个Transformer都能看到整句话的所有单词,等价于双向语言模型),但自编码语言模型也有其缺点,就是在Fine-tune阶段,模型是看不到[mask]标记的,所以这就会带来一定的误差。

后续出现的XLNet将两种模型的优缺点做了一个完美的结合,在自回归语言模型中自然地引入上下文信息,并且解决自编码语言模型两阶段保持一致的问题。

【深度学习】自回归VS自编码相关推荐

  1. 【深度学习】深度学习实验记录--自编码+分类器

    深度学习课程记录 自编码分类器神经网络记录 1.Train the autoencoder by using unlabeled data 训练1(fail) 训练2(fail) 训练3(fail) ...

  2. 深度学习-栈式自编码算法

    http://deeplearning.stanford.edu/wiki/index.php/%E6%A0%88%E5%BC%8F%E8%87%AA%E7%BC%96%E7%A0%81%E7%AE% ...

  3. 深度学习之五:稀疏编码

     9.2.Sparse Coding稀疏编码 如果我们把输出必须和输入相等的限制放松,同时利用线性代数中基的概念,即O = a1*Φ1 + a2*Φ2+-.+ an*Φn, Φi是基,ai是系数, ...

  4. 告别2019:属于深度学习的十年,那些我们必须知道的经典

    选自leogao.dev 作者:Leo Gao,机器之心 参与:一鸣.泽南.蛋酱 2020 新年快乐! 当今天的太阳升起时,我们正式告别了上一个十年. 在这十年中,伴随着计算能力和大数据方面的发展,深 ...

  5. 如何用 OpenCV、Python 和深度学习实现面部识别?

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达本文转自|新机器视觉 Face ID 的兴起带动了一波面部识别技术热 ...

  6. 告别2019,展望2020:让我们看一看这十年中深度学习的经典瞬间

    点击上方"深度学习技术前沿",选择加"星标"或"置顶" 重磅干货,第一时间送达 2020 新年快乐! 当今天的太阳升起时,我们正式告别了上一 ...

  7. 运用深度学习教机器人理解自然语言

    运用深度学习教机器人理解自然语言 2016-08-16 16:33 转载 CSDN 1条评论 雷锋网按:本文作者Jonathan是21CT的首席科学家.他主要研究机器学习和人工智能如何使用在文本和知识 ...

  8. 深度学习在自然语言处理的应用

    深度学习在自然语言处理的应用 发表于2015-11-11 08:27| 931次阅读| 来源21CT| 0 条评论| 作者Jonathan Mugan 深度学习自然语言处理机器学习语义网络词向量RNN ...

  9. 图像视频压缩:深度学习,有一套

    摘要:得益于深度神经网络提取信源特征的能力,深度学习技术在信源压缩编码领域取得了比传统方法更 本文分享自华为云社区<基于深度学习的图像视频压缩编码>,原文作者:罗鹏. 得益于深度神经网络提 ...

  10. 深度学习在物理层信号处理中的应用研究

    摘要:本文主要介绍基于深度学习的物理层应用,并提出一种基于深度Q网络(DQN)的MIMO系统位置信息验证方案,接收者在多变未知的信道环境下利用深度Q网络不断更新. 01引言 随着移动流量呈现的爆发式增 ...

最新文章

  1. Listener监听器之HttpSessionListener
  2. Apress水果大餐——移动开发
  3. java-数据结构-续
  4. 大话ConcurrentHashMap的put,get过程
  5. 九度1377缓变序列
  6. 戴尔-EMC将至强Phi服务器与Tesla GPU纳入PowerEdge
  7. Hibernate(7)关联关系_单向1对n
  8. C++ 输入和输出IO
  9. 百度语音合成 js html,百度文字转语音免费接口使用实例
  10. 全球顶级银行资管子公司的启示
  11. 无码间串扰的基带传输特性
  12. 图片放大后怎么把图片变清晰?
  13. Git 删除提交\commit的log记录、修改历史提交消息、删除历史提交、修改所有提交的邮箱地址、从所有提交中删除一个文件
  14. 百度地图Web API Python模块
  15. matlab寻找频谱峰值,matlab – 从数据中获取FFT峰值
  16. 用Python制作一条五彩蟒蛇
  17. android获得键盘高度,Android 获取键盘高度,显示键盘和隐藏键盘
  18. 毕业设计 - java web 进销存管理系统的设计与实现【源码+论文】
  19. API开放赋能,打造DING功能快速抢占上亿用户
  20. ERP之工单应发料数

热门文章

  1. 再论WGS84、ITRF2008及NavCom StarFire
  2. MATLAB-wannier90_hr.dat后处理以及紧束缚能带拟合(晶体规范)
  3. SQLyog用户名与注册码
  4. 在SolidWork flow simulation中使用目标的第三个好理由
  5. 使用JSoup实现爬虫操作(爬取网页图片、文章内容)
  6. Linux内核编程(二)-----------Linux内核初探
  7. BenchmarkSQL测试工具 对 DM 达梦单机数据库进行tpcc测试
  8. 报错Publishing failed with multiple errors Could not delete *
  9. VIPKID从“快进键”到“慢进键” 的自我突围。
  10. Android的基础介绍