语言模型可以看作是一串词序列的概率分布,因此 在早期,研究人员提出了 N-gram 模型[3] ,它是基于统计 语言模型的算法,但是这种做法只能通过概率统计进行 判断,会使数据出现严重的稀疏性,无法考虑词内部的 关联。 随着深度学习技术的迅速发展,词嵌入正式登上历 史的舞台,Bengio 等人在 2003 年提出 NNLM 模型[4] ,随 后出现了一系列词向量技术(如 Word2Vec[5] 、Glove[6] 、 FastTest[7] 等)为文本提供了一种数值化的表示方法,但 是无法解决一词多义的问题。于是ELMo[8] 应运而生,它 采用双向的长短期记忆网络(Long Short-Term Memory, LSTM)进行进行预训练,将词向量由静态转化为动态, 使其可以结合上下文来赋予词义。GPT[9] 首次提出了无 监督的预训练和有监督的微调,使得训练好的模型能够 更好地适应下游任务。BERT[10] 首次将双向Transformer[11] 用于语言模型,使得该模型相对GPT对语境的理解会更 加深刻。自此进入了预训练技术的新时代,为后续NLP 领域的发展提供了更多可能性。

3.2 ELMo模型

ELMo是基于特征的语言模型,可以结合上下文语 境对词进行建模。与Word2Vec等采用的简单查表获取 唯一表示的词向量不同,ELMo中词向量表示的是内部 网络状态函数,对于相同的词它所展现出来的词向量是 动态变化的。 所以它首先采用双向LSTM进行预训练,这个模型 包括前向 LSTM 模型和后向 LSTM 模型,Jozefowicz 等 人[32] 的研究表明增加 LSTM 的宽度和深度可以大大提 高测试的准确性。ELMo 的双向概念是通过网络结构 得以体现的,模型结构如图2所示。

前向LSTM的模型公式:

其中,(t1 ,t2 ,…,tN) 表示组成的 N 个单词、序列,对第 k 个词前文中 k - 1 个词进行建模,预测第 k 个词的概率。 后向LSTM的模型公式:

其中该公式通过已知下文建模,实现对第 k 个单词的概 率预测。

最大化对数前向和后向的似然概率:

其中,Θx 表示输入的初始词向量参数,Θs 表示softmax 层的参数, 保证LSTM在各个方向的独 立参数,两者共享部分权重,并非完全独立。 这里预训练的最终产物是 biLM,Peters等[33] 研究也 表明使用biLM的重要性远高于使用前向语言模型和进 行大规模训练语言。

ELMo 是带有任务属性的,它是由 biLM 中间层表 示的线性组合。针对某一单词,一个 L 层的 biLM 可 以得到 2L + 1 层表示:

ELMo和 ULMFit相较之前模型有两点改进:(1)不 同于之前固定窗口的大小,加入了上下文信息,保证向 量可以包含这部分信息。

(2)增加模型的神经深度,保证 每一层向量都用于预测。

2021-08-24自然语言处理预训练模型的研究综述 - 知网论文相关推荐

  1. EMNLP 2021 | 百度:多语言预训练模型ERNIE-M

    作者 |‍ Chilia  ‍ 哥伦比亚大学 nlp搜索推荐 整理 | NewBeeNLP 2021年伊始,百度发布多语言预训练模型ERNIE-M,通过对96门语言的学习,使得一个模型能同时理解96种 ...

  2. 2021 AI技术盘点:预训练模型5大进展

    [专栏:前沿进展]2021年已进入尾声,回顾一年来人工智能领域的发展历程,有众多瞩目的技术事件发展.其中,预训练模型无疑是2021年的重点发展领域.年初的Switch Transformer开启万亿参 ...

  3. EMNLP 2021中预训练模型最新研究进展

    © 作者|周昆 机构|中国人民大学信息学院 研究方向|序列表示学习与应用 导读 EMNLP 2021是人工智能领域自然语言处理( Natural Language Processing,NLP)三大顶 ...

  4. 从多篇2021年顶会论文看多模态预训练模型最新研究进展

    ©PaperWeekly 原创 · 作者 | 小马 单位 | FightingCV公众号运营者 研究方向 | 计算机视觉 背景 1.1.什么是预训练 目前随着数据量爆炸式的增长,靠人工去标注更多数据是 ...

  5. 综述 | 三大路径,一文总览知识图谱融合预训练模型的研究进展

    当前,预训练模型已是AI领域较为成熟的一项技术,但由于基于神经网络架构的模型本身不具有常识能力,在一些涉及逻辑推理和认知的任务上力有不逮. 近年来,知识图谱越来越受到人们的关注,知识图谱旨在提供一种复 ...

  6. 超一流 | 从XLNet的多流机制看最新预训练模型的研究进展

    关注小夕并星标,解锁自然语言处理搜索.推荐与算法岗求职秘籍 文 | 老饕(某厂研究员,祖传调参) 美 | 人美心细小谨思密达 导读 作为 NLP 近两年来的当红炸子鸡,以 ELMo/BERT 为代表的 ...

  7. 2021.08.24学习内容torch.utils.data.DataLoader以及CUDA与GPU的关系

    pytorch数据加载: ①totchvision 的包,含有支持加载类似Imagenet,CIFAR10,MNIST 等公共数据集的数据加载模块 torchvision.datasets impor ...

  8. 多模态预训练模型学习

    一.什么是预训练? 目前随着数据量爆炸式的增长,靠人工去标注更多数据是非常昂贵,并且也不太现实的.因此预训练的方式就出现了,也逐渐成为了一种主流的方法.那到底什么是预训练呢?简单地说,预训练就是:&q ...

  9. 新预训练模型CodeBERT出世,编程语言和自然语言都不在话下

    2020-02-25 10:56:25 选自arXiv 作者:Zhangyin Feng等 机器之心编译 参与:魔王.蛋酱 对于自然语言处理从业者来说,BERT 这个概念一定不陌生,自从诞生以来,它在 ...

  10. 语言身高预测实验注意事项_?新预训练模型CodeBERT出世,编程语言和自然语言都不在话下...

    选自arXiv 作者:Zhangyin Feng等 机器之心编译 参与:魔王.蛋酱 对于自然语言处理从业者来说,BERT 这个概念一定不陌生,自从诞生以来,它在诸多任务检测中都有着非常优秀的表现.近日 ...

最新文章

  1. 新闻媒体的“社会热点事件”催发微博客的诞生
  2. 体素科技:2018年,算法驱动下的医学影像分析进展
  3. SpringMVC学习(五)——零配置实现SpringMVC
  4. java接收json字符串_JAVA后台接收前台传过来的json字符串并解析获得key 和value
  5. scla-基础-函数-元组(0)
  6. mysql全套基础知识_mysql系列--基础知识
  7. 原生微信小程序添加背景音乐
  8. js向html文档添加空格,javascript – 如何在HTML中的行之间找到空格?
  9. 去掉softmax后Transformer会更好吗?复旦华为诺亚提出SOFT:轻松搞定线性近似
  10. 协方差检验用在什么地方_胶带还有什么隐藏功能,看看这几个,家里很多地方用得到...
  11. Mac安装JDK1.8及环境变量配置
  12. 24个笔画顺序表田字格_PPT 笔画书写动画,这样可以快速制作哦
  13. PostgreSQL 导入和导出 CSV
  14. Python 使用xlsxwriter绘制Excel表格
  15. Flink之Window与窗口开始时间
  16. [Transformer]CvT:Introducing Convolutions to Vision Transformers
  17. ERP企业资源系统源码
  18. Android开发中的日常积累
  19. git 拉取指定远程分支的内容
  20. sd卡中的文件夹删除了怎么恢复,SD卡删除的文件如何恢复

热门文章

  1. 【转】python eval
  2. 微信小程序 - 贝塞尔曲线(购物车效果)
  3. 观点对立,无关虚拟现实技术
  4. 【284天】每日项目总结系列022(2017.11.16)
  5. jQuery增加删除修改tab导航特效
  6. win下的一款自动远程备份工具
  7. Exchange邮箱数据库事务日志引起磁盘暴涨
  8. Linux双网卡bonding举例
  9. 如何去掉桌面图标上的小箭头
  10. 关于Adapter模式