2021-08-24自然语言处理预训练模型的研究综述

语言模型可以看作是一串词序列的概率分布，因此在早期，研究人员提出了 N-gram 模型[3] ，它是基于统计语言模型的算法，但是这种做法只能通过概率统计进行判断，会使数据出现严重的稀疏性，无法考虑词内部的关联。随着深度学习技术的迅速发展，词嵌入正式登上历史的舞台，Bengio 等人在 2003 年提出 NNLM 模型[4] ，随后出现了一系列词向量技术（如 Word2Vec[5] 、Glove[6] 、 FastTest[7] 等）为文本提供了一种数值化的表示方法，但是无法解决一词多义的问题。于是ELMo[8] 应运而生，它采用双向的长短期记忆网络（Long Short-Term Memory， LSTM）进行进行预训练，将词向量由静态转化为动态，使其可以结合上下文来赋予词义。GPT[9] 首次提出了无监督的预训练和有监督的微调，使得训练好的模型能够更好地适应下游任务。BERT[10] 首次将双向Transformer[11] 用于语言模型，使得该模型相对GPT对语境的理解会更加深刻。自此进入了预训练技术的新时代，为后续NLP 领域的发展提供了更多可能性。

3.2 ELMo模型

ELMo是基于特征的语言模型，可以结合上下文语境对词进行建模。与Word2Vec等采用的简单查表获取唯一表示的词向量不同，ELMo中词向量表示的是内部网络状态函数，对于相同的词它所展现出来的词向量是动态变化的。所以它首先采用双向LSTM进行预训练，这个模型包括前向 LSTM 模型和后向 LSTM 模型，Jozefowicz 等人[32] 的研究表明增加 LSTM 的宽度和深度可以大大提高测试的准确性。ELMo 的双向概念是通过网络结构得以体现的，模型结构如图2所示。

前向LSTM的模型公式：

其中，(t1 ,t2 ,…,tN) 表示组成的 N 个单词、序列，对第 k 个词前文中 k - 1 个词进行建模，预测第 k 个词的概率。后向LSTM的模型公式：

其中该公式通过已知下文建模，实现对第 k 个单词的概率预测。

最大化对数前向和后向的似然概率：

其中，Θx 表示输入的初始词向量参数，Θs 表示softmax 层的参数，和保证LSTM在各个方向的独立参数，两者共享部分权重，并非完全独立。这里预训练的最终产物是 biLM，Peters等[33] 研究也表明使用biLM的重要性远高于使用前向语言模型和进行大规模训练语言。

ELMo 是带有任务属性的，它是由 biLM 中间层表示的线性组合。针对某一单词，一个 L 层的 biLM 可以得到 2L + 1 层表示：

ELMo和 ULMFit相较之前模型有两点改进：（1）不同于之前固定窗口的大小，加入了上下文信息，保证向量可以包含这部分信息。

（2）增加模型的神经深度，保证每一层向量都用于预测。

2021-08-24自然语言处理预训练模型的研究综述 - 知网论文相关推荐

EMNLP 2021 | 百度：多语言预训练模型ERNIE-M
作者 |‍ Chilia ‍ 哥伦比亚大学 nlp搜索推荐整理 | NewBeeNLP 2021年伊始,百度发布多语言预训练模型ERNIE-M,通过对96门语言的学习,使得一个模型能同时理解96种 ...
2021 AI技术盘点：预训练模型5大进展
[专栏:前沿进展]2021年已进入尾声,回顾一年来人工智能领域的发展历程,有众多瞩目的技术事件发展.其中,预训练模型无疑是2021年的重点发展领域.年初的Switch Transformer开启万亿参 ...
EMNLP 2021中预训练模型最新研究进展
© 作者|周昆机构|中国人民大学信息学院研究方向|序列表示学习与应用导读 EMNLP 2021是人工智能领域自然语言处理( Natural Language Processing,NLP)三大顶 ...
从多篇2021年顶会论文看多模态预训练模型最新研究进展
©PaperWeekly 原创 · 作者 | 小马单位 | FightingCV公众号运营者研究方向 | 计算机视觉背景 1.1.什么是预训练目前随着数据量爆炸式的增长,靠人工去标注更多数据是 ...
综述 | 三大路径，一文总览知识图谱融合预训练模型的研究进展
当前,预训练模型已是AI领域较为成熟的一项技术,但由于基于神经网络架构的模型本身不具有常识能力,在一些涉及逻辑推理和认知的任务上力有不逮. 近年来,知识图谱越来越受到人们的关注,知识图谱旨在提供一种复 ...
超一流 | 从XLNet的多流机制看最新预训练模型的研究进展
关注小夕并星标,解锁自然语言处理搜索.推荐与算法岗求职秘籍文 | 老饕(某厂研究员,祖传调参) 美 | 人美心细小谨思密达导读作为 NLP 近两年来的当红炸子鸡,以 ELMo/BERT 为代表的 ...
2021.08.24学习内容torch.utils.data.DataLoader以及CUDA与GPU的关系
pytorch数据加载: ①totchvision 的包,含有支持加载类似Imagenet,CIFAR10,MNIST 等公共数据集的数据加载模块 torchvision.datasets impor ...
多模态预训练模型学习
一.什么是预训练? 目前随着数据量爆炸式的增长,靠人工去标注更多数据是非常昂贵,并且也不太现实的.因此预训练的方式就出现了,也逐渐成为了一种主流的方法.那到底什么是预训练呢?简单地说,预训练就是:&q ...
新预训练模型CodeBERT出世，编程语言和自然语言都不在话下
2020-02-25 10:56:25 选自arXiv 作者:Zhangyin Feng等机器之心编译参与:魔王.蛋酱对于自然语言处理从业者来说,BERT 这个概念一定不陌生,自从诞生以来,它在 ...
语言身高预测实验注意事项_?新预训练模型CodeBERT出世，编程语言和自然语言都不在话下...
选自arXiv 作者:Zhangyin Feng等机器之心编译参与:魔王.蛋酱对于自然语言处理从业者来说,BERT 这个概念一定不陌生,自从诞生以来,它在诸多任务检测中都有着非常优秀的表现.近日 ...

2021-08-24自然语言处理预训练模型的研究综述 - 知网论文

2021-08-24自然语言处理预训练模型的研究综述 - 知网论文相关推荐

最新文章

热门文章