自然语言处理从入门到应用——动态词向量预训练：ELMo词向量

分类目录：《自然语言处理从入门到应用》总目录

在双向语言模型预训练完成后，模型的编码部分（包括输入表示层以及多层堆叠LSTM）便可以用来计算任意文本的动态词向量表示。最自然的做法是使用两个LSTM的最后一层隐含层输出作为词的动态向量表示。然而，在ELMo模型中，不同层次的隐含层向量蕴含了不同层次或粒度的文本信息。例如，越接近顶层的LSTM隐含层表示通常编码了更多的语义信息，而接近底层的隐含层表示（包括输入表示 $x$ ）更偏重于词法、句法信息。不同的下游任务，对词表示的需求程度有所不同。例如，对于阅读理解、自动问答这类任务，对语义信息的需求较高；而对于命名实体识别等任务，词法、句法信息更重要。因此，ELMo采取对不同层次的向量表示进行加权平均的机制，为不同的下游任务提供更多的组合自由度。令 $R_t$ 表示 $w_t$ 的所有中间层状态向量表示构成的集合，则：
$R_t=\{x_t, h_{t, j}|j=1, 2, \cdots, L\}$

式中， $h_{t, j}=[\overleftarrow{h}_{t, j}, \overrightarrow{h}_{t, j}]$

t,j,h

t,j]表示两个多层堆叠LSTM中每一层的前向、后向隐含层输出拼接后得到的向量。令

h_{t, 0}=x_t

，则ELMo词向量可表示为：

\text{ELMo}_t=f(R_t, \Psi)=\gamma^\text{task}\sum_j^Ls^\text{task}_jh_{t, j}

式中， $\Psi=\{s^\text{task}, \gamma^\text{task}\}$ 为计算ELMo向量所需的额外参数； $s^\text{task}$ 表示每个向量的权重，反映每一层向量对于目标任务的重要性，可由一组参数根据Softmax函数归一化计算得到，该权重向量可在下游任务的训练过程中学习； $\gamma^\text{task}$ 系数同样与下游任务相关，当ELMo向量与其他向量共同作用时，可以适当地缩放ELMo向量。将ELMo向量作为词特征用于下游任务时，编码器的参数将被“冻结”，不参与更新。综上所述，ELMo向量表示具有以下三个特点：

动态（上下文相关）：词的ELMo向量表示由其当前上下文决定
健壮（Robust）：ELMo向量表示使用字符级输入，对于未登录词具有强健壮性
层次：ELMo词向量由深度预训练模型中各个层次的向量表示进行组合，为下游任务提供了较大的使用自由度。

下图展示了ELMo模型的整体结构：

ELMo的优缺点

ELMo实现了由静态词嵌入到动态词嵌入，由词嵌入到场景词嵌入的转换，较好地解决了一词多义问题。但因ELMo使用Bi-LSTM，仍然属于自动回归问题，所以其并发能力会受到影响，在需要大量语料库作为训练数据的情况，这种局限也直接影响其性能和拓展性。ELMo主要有2个有点：

实现从单纯的词嵌入（Word Embedding）到情景词嵌入（Contextualized Word Embedding）的转变
实现预训练模型从静态到动态的转变

同时，ELMo也有缺点：ELMo预训练模型的特征提取器使用了双向循环神经网络（如Bi-LSTM），循环神经网络的训练需要按序列从左到右或从右到左，严格限制了并发处理能力。此外，ELMo的每一层会拼接两个方向的向量，所以这种操作实际仍然属于单向学习，无法做到同时向两个方向学习。

参考文献：
[1] 车万翔, 崔一鸣, 郭江. 自然语言处理：基于预训练模型的方法[M]. 电子工业出版社, 2021.
[2] 邵浩, 刘一烽. 预训练语言模型[M]. 电子工业出版社, 2021.
[3] 何晗. 自然语言处理入门[M]. 人民邮电出版社, 2019
[4] Sudharsan Ravichandiran. BERT基础教程：Transformer大模型实战[M]. 人民邮电出版社, 2023
[5] 吴茂贵, 王红星. 深入浅出Embedding：原理解析与应用实战[M]. 机械工业出版社, 2021.

自然语言处理从入门到应用——动态词向量预训练：ELMo词向量相关推荐

在 Keras 模型中使用预训练的词嵌入
原文地址在这里. 什么是词嵌入? "词嵌入"是一系列旨在将语义映射到几何空间的自然语言处理技术.这是通过将数字向量与字典中的每个单词相关联来完成的,这样任何两个向量之间的距离(例如 ...
【从零开始学习深度学习】48.Pytorch_NLP实战案例：如何使用预训练的词向量模型求近义词和类比词
目录 1. 下载预训练的词向量 2. 应用预训练词向量 2.1 求近义词 2.2 求类比词本文将介绍如何使用已经在大规模语料上预训练的词向量模型来求近义词和类比词. 1. 下载预训练的词向量基于P ...
深度学习之循环神经网络（12）预训练的词向量
深度学习之循环神经网络(12)预训练的词向量在情感分类任务时,Embedding层是从零开始训练的.实际上,对于文本处理任务来说,领域知识大部分是共享的,因此我们能够利用在其它任务上训练好的词向量 ...
github设置中文_【Github】100+ Chinese Word Vectors 上百种预训练中文词向量
(给机器学习算法与Python学习加星标,提升AI技能) 该项目提供了不同表征(密集和稀疏)上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量.开发者可以轻松获得具有不同属性的预先训练的 ...
如何在深度学习过程中使用预训练的词表征（持续更新ing...）
诸神缄默不语-个人CSDN博文目录本文介绍在深度学习中如何应用预训练的词表征(word2vec等),应用到的框架包括numpy.PyTorch和TensorFlow 不同形式,见到了就补充总结一下. ...
预训练词向量中文维基百科,英文斯坦福glove预训练的词向量下载
中文预训练词向量--基于中文维基百科语料训练英文预训练词向量--斯坦福glove预训练的词向量百度云分享:https://pan.baidu.com/s/1UpZeuqlNMl6XtTB5la53 ...
自动训练Embedding词向量和手动训练Embedding词向量
手动训练自己的词向量 gensim工具包-训练自己的Word2Vec 产生word_vector.bin文件然后调用: embedding = nn.Embedding.from_pretraine ...
keras从入门到放弃(十七）使用预训练网络VGG迁移学习
VGG16网络是13层卷积层,运算起来非常的忙,如果使用CPU基本跑不了 import keras from keras import layers import numpy as np import ...
最新GLove词向量预训练文件国内服务器下载
试过去斯坦福官方网址(https://nlp.stanford.edu/projects/glove/)下Glove的同学就知道有多痛苦- 真的要多慢有多慢使用国内服务器几分钟下完 glove.84 ...

自然语言处理从入门到应用——动态词向量预训练：ELMo词向量

ELMo的优缺点

自然语言处理从入门到应用——动态词向量预训练：ELMo词向量相关推荐

最新文章

热门文章