2.自然语言处理NLP：词映射为向量——词嵌入（word embedding）

1. 什么是词嵌入（word2vec） ：

把词映射为向量（实数域）的技术

2. 为什么不采用one-hot向量：

one-hot词向量无法准确表达不同词之间的相似度，eg：余弦相似度，表示夹角之间的余弦值，无法表达不同词之间的相似度。

3. word2vec主要包含哪两个模型

跳字模型：基于某个词生成它周围的词（每个词表示为两个d维向量用来计算条件概率）eg: the man loves his son, 可以给定中心词“loves”，生成距离不超过两个词的条件概率（P（the、man、his、 son | loves），即P（the|loves).......

连续词袋模型: 与跳字模型基本类似，最大的不同在于基于某中心词再文本序列前后的背景词来生成该中心词。(P(loves|the、man、his、son），即P（love|the)

4. 模型的重要因素

跳字模型：我们通过最大化似然估计来学习模型参数，等价于最小化以下损失函数

定义损失函数: 最大化似然估计等价于最小化损失函数

5. 如何降低计算复杂度（近似训练）？

负采样：负采样通过考虑同时含有正样本和负样本的相互独立事件来构造损失函数。其训练中每一步的梯度计算开销与采样的个数线性相关。

层序softmax：使用了二叉树，并根据根结点到叶结点的路径来构造损失函数。其训练中每一步的梯度计算开销与词典大小的对数相关。

6. 如何训练

构造嵌入层：将中心词和背景词由索引变为向量，定义超参数向量维度。

小批量乘法：中心词（批量大小，1）、背景词（批量大小，max_len) ，通过小批量乘法得到输出（批量大小,1, max_len)，输出的每个元素是中心词向量和背景词向量的内积。

定义损失函数：根据负采样中损失函数的定义，可以直接使用Gluon的二元交叉熵损失函数。

定义训练模型：可以通过负采样进行训练。

7. 全局向量的词嵌入

子词嵌入（fastText）：在跳字模型的基础上，将中心词向量表示成单词的子向量之和。（eg：dogs,dogcatcher都有相同的词根）

全局向量的词嵌入（GloVe)：在有些情况下，交叉熵损失函数有劣势，GloVe采用了平方损失，并通过词向量拟合预先基于整个数据集计算得到的全局统计信息。任意词的中心词向量和背景词向量在GloVe模型中是等价的。

引用：动手学深度学习李沐

2.自然语言处理NLP：词映射为向量——词嵌入（word embedding）相关推荐

什么是词嵌入| Word Embedding
本文参考:词嵌入维基百科解释 In natural language processing (NLP), word embedding is a term used for the represen ...
自然语言处理(NLP)之求近义词和类比词＜MXNet中GloVe和FastText的模型使用＞
这节主要就是熟悉MXNet框架中的两种模型:GloVe和FastText的模型(词嵌入名称),每个模型下面有很多不同的词向量,这些基本都来自wiki维基百科和twitter推特这些子集预训练得到的. ...
NLP：词袋模型（bag of words）、词向量模型（Word Embedding）
例句: Jane wants to go to Shenzhen. Bob wants to go to Shanghai 一.词袋模型将所有词语装进一个袋子里,不考虑其词法和语序的问题, ...
词袋模型（BOW，bag of words）和词向量模型（Word Embedding）理解
Word2vec 向量空间模型在信息检索中是众所周知的,其中每个文档被表示为向量.矢量分量表示文档中每个单词的权重或重要性.使用余弦相似性度量计算两个文档之间的相似性. 尽管对单词使用矢量表示的想法也 ...
词袋模型（BOW，bag of words）和词向量模型（Word Embedding）概念介绍
一.词袋模型例句: Jane wants to go to Shenzhen. Bob wants to go to Shanghai. 将所有词语装进一个袋子里,不考虑其词法和语序的问题,即每个词 ...
词嵌入 word embedding
原文链接:https://blog.csdn.net/ch1209498273/article/details/78323478 词嵌入(word embedding)是一种词的类型表示,具有相似意义 ...
[DeeplearningAI笔记]序列模型2.1-2.2词嵌入word embedding
5.2自然语言处理觉得有用的话,欢迎一起讨论相互学习~ 吴恩达老师课程原地址 2.1词汇表征 Word representation 原先都是使用词汇表来表示词汇,并且使用1-hot编码的方式来表示 ...
词嵌入(Word Embedding)
目录为什么需要词向量嵌入? 表征的对象是什么? 如何表征? 词向量嵌入矩阵 Skip-Gram CBoW 负采样结语 Reference 为什么需要词向量嵌入? 在自然语言相关的任务中,我们将句子 ...
自然语言处理之词嵌入(Word Embedding)
关于词嵌入对于计算机来说,要想理解自然语言,需要把自然语言以一定的形式转化为数值,这一步解决的是"将现实问题转化为数学问题",是人工智能非常关键的一步.词嵌入就是将自然语言 ...

2.自然语言处理NLP：词映射为向量——词嵌入（word embedding）

2.自然语言处理NLP：词映射为向量——词嵌入（word embedding）相关推荐

最新文章

热门文章