一、Word2vec简介

WordW2vec是google在2013年的论文《Efficient Estimation of Word Representations inVector Space》中提出的。顾名思义，是一个词向量模型，也就是将字词转为向量表示。

Word2vec模型包含两种训练词向量的方法：CBOW和skip-gram。其中CBOW的基本思想是通过该关键词的上下文的词语来预测这个关键词：而skip-gram的基本思想与CBOW相反，是通过该关键词来预测上下文的词语。如下图所示：

二、训练过程

CBOW

具体如上图所示：

首先将关键词的上下文词语进行独热编码，得到的向量长度为词表长度（所有训练语料中不同的词的总个数），形状为 $1\times V$ 的向量，该词的位置为1，其余位置为0。
将每个上下文词语的独热编码乘以一个 $V\times N$ 的权重矩阵 $W$ ，每个词语都乘以同一个权重矩阵 $W$ 。得到多个 $1\times N$ 的向量。
对于这么多个 $1\times N$ 的向量，采用相加求平均的方法整合成一个 $1\times N$ 的向量。
然后将这个 $1\times N$ 的向量与该关键字对应的 $N\times V$ 的矩阵 $W'$ ，得到一个 $1\times V$ 的向量。
对于这个 $1\times V$ 的向量需要通过softmax层归一化后得到的向量为关键词的预测向量，该向量不是独热编码，而是有许多浮点数值的概率组成的。概率最大的位置为关键词独热编码为1的位置。
将关键词的预测向量与标签向量（独热编码的向量）进行一个误差计算，通常采用交叉熵。
将这个误差反传回神经元，每一次前向计算后都会将误差反传，从而达到调整权重矩阵 $W$ 和 $W'$ 的目的，与BP神经网络同理。

当损失达到最优则训练结束，便得到了我们需要的权重矩阵 $W$ ，通过这个权重矩阵便可根据输入的独热向量形成词向量。

skip-gram

其实skip-gram就是将CBOW反过来操作，如以上那张CBOW的过程图一样，只不过用上面同样的步骤从右边开始解读。明白的话这部分的训练步骤可以不看。

首先将关键词进行独热编码。
将每个关键词的独热编码乘以一个 $V\times N$ 的权重矩阵 $W$ 。
然后将这个关键词的 $1\times N$ 的向量与该关键字的上下文词语词向量（共用一个）的 $N\times V$ 矩阵 $W'$ 相乘，得到多个 $1\times V$ 的向量。
对于这些 $1\times V$ 的向量需要通过softmax层归一化后得到的向量为关键词上下文词语的预测向量。
将关键词上下文词语的预测向量与标签向量（独热编码的向量）进行一个误差计算，通常采用交叉熵，对得到的多个交叉熵损失进行求和。
将这个误差反传回神经元，每一次前向计算后都会将误差反传，从而达到调整权重矩阵 $W$ 和 $W'$ 的目的。
最后得到形成词向量的权重矩阵是 $W$ 。

三、优缺点

优点

由于 Word2vec 会考虑上下文，跟之前的 Embedding 方法相比，效果要更好。
比之前的 Embedding方法维度更少，所以速度更快
通用性很强，可以用在各种 NLP 任务中

缺点

由于词和向量是一对一的关系，所以多义词的问题无法解决。
Word2vec 是一种静态的方式，虽然通用性强，但是无法针对特定任务做动态优化。

注意：word2vec有负采样和层次softmax的改进，也是知识点和难点，详细可以产靠这篇博客：http://t.csdn.cn/Nie7O

四、代码示例

这里没有弄很详细的代码，就调用了word2vec的一个包，也就是一个简单的使用例子，知道怎么使用就行，具体的模型参数网上都可以查得到，也不多：

import loggingfrom gensim.models import Word2Vec
from gensim.models.word2vec import LineSentence
from all_model_param import *logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s',level=logging.INFO)
model = Word2Vec(LineSentence(open('file_path', 'r', encoding='utf8')),sg=0,epochs=300,vector_size=word_vector_size,window=5,min_count=1,workers=8
)# 词向量保存
model.wv.save_word2vec_format('word2vec/data.vector', binary=False)# 模型保存
model.save('word2vec/test.model')

NLP学习——Word2vec相关推荐

用gensim学习word2vec
20211224 输入为分词列表 import gensim # Train Word2Vec model model = gensim.models.Word2Vec(all_data_test[' ...
NLP学习难在哪里？这份最全NLP学习路线图帮你解决难题！
作为一名人工智能之自然语言处理的技术小享,最常被问到的莫过于「如何入门NLP」了? 今天小享就整理了保姆级NLP学习路线图(思维导图),非常的全面和清晰,分享给大家. 希望这个指南会伴随你们一起成长哟 ...
深度学习word2vec笔记之基础篇
深度学习word2vec笔记之基础篇声明: 1)该博文是多位博主以及多位文档资料的主人所无私奉献的论文资料整理的.具体引用的资料请看参考文献.具体的版本声明也参考原文献 2)本文仅供学术交流,非商用 ...
NLP学习-Task 3: 子词模型Subword Models
NLP学习更新流程↓ Task 1: 简介和词向量Word Vectors Task 2: 词向量和词义Word Senses Task 3: 子词模型Subword Models Task 4: ...
深度学习word2vec笔记
基础篇算法篇应用篇深度学习word2vec笔记之基础篇一．前言伴随着深度学习的大红大紫,只要是在自己的成果里打上deep learning字样,总会有人去看.深度学习可以称为当今机器学习领域 ...
深度学习 | Word2vec原理及应用
聊聊Word2vec 1 前言 2 什么是Word2vec? 2.1 定义 2.1.1 分词的原理介绍 2.1.2 文本向量化的方式 2.2 数学原理 2.2.1 CBOW(Continuous Ba ...
利用计算机技术实现对文本篇章,自然语言处理NLP学习笔记一：概念与模型初探...
前言先来看一些demo,来一些直观的了解. 自然语言处理: 可以做中文分词,词性分析,文本摘要等,为后面的知识图谱做准备. 知识图谱: 还有2个实际应用的例子,加深对NLP的理解九歌机器人: 微软 ...
NLP之word2vec：利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量
NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量目录输出结果设计思路 1.Wikipedia Text语料来源 2.维基 ...
曝！BAT大厂NLP学习进阶之法~
"语言理解是人工智能领域皇冠上的明珠." --比尔盖茨自然语言处理是一门综合性的学问,它远远不止机器学习算法.相比图像或语音,文本的变化更加复杂,例如从预处理来看,NLP 就要求 ...

NLP学习——Word2vec

一、Word2vec简介

二、训练过程

三、优缺点

四、代码示例

NLP学习——Word2vec相关推荐

最新文章

热门文章