最近斯坦福的CS224N开课了,看了下课程介绍,去年google发表的Transformer以及最近特别火的Contextual Word Embeddings都会在今年的课程中进行介绍。NLP领域确实是一个知识迭代特别快速的领域,每年都有新的知识冒出来。所以身处NLP领域的同学们要时刻保持住学习的状态啊。笔者又重新在B站上看了这门课程的第一二节课。这里是课程链接。前两节课的主要内容基本上围绕着词向量进行。所以这篇文章笔者想简单的介绍一下词向量,以及如何利用python的gensim训练一个自己的词向量。

词向量简介

词向量指的是一个词的向量表示。如果你希望计算机能够进行一些复杂点的文本语义学习,你必须得将文本数据编码成计算机能够处理的数值向量吧,所以词向量是一个自然语言处理任务中非常重要的一环。

one-hot representations

很久很久之前,一个词用onehot进行编码,如下图所示,这种方式简单粗暴,将一个词用一个只有一个位置为1,其他地方为0的向量表示。1的位置就代表了是什么词。

这种表示有如下缺点: + 占用空间大 + 词与词之间的向量是正交关系,没有任何语义关联

Distributional representations

为了克服onehot表示的两个缺点,Distributional representations的词向量应运而生。Distributional representations的词向量指的是将单词从原先所属的空间(一般是one-hot编码)映射到新的低维空间中去,同时,低维空间的词向量还能表达出一些语义,比如,词的相似性(similarity)或者一对词与一对之间的类比关系(analogy)。 词的相似性(similarity): 老婆 和 妻子 类比关系(analogy): 国王 - 男人 = 王后 -女人

词向量模型

Word2vec简介

那我们如何得到上述具有语义Distributional representations的词向量呢,2013年提出的word2vec的方法就是一种非常方便得到高质量词向量的方式。其主要思想是:一个词的上下文可以很好的表达出词的语义,它是一种通过无监督的学习文本来用产生词向量的方式。word2vec中有两个非常经典的模型:skip-gram和cbow。

模型任务:

  • skip-gram:已知中心词预测周围词
  • cbow:已知周围词预测中心词

比如 "the quick brown fox jumps over the lazy dog" 如果定义window-size为2的话, 就会产生如下图所示的数据集,window-size决定了目标词会与多远距离的上下文产生关系: Skip-Gram:(the,quick) ,其中the 是模型的输入,quick是模型的输出。 Cbow: ((quick,brown),the) ,其中 (quick,brown)是模型的输入,the是模型的输出。

模型架构:

skip-gram,cbow的模型架构都是一层单层的神经网络,如下图所示,需要注意的部分是:神经网络的参数就是我们最后得到的词向量,神经网络训练过程就是学习词向量(网络参数)的过程。

Fasttext简介

gensim 中Fasttext 模型架构和Word2Vec的模型架构差几乎一样,只不过在模型词的输入部分使用了词的n-gram的特征。这里需要讲解一下n-gram特征的含义。举个例子,如果原词是一个很长的词:你吃了吗。jieba分词结果为["你","吃了","吗"]。 unigram(1-gram)的特征:["你","吃了","吗"] bigram(2-gram) 的特征: ["你吃了","吃了吗"] 所以大家发现没,n-gram的意思将词中连续的n个词连起来组成一个单独的词。 如果使用unigram和bigram的特征,词的特征就会变成:["你","吃了","吗","你吃了","吃了吗"]这么一长串。使用n-gram的词向量使得Fast-text模型可以很好的解决未登录词(OOV——out-of-vocabulary)的问题。

gensim实战部分

首先导入必要的python包,jieba,gensim等必要的包。

from gensim.models import fasttext
from gensim.models import word2vec
import pandas as pd
import logging
import jieba

数据载入与预处理

这里笔者用的是某个比赛的一些评论文本数据,读入评论文本数据之后对每一条评论进行分词。代码如下:

data = pd.read_csv("data_train.csv",sep="t",encoding='gbk',header=None)
sentance  = list(data[2])
## 对句子进行分词分词
def segment_sen(sen):sen_list = []try:sen_list = jieba.lcut(sen)except:passreturn sen_list
# 将数据变成gensim中 word2wec函数的数据格式
sens_list = [segment_sen(i) for i in sentance]

最终将文本数据处理如下格式:一个list ——包含每一条分词后的文本list。

[['烤鸭', '还是', '不错', '的', ',', '别的', '菜', '没什么', '特殊', '的'], ['使用', '说明', '看不懂', '!', '不会', '用', ',', '很多', '操作', '没', '详细', '标明', '!'], ['越来越', '不好', '了', ',', '菜品', '也', '少', '了', ',', '服务', '也', '不', '及时', '。'], ['是', '在', '是', '不', '知道', '该', '吃', '什么', '好', '、', '就', '来', '了'], ......]

Word2vec模型训练

这里笔者简单介绍一下word2vec.Word2Vec这个API的一些重要参数。 + size: 表示词向量的维度,默认值是100。 + window:决定了目标词会与多远距离的上下文产生关系,默认值是5。 + sg: 如果是0, 则是CBOW模型,是1则是Skip-Gram模型,默认是0即CBOW模型。

这里笔者都是采用默认参数。即采用CBOW模型——通过周围词预测中心词的方式训练词向量。

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
model = word2vec.Word2Vec(sens_list,min_count=1,iter=20)
model.save("word2vec.model")

模型训练过程如下图所示,笔者的数据一个有61678不同的词,所以会得到一个61678个词向量模型。

Fasttext模型训练

fasttext.FastText API一些重要参数: + size: 表示词向量的维度,默认值是100。 + window:决定了目标词会与多远距离的上下文产生关系,默认值是5。 + sg: 如果是0, 则是CBOW模型,是1则是Skip-Gram模型,默认是0即CBOW模型。

上方参数和word2vec.Word2Vec API的参数一模一样。 + word_ngrams :({1,0}, optional) 1表示使用n-gram的信息,0代表不使用n-gram的信息,如果设置为0就等于CBOW或者Skip-gram。

下方是模型训练代码:

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
model1 = fasttext.FastText(sens_list,min_count=1,iter=20)
model1.save("fast_text.model")

模型训练过程如下图所示,由于数据没变:同样有61678不同的词,依然会得到一个61678个词向量模型。

两种模型词向量优劣势的对比

接下来笔者随机找了几个词测试了下两种方式训练的词向量效果如何,model 是 cbow的词向量模型,model1是fasttext的词向量模型。从下方两张图片可以看出,cbow的词向量的语义相似度的判断能力要好于fasttext的词向量。

可是倘若碰到未登录词(OOV),cbow的词向量模型就无法处理这些没有见过的词。

而fasttext可以计算未登录词n-gram词(subword)的词向量的平均值,从而得到未登录词的词向量,最终求得和未登录词比较相似的词。

结语

这里笔者只是简单的介绍了一下词向量的含义,两种训练词向量的方法,同时对比了一下这两种方法的优劣势。对于词向量的训练技术依然有很多没有介绍到,比如负采样,分层softmax等加速模型训练技术,还有对于高频词的下采样技术。这里笔者在参考文献放了一些博客供你学习,当然这些技术gensim都封装好了,你只需调用就可以啦。

参考文献:

https://blog.csdn.net/sinat_26917383/article/details/83041424 http://mccormickml.com/tutorials/

word2vec代码_Word2Vec-——gensim实战教程相关推荐

  1. Word2Vec ——gensim实战教程

    最近斯坦福的CS224N开课了,看了下课程介绍,去年google发表的Transformer以及最近特别火的Contextual Word Embeddings都会在今年的课程中进行介绍.NLP领域确 ...

  2. Thinkphp实战教程后台管理系统开发

    目录 ├─Thinkphp5 后台管理开发.png ├─Thinkphp5 后台管理开发.xmind ├─Thinkphp实战教程后台管理系统开发-1.课程介绍及大纲.mp4 ├─Thinkphp实战 ...

  3. GENSIM官方教程(4.0.0beta最新版)-Word2Vec词向量模型

    GENSIM官方教程(4.0.0beta最新版)-词向量模型 译文目录 回顾:词袋模型 简介:词向量模型 词向量模型训练实例 训练一个你自己的模型 储存和加载模型 训练参数 内存相关的细节 模型评估 ...

  4. STM32CubeMX实战教程(七)——TFT_LCD液晶显示(附驱动代码)

    液晶显示 前言 材料 TFT_LCD FSMC接口 原理图 工程配置 进入代码 驱动程序引入 代码分析 TFTLCD_Init LCD_Drawxxx LCD_Fill LCD_Showxxxx 功能 ...

  5. GENSIM官方教程(4.0.0beta最新版)-LDA模型

    GENSIM官方文档(4.0.0beta最新版)-LDA模型 译文目录 概述 数据集 文档预处理以及向量化 训练LDA 需要调试的东西 原文链接 译文目录 GENSIM官方文档(4.0.0beta最新 ...

  6. PyTorch 高级实战教程:基于 BI-LSTM CRF 实现命名实体识别和中文分词

    20210607 https://blog.csdn.net/u011828281/article/details/81171066 前言:译者实测 PyTorch 代码非常简洁易懂,只需要将中文分词 ...

  7. js模板字符串自定义类名_【Vue.js 入门到实战教程】07Vue 组件注册 | 基本使用和组件嵌套...

    来源 | https://xueyuanjun.com/post/21929除了前面介绍的基本语法之外,Vue.js 还支持通过组件构建复杂的功能模块,组件可以称得上是 Vue.js 的灵魂,是 Vu ...

  8. Swift游戏开发实战教程(大学霸内部资料)

    Swift游戏开发实战教程(大学霸内部资料) 试读下载地址:http://pan.baidu.com/s/1sj7DvQH 介绍:本教程是国内第一本Swift游戏开发专向资料. 本教程详细讲解记忆配对 ...

  9. yolov5训练_YoloV5模型训练实战教程:Kaggle全球小麦检测竞赛

    写在前面 前段时间参加了Kaggle的一个目标检测竞赛,比赛后期因为工作较繁忙就搁置了,但仍然获得了铜牌(前10%).因此在这里想跟大家分享下自己的方案,希望能帮助大家更好的了解目标检测这一经典的计算 ...

最新文章

  1. JVM虚拟机参数配置官方文档
  2. java面向对象电子科大版答案_电子科大17秋《面向对象程序设计》在线作业1
  3. Android典型界面设计(4)——使用ActionBar+Fragment实现tab切换
  4. 亲测,手把手教你用Python抢票
  5. obs可以推到中转服务器吗,[经验分享]OBS 如何实现多路推流
  6. DCMTK:列出dicom文件的内容
  7. Springboot直接访问templates中的html
  8. error: default argument given for parameter 4
  9. 云平台需要开发的底层功能
  10. entity framework框架生成摘要文档为空(没有元数据文档可用)的bug解决方案
  11. Deep Learning Literature 常用词中英文总结(一)
  12. 第二章、Linux操作系统及常用命令
  13. Python函数总结大全(函数定义,参数种类、返回值等)
  14. 机电传动控制 第三周作业
  15. 三阶魔方中心互换_三阶魔方入门
  16. php 日期转换为大写
  17. 针对面试官提出的WPF逻辑树和视觉树
  18. 负离子空气净化器哪个牌子好,空气净化器科普
  19. 谷歌三大核心技术:from--http://blog.csdn.net/together_cz/article/details/66969003
  20. jdk、openjdk、jre、jvm、jep、jar、jmod

热门文章

  1. MySQL完整备份,还原
  2. 两张超级大表join优化
  3. Jmeter工具笔记-Jmeter+influxdb+grafanas设置性能监控过程
  4. shop--10.店铺列表(前端)
  5. InfluxDB命令使用
  6. Spring中的容器
  7. bzoj29894170: 数列
  8. 数学图形(2.26) 3D曲线结
  9. rhce linux下如何配置lvs高可用集群
  10. 3G,三足鼎立;花开千朵,各表一枝!!!