使用Google word2vec训练我们自己的词向量模型

主要内容

这篇文章主要内容是介绍从初始语料(文本)到生成词向量模型的过程。

词向量模型

词向量模型是一种表征词在整个文档中定位的模型。它的基本内容是词以及它们的向量表示，即将词映射为对应的向量，这样就可以被计算机识别和计算。它的文件后缀名是.bin。

过程

1.分词

即将文本分词，分词工具有很多，比如哈工大的分词工具和结巴分词工具，具体如何使用这些工具，请参考相关的文章。
分词的时候，请将各个词以一个空格隔开。

2.训练词向量

在word2vec的trunk目录下打开终端，定义下面内容，以适用于你的语料

./word2vec -train 产科语料合并版_分词结果.txt -output vectors11.bin -cbow 0 -size 100 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1

具体的
1. –size：向量维数
2. –window：上下文窗口大小
3. –sample：高频词亚采样的阈值
4. –hs：是否采用层次 softmax
5. –negative：负例数目
6. –min-count：被截断的低频词阈值
7. –alpha：开始的 learning rate

最终生成的vectors11.bin文件就是我们模型文件，它在trunk目录下。

3.验证词的相似度

在命令行在输入 ./distance vectors11.bin
然后输入词，查看它的相似词语列表，如下图：

完毕。

使用Google word2vec训练我们自己的词向量模型相关推荐

Python Word2vec训练医学短文本字/词向量实例实现，Word2vec训练字向量，Word2vec训练词向量，Word2vec训练保存与加载模型，Word2vec基础知识
一.Word2vec概念 (1)Word2vec,是一群用来产生词向量的相关模型.这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本.网络以词表现,并且需猜测相邻位置的输入词,在word2 ...
NLP-分类模型-2016-文本分类：FastText【使用CBOW的模型结构；作用：①文本分类、②训练词向量、③词向量模型迁移（直接拿FastText官方已训练好的词向量来使用）】【基于子词训练】
<原始论文:Bag of Tricks for Efficient Text Classification> <原始论文:Enriching Word Vectors with Su ...
【NLP】word2vec词向量模型训练——基于tensorflow
前言维基百科中文数据训练word2vec词向量模型--基于gensim库上文我们使用了 gensim 库中的 Word2vec 模块训练词向量模型,本篇我们通过 tensorflow 自己 ...
【NLP】维基百科中文数据训练word2vec词向量模型——基于gensim库
前言本篇主要是基于gensim 库中的 Word2Vec 模型,使用维基百科中文数据训练word2vec 词向量模型,大体步骤如下: 数据预处理模型的训练模型的测试准备条件: Window ...
NLP 利器 Gensim 来训练 word2vec 词向量模型的参数设置
使用 Gensim 来训练 word2vec 词向量模型的参数设置文章目录一.最小频次 min_count 二.词向量维度 size 三.并行处理核心数 workers 我们可以使用一些参数设置来 ...
Python word2vec训练词向量，电子病历训练词向量，超简单训练电子病历的词向量，医学电子病历词向量预训练模型
1.词向量预训练模型的优势: (1)训练和保存含有语义信息的词向量,在用于模型训练之前,enbedding的过程同样带有语义信息,使模型训练的效果更好: (2)可以用预训练好的词向量模型直接计算两个词 ...
从零开始构建基于textcnn的文本分类模型（上），word2vec向量训练，预训练词向量模型加载，pytorch Dataset、collete_fn、Dataloader转换数据集并行加载
伴随着bert.transformer模型的提出,文本预训练模型应用于各项NLP任务.文本分类任务是最基础的NLP任务,本文回顾最先采用CNN用于文本分类之一的textcnn模型,意在巩固分词.词向量 ...
GENSIM官方教程（4.0.0beta最新版）-Word2Vec词向量模型
GENSIM官方教程(4.0.0beta最新版)-词向量模型译文目录回顾:词袋模型简介:词向量模型词向量模型训练实例训练一个你自己的模型储存和加载模型训练参数内存相关的细节模型评估 ...
Ubuntu下GloVe中文词向量模型训练
开启美好的九月最近在学习textCNN进行文本分类,然后随机生成向量构建embedding网络的分类效果不是很佳,便考虑训练Glove词向量来进行训练,整个过程还是有遇到一些问题,希望懂的旁友能来指 ...