使用Google word2vec训练我们自己的词向量模型
主要内容
这篇文章主要内容是介绍从初始语料(文本)到生成词向量模型的过程。
词向量模型
词向量模型是一种表征词在整个文档中定位的模型。它的基本内容是词以及它们的向量表示,即将词映射为对应的向量,这样就可以被计算机识别和计算。它的文件后缀名是.bin。
过程
1.分词
即将文本分词,分词工具有很多,比如哈工大的分词工具和结巴分词工具,具体如何使用这些工具,请参考相关的文章。
分词的时候,请将各个词以一个空格隔开。
2.训练词向量
在word2vec的trunk目录下打开终端, 定义下面内容,以适用于你的语料
./word2vec -train 产科语料合并版_分词结果.txt -output vectors11.bin -cbow 0 -size 100 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1
具体的
1. –size:向量维数
2. –window:上下文窗口大小
3. –sample:高频词亚采样的阈值
4. –hs:是否采用层次 softmax
5. –negative:负例数目
6. –min-count:被截断的低频词阈值
7. –alpha: 开始的 learning rate
最终生成的vectors11.bin文件就是我们模型文件,它在trunk目录下。
3.验证词的相似度
在命令行在输入 ./distance vectors11.bin
然后输入词,查看它的相似词语列表,如下图:
完毕。
使用Google word2vec训练我们自己的词向量模型相关推荐
- Python Word2vec训练医学短文本字/词向量实例实现,Word2vec训练字向量,Word2vec训练词向量,Word2vec训练保存与加载模型,Word2vec基础知识
一.Word2vec概念 (1)Word2vec,是一群用来产生词向量的相关模型.这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本.网络以词表现,并且需猜测相邻位置的输入词,在word2 ...
- NLP-分类模型-2016-文本分类:FastText【使用CBOW的模型结构;作用:①文本分类、②训练词向量、③词向量模型迁移(直接拿FastText官方已训练好的词向量来使用)】【基于子词训练】
<原始论文:Bag of Tricks for Efficient Text Classification> <原始论文:Enriching Word Vectors with Su ...
- 【NLP】word2vec词向量模型训练——基于tensorflow
前言 维基百科中文数据训练word2vec词向量模型--基于gensim库 上文我们使用了 gensim 库中的 Word2vec 模块训练词向量模型,本篇我们通过 tensorflow 自己 ...
- 【NLP】维基百科中文数据训练word2vec词向量模型——基于gensim库
前言 本篇主要是基于gensim 库中的 Word2Vec 模型,使用维基百科中文数据训练word2vec 词向量模型,大体步骤如下: 数据预处理 模型的训练 模型的测试 准备条件: Window ...
- NLP 利器 Gensim 来训练 word2vec 词向量模型的参数设置
使用 Gensim 来训练 word2vec 词向量模型的参数设置 文章目录 一.最小频次 min_count 二.词向量维度 size 三.并行处理核心数 workers 我们可以使用一些参数设置来 ...
- Python word2vec训练词向量,电子病历训练词向量,超简单训练电子病历的词向量,医学电子病历词向量预训练模型
1.词向量预训练模型的优势: (1)训练和保存含有语义信息的词向量,在用于模型训练之前,enbedding的过程同样带有语义信息,使模型训练的效果更好: (2)可以用预训练好的词向量模型直接计算两个词 ...
- 从零开始构建基于textcnn的文本分类模型(上),word2vec向量训练,预训练词向量模型加载,pytorch Dataset、collete_fn、Dataloader转换数据集并行加载
伴随着bert.transformer模型的提出,文本预训练模型应用于各项NLP任务.文本分类任务是最基础的NLP任务,本文回顾最先采用CNN用于文本分类之一的textcnn模型,意在巩固分词.词向量 ...
- GENSIM官方教程(4.0.0beta最新版)-Word2Vec词向量模型
GENSIM官方教程(4.0.0beta最新版)-词向量模型 译文目录 回顾:词袋模型 简介:词向量模型 词向量模型训练实例 训练一个你自己的模型 储存和加载模型 训练参数 内存相关的细节 模型评估 ...
- Ubuntu下GloVe中文词向量模型训练
开启美好的九月 最近在学习textCNN进行文本分类,然后随机生成向量构建embedding网络的分类效果不是很佳,便考虑训练Glove词向量来进行训练,整个过程还是有遇到一些问题,希望懂的旁友能来指 ...
最新文章
- 一文搞定 GBDT、Xgboost 和 LightGBM 的面试
- 深入理解JVM之二:垃圾收集器概述
- uniapp cross-env不是内部或外部_企业内部防泄密三部曲 严防祸起萧墙之内
- python与excel表格-Python操作 Excel表格
- VS cmake 远程开发 opencv报错:CMake was unable to find a build program corresponding to “Ninja“.(换个构建方式)
- java gc 可以对方法区进行回收_浅谈 Java 之 GC
- 汇编语言(十)之最小偶数
- 为什么个体户做不大?
- GDI+入门——带你走进Windows图形的世界
- 问题四十八:怎么用ray tracing画superhyperboloid(超级双曲面)
- java day41【JSP 、MVC开发模式 、EL表达式 、JSTL标签 、三层架构】
- java中的VO、PO、BO、DAO、POJO
- web前端设计--二级菜单栏
- vue 富文本存储_vue 富文本编辑器 项目实战用法
- 纯CSS实现三角形图标
- 三维激光扫描后处理软件_边走边扫的三维激光扫描仪-
- Types of Data
- 软件项目经理,如何确保项目管理三大目标(质量、进度、成本)的达成?
- MySQL 索引、事务与存储引擎
- 潘建中-632007060420