word2vec安装以及使用
一、安装
我使用的是在linux环境下运行的,所以首先去下载linux环境模拟器,下载的是cygwin因为要使用make命令工具,所以安装时要选中Devel与utils模块,默认安装没有安装make命令工具。记住一定要选中这两个模块,不然没有make命令工具没法运行makefile。
二、作用
我知道word2vec可以查看输入一个词,查看相近词比如这样
也可以对文本进行聚类,在其他人博客上看的说是使用k均值聚类
比如这样
聚完类也可以对聚类结果排序
最后一个功能是短语分析没用过
可以参见http://www.cnblogs.com/hebin/p/3507609.html
这个博客
三、语料文件要求
语料文件要使用空格将词语分开,分词工具可是使用中科院分词工具。我会写一篇中科院分词工具的使用,大家可以参见。使用utf-8编码,可是使用Notepade++等工具将文件改变编码。
四、使用
进入linux环境模拟器输入 cd D:/word2vec/w2v/trunk这是进入文件下的指令,然后输入make等一会文件中会出现一些其他的文件,然后就可以使用了。将训练文件放到当前目录下。
使用指令
-train 训练数据
-output 结果输入文件,即每个词的向量
-cbow 是否使用cbow模型,0表示使用skip-gram模型,1表示使用cbow模型,默认情况下是skip-gram模型,cbow模型快一些,skip-gram模型效果好一些
-size 表示输出的词向量维数
-window 为训练的窗口大小,8表示每个词考虑前8个词与后8个词(实际代码中还有一个随机选窗口的过程,窗口大小<=5)
-negative 表示是否使用NEG方,0表示不使用,其它的值目前还不是很清楚
-hs 是否使用HS方法,0表示不使用,1表示使用
-sample 表示 采样的阈值,如果一个词在训练样本中出现的频率越大,那么就越会被采样
-binary 表示输出的结果文件是否采用二进制存储,0表示不使用(即普通的文本存储,可以打开查看),1表示使用,即vectors.bin的存储类型
通过设置binary可以打开查看
文本聚类的语句
./word2vec -train resultbig.txt -output classes.txt -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes 500 &
2 sort classes.txt -k 2 -n > classes_sorted_sogouca.txt
引用参考博客
http://www.cnblogs.com/hebin/p/3507609.html
http://blog.csdn.net/heyongluoyao8/article/details/43488765
转载于:https://www.cnblogs.com/herefree/p/5524864.html
word2vec安装以及使用相关推荐
- [Python人工智能] 九.gensim词向量Word2Vec安装及《庆余年》中文短文本相似度计算
从本专栏开始,作者正式开始研究Python深度学习.神经网络及人工智能相关知识.前一篇详细讲解了卷积神经网络CNN原理,并通过TensorFlow编写CNN实现了MNIST分类学习案例.本篇文章将分享 ...
- gensim词向量Word2Vec安装及《庆余年》中文短文本相似度计算 | CSDN博文精选
作者 | Eastmount 来源 | CSDN博文精选 (*点击阅读原文,查看作者更多精彩文章) 本篇文章将分享gensim词向量Word2Vec安装.基础用法,并实现<庆余年>中文短文 ...
- word2vec安装使用笔记
word2vec 入门基础 基本概念 word2vec是Google在2013年开源的一个工具,核心思想是将词表征映 射为对应的实数向量. 目前采用的模型有以下两种 CBOW(Continuous B ...
- word2vec安装使用教程
1.下载word2vec工具包,http://download.csdn.net/download/hortond/8095703 2.下载之后解压,tar -zxvf word2vec-2014-1 ...
- Word2Vec的安装与使用
Word2Vec的安装与使用 Word2Vec介绍 Word2Vec安装 Word2Vec使用 安装过程遇到问题 1. error:could not build wheels for word2ve ...
- 一文排除WINDOWS-PYTHON3.7环境安装WORD2VEC包的所有坑
之前介绍了很多R语言进行自然语言处理方面的东西,不过我们知道在自然语言处理上python平台还是当之无愧的王者,而我的笔记本又是windows的,平时通勤的过程中也想玩玩word2vec该如何做呢,今 ...
- word2vector安装
word2vector是Google开源项目主要是做词向量,理论上语料越大越好.python3在安装过程中出现一些问题.再次记录一下我将python安装源改成了清华大学的,创建如下目录:C:\User ...
- [Python人工智能] 三十四.Bert模型 (3)keras-bert库构建Bert模型实现微博情感分析
从本专栏开始,作者正式研究Python深度学习.神经网络及人工智能相关知识.前一篇文章开启了新的内容--Bert,首先介绍Keras-bert库安装及基础用法及文本分类工作.这篇文章将通过keras- ...
- [Python人工智能] 十.Tensorflow+Opencv实现CNN自定义图像分类案例及与机器学习KNN图像分类算法对比
从本专栏开始,作者正式开始研究Python深度学习.神经网络及人工智能相关知识.前一篇详细讲解了gensim词向量Word2Vec安装.基础用法,并实现<庆余年>中文短文本相似度计算及多个 ...
最新文章
- WindowsAPI每日一练(2) 使用应用程序句柄
- Linux 命令小汇总
- java interface 函数_java8函数式接口(Functional Interface)
- VMware虚拟机不能上网的解决方法
- python glob.glob使用
- ERROR 1071 (42000): Specified key was too long; max key length is 767 bytes
- Eclipse导出Java文件为.exe可执行文件
- 炼丹手册——学习率设置
- eclipse常见问题配置
- 2021 年“泰迪杯”数据分析技能赛 B 题 肥料登记数据分析
- 固体火箭发动机零维内弹道方程组
- 织梦Dedecms忘记管理员后台密码解决办法
- php workman消息提醒,原生workman实现消息推送
- 函数模板和类模板的使用
- 【附源码】计算机毕业设计SSM人脸识别考勤系统
- win10如何设置有线和无线同时上内网和外网?
- POJ-2502 Subway( 最短路 )
- 今天,国外AI大厂破产,中国AI企业获18亿元融资!评论区炸了
- 搜狗开源内部项目管理系统Cynthia,已被数十家企业采用
- SpringBoot使用SSE推送消息
热门文章
- Node.js 究竟是什么?(zz)
- c# 之Web.config
- C# Task的用法
- 谷歌发布全新设计语言:跟苹果Swift天壤之别
- Io 异常: The Network Adapter could not establish the connection解决方案
- React创建组件的三种方式及其区别
- 解决Please ensure that adb is correctly located at 'D:\java\sdk\platform-tools\adb.exe' and can be exe
- 互联网思维-标签思维(1)
- Android之如何获取Android设备的唯一识别码笔记
- Shell-bash