一、安装

  我使用的是在linux环境下运行的,所以首先去下载linux环境模拟器,下载的是cygwin因为要使用make命令工具,所以安装时要选中Devel与utils模块,默认安装没有安装make命令工具。记住一定要选中这两个模块,不然没有make命令工具没法运行makefile。

二、作用

  我知道word2vec可以查看输入一个词,查看相近词比如这样

也可以对文本进行聚类,在其他人博客上看的说是使用k均值聚类

比如这样

聚完类也可以对聚类结果排序

最后一个功能是短语分析没用过

可以参见http://www.cnblogs.com/hebin/p/3507609.html

这个博客

三、语料文件要求

  语料文件要使用空格将词语分开,分词工具可是使用中科院分词工具。我会写一篇中科院分词工具的使用,大家可以参见。使用utf-8编码,可是使用Notepade++等工具将文件改变编码。

四、使用

  进入linux环境模拟器输入  cd D:/word2vec/w2v/trunk这是进入文件下的指令,然后输入make等一会文件中会出现一些其他的文件,然后就可以使用了。将训练文件放到当前目录下。

使用指令

-train 训练数据
-output 结果输入文件,即每个词的向量
-cbow 是否使用cbow模型,0表示使用skip-gram模型,1表示使用cbow模型,默认情况下是skip-gram模型,cbow模型快一些,skip-gram模型效果好一些
-size 表示输出的词向量维数
-window 为训练的窗口大小,8表示每个词考虑前8个词与后8个词(实际代码中还有一个随机选窗口的过程,窗口大小<=5)
-negative 表示是否使用NEG方,0表示不使用,其它的值目前还不是很清楚
-hs 是否使用HS方法,0表示不使用,1表示使用
-sample 表示 采样的阈值,如果一个词在训练样本中出现的频率越大,那么就越会被采样
-binary 表示输出的结果文件是否采用二进制存储,0表示不使用(即普通的文本存储,可以打开查看),1表示使用,即vectors.bin的存储类型

通过设置binary可以打开查看

文本聚类的语句

./word2vec -train resultbig.txt -output classes.txt -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes 500  &
2 sort classes.txt -k 2 -n > classes_sorted_sogouca.txt

引用参考博客

http://www.cnblogs.com/hebin/p/3507609.html

http://blog.csdn.net/heyongluoyao8/article/details/43488765

转载于:https://www.cnblogs.com/herefree/p/5524864.html

word2vec安装以及使用相关推荐

  1. [Python人工智能] 九.gensim词向量Word2Vec安装及《庆余年》中文短文本相似度计算

    从本专栏开始,作者正式开始研究Python深度学习.神经网络及人工智能相关知识.前一篇详细讲解了卷积神经网络CNN原理,并通过TensorFlow编写CNN实现了MNIST分类学习案例.本篇文章将分享 ...

  2. gensim词向量Word2Vec安装及《庆余年》中文短文本相似度计算 | CSDN博文精选

    作者 | Eastmount 来源 | CSDN博文精选 (*点击阅读原文,查看作者更多精彩文章) 本篇文章将分享gensim词向量Word2Vec安装.基础用法,并实现<庆余年>中文短文 ...

  3. word2vec安装使用笔记

    word2vec 入门基础 基本概念 word2vec是Google在2013年开源的一个工具,核心思想是将词表征映 射为对应的实数向量. 目前采用的模型有以下两种 CBOW(Continuous B ...

  4. word2vec安装使用教程

    1.下载word2vec工具包,http://download.csdn.net/download/hortond/8095703 2.下载之后解压,tar -zxvf word2vec-2014-1 ...

  5. Word2Vec的安装与使用

    Word2Vec的安装与使用 Word2Vec介绍 Word2Vec安装 Word2Vec使用 安装过程遇到问题 1. error:could not build wheels for word2ve ...

  6. 一文排除WINDOWS-PYTHON3.7环境安装WORD2VEC包的所有坑

    之前介绍了很多R语言进行自然语言处理方面的东西,不过我们知道在自然语言处理上python平台还是当之无愧的王者,而我的笔记本又是windows的,平时通勤的过程中也想玩玩word2vec该如何做呢,今 ...

  7. word2vector安装

    word2vector是Google开源项目主要是做词向量,理论上语料越大越好.python3在安装过程中出现一些问题.再次记录一下我将python安装源改成了清华大学的,创建如下目录:C:\User ...

  8. [Python人工智能] 三十四.Bert模型 (3)keras-bert库构建Bert模型实现微博情感分析

    从本专栏开始,作者正式研究Python深度学习.神经网络及人工智能相关知识.前一篇文章开启了新的内容--Bert,首先介绍Keras-bert库安装及基础用法及文本分类工作.这篇文章将通过keras- ...

  9. [Python人工智能] 十.Tensorflow+Opencv实现CNN自定义图像分类案例及与机器学习KNN图像分类算法对比

    从本专栏开始,作者正式开始研究Python深度学习.神经网络及人工智能相关知识.前一篇详细讲解了gensim词向量Word2Vec安装.基础用法,并实现<庆余年>中文短文本相似度计算及多个 ...

最新文章

  1. WindowsAPI每日一练(2) 使用应用程序句柄
  2. Linux 命令小汇总
  3. java interface 函数_java8函数式接口(Functional Interface)
  4. VMware虚拟机不能上网的解决方法
  5. python glob.glob使用
  6. ERROR 1071 (42000): Specified key was too long; max key length is 767 bytes
  7. Eclipse导出Java文件为.exe可执行文件
  8. 炼丹手册——学习率设置
  9. eclipse常见问题配置
  10. 2021 年“泰迪杯”数据分析技能赛 B 题 肥料登记数据分析
  11. 固体火箭发动机零维内弹道方程组
  12. 织梦Dedecms忘记管理员后台密码解决办法
  13. php workman消息提醒,原生workman实现消息推送
  14. 函数模板和类模板的使用
  15. 【附源码】计算机毕业设计SSM人脸识别考勤系统
  16. win10如何设置有线和无线同时上内网和外网?
  17. POJ-2502 Subway( 最短路 )
  18. 今天,国外AI大厂破产,中国AI企业获18亿元融资!评论区炸了
  19. 搜狗开源内部项目管理系统Cynthia,已被数十家企业采用
  20. SpringBoot使用SSE推送消息

热门文章

  1. Node.js 究竟是什么?(zz)
  2. c# 之Web.config
  3. C# Task的用法
  4. 谷歌发布全新设计语言:跟苹果Swift天壤之别
  5. Io 异常: The Network Adapter could not establish the connection解决方案
  6. React创建组件的三种方式及其区别
  7. 解决Please ensure that adb is correctly located at 'D:\java\sdk\platform-tools\adb.exe' and can be exe
  8. 互联网思维-标签思维(1)
  9. Android之如何获取Android设备的唯一识别码笔记
  10. Shell-bash