下载C版本的word2vec

进入文件目录下后,会有一个makefile文件,有了它就可以编译啦

$ cd /home/yinglish/download/word2vec/trunk
$ make

编译完后会生成一些新的文件。
接下来如果要使用word2vec自带的词典,则运行:

$ ./demo-word.sh

它将会去下载数据text8(用空格隔开的英文单词,不包含标点符号,大概1600多万个单词)

如果想用自己的词典训练,则先把词典(我的叫test.txt,是已分词并去除标点符号的评论)放到该目录下,运行:

./word2vec -train test.txt -output vectors.bin -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -binary 1test.txt, vectors.bin分别是输入的训练数据和输出模型
不使用cbow, 默认使用skip-Gram
每个单词的向量维度为200
训练窗口大小为5(一个词语前后各取5个)
不使用NEG而使用HS
sample指采样阈值,如果一个词语在训练样本中出现的频率越大越会被采样
binary为1表示结果用二进制存储,为0表示普通存储(可以打开看到词语和对应向量)

训练完后就可以看到一个vectors.bin文件啦,这就是我们的训练数据中词语及其对应向量了。

那么如何使用Word2vec的功能呢?

比如说计算词语相似度:
我们可以在该目录下看到一个叫distance的菱形可执行文件,这是我们编译后产生的,运行它

$./distance vectors.bin
Enter word or sentence(EXIT to break):

如果我输入“林心如”,返回:

Word2vec安装使用相关推荐

  1. [Python人工智能] 九.gensim词向量Word2Vec安装及《庆余年》中文短文本相似度计算

    从本专栏开始,作者正式开始研究Python深度学习.神经网络及人工智能相关知识.前一篇详细讲解了卷积神经网络CNN原理,并通过TensorFlow编写CNN实现了MNIST分类学习案例.本篇文章将分享 ...

  2. gensim词向量Word2Vec安装及《庆余年》中文短文本相似度计算 | CSDN博文精选

    作者 | Eastmount 来源 | CSDN博文精选 (*点击阅读原文,查看作者更多精彩文章) 本篇文章将分享gensim词向量Word2Vec安装.基础用法,并实现<庆余年>中文短文 ...

  3. word2vec安装使用笔记

    word2vec 入门基础 基本概念 word2vec是Google在2013年开源的一个工具,核心思想是将词表征映 射为对应的实数向量. 目前采用的模型有以下两种 CBOW(Continuous B ...

  4. word2vec安装以及使用

    一.安装 我使用的是在linux环境下运行的,所以首先去下载linux环境模拟器,下载的是cygwin因为要使用make命令工具,所以安装时要选中Devel与utils模块,默认安装没有安装make命 ...

  5. word2vec安装使用教程

    1.下载word2vec工具包,http://download.csdn.net/download/hortond/8095703 2.下载之后解压,tar -zxvf word2vec-2014-1 ...

  6. Word2Vec的安装与使用

    Word2Vec的安装与使用 Word2Vec介绍 Word2Vec安装 Word2Vec使用 安装过程遇到问题 1. error:could not build wheels for word2ve ...

  7. 一文排除WINDOWS-PYTHON3.7环境安装WORD2VEC包的所有坑

    之前介绍了很多R语言进行自然语言处理方面的东西,不过我们知道在自然语言处理上python平台还是当之无愧的王者,而我的笔记本又是windows的,平时通勤的过程中也想玩玩word2vec该如何做呢,今 ...

  8. word2vector安装

    word2vector是Google开源项目主要是做词向量,理论上语料越大越好.python3在安装过程中出现一些问题.再次记录一下我将python安装源改成了清华大学的,创建如下目录:C:\User ...

  9. [Python人工智能] 三十四.Bert模型 (3)keras-bert库构建Bert模型实现微博情感分析

    从本专栏开始,作者正式研究Python深度学习.神经网络及人工智能相关知识.前一篇文章开启了新的内容--Bert,首先介绍Keras-bert库安装及基础用法及文本分类工作.这篇文章将通过keras- ...

  10. [Python人工智能] 十.Tensorflow+Opencv实现CNN自定义图像分类案例及与机器学习KNN图像分类算法对比

    从本专栏开始,作者正式开始研究Python深度学习.神经网络及人工智能相关知识.前一篇详细讲解了gensim词向量Word2Vec安装.基础用法,并实现<庆余年>中文短文本相似度计算及多个 ...

最新文章

  1. html的ideo标签兼容那些浏览器,关于video 标签的浏览器支持
  2. shopt_Linux命令
  3. Wysistat与Webtrends比较
  4. springboot做梦网云科技短信业务
  5. Solaris adsl上网
  6. Java Web 开发后续(二)
  7. 电脑为何连不上手机开的热点
  8. 抖音蓝V认证申请流程是怎么样的?
  9. 阿里云服务器开发实践:使用云服务器ECS搭建DoH服务
  10. Faceless geometries are not supported
  11. 霸榜GitHubTrending的设计模式教程出纸质书啦
  12. 罗庄高新区电子计算机学校,厉害了!临沂这101所中小学要出名了!罗庄这些学校上榜(附全名单)...
  13. 开源 java CMS - FreeCMS2.6 积分规则管理
  14. 英语口语(英语词根与单词的说文解字(李平武 2008版)读书笔记)
  15. 为什么要自己架个gtalk服务器
  16. face morphing
  17. STM32F103ZET6+TIMx定时器
  18. 计算机等级节日综合症,如何超越节日综合症
  19. 鸿蒙系统底部任务栏无响应,win10系统底部任务栏无响应的解决方法
  20. ChatGPT写python代码实录

热门文章

  1. HTML基本知识学习 2021-04-08
  2. 【Python+Stata】豪斯曼检验:固定效应or随机效应?
  3. 玉渊潭赏樱花有感:从无到有写一个jQuery开源插件
  4. oracle数据库中汉字转化成拼音
  5. 基于DCT的信息隐藏
  6. 微信浏览量服务器,微信uv和pv是什么?独立访客(UV)数据页面浏览数(PV)的关系
  7. udf在服务器上显示语法错误,udf编译提示语法错误
  8. python中install语法错误_找不出python的语法错误该如何解决?
  9. C++编程 杨辉三角
  10. 在开发版上用C语言写实心圆,MFC利用CPen与CBrush绘制实心圆