Google code word2vec toolkit

tooklit project introduction

刚下载的工具包包含以下文件,还需要在trunk目录执行make编译

各文件用途
word2vec.c——训练cbow/skig-gram模型
distance.c——把词看成向量空间上的一个点,计算向量空间上点与点的距离
word-analogy.c——类比任务(vector(“法国”) - vector("巴黎) + vector(“英国”) --> vector(“伦敦”))
word2phrase.c——短语发现(比如New York这个短语,如果我们把它当做两个单词分开处理显然不合适)
compute-accuracy.c——定量的给出词向量在数据集上的类比word/phrase准确率
————————————————————————————————————————
demo-word.sh——训练词向量[word2vec、distance]
demo-analogy.sh——发现类比词[word2vec、word-analogy]
demo-classes.sh——kmeans词聚类[word2vec](输出词 词类别id)
demo-phrases.sh——发现短语词[word2phrase、word2vec、distance]
demo-word-accuracy.sh——计算word的类比词准确率[word2phrase、word2vec、compute-accuracy]
demo-phrase-accuracy.sh——计算phrase的类比词准确率[word2vec、compute-accuracy]

代码及数据集下载

google-code word2vec
text8数据集

训练

(1)先看看训练数据text8

一段英文文本~ 汉语语料,肯定是要先分词了~

(2)word2vec训练词向量
time ./word2vec -train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15
./distance vectors.bin

(3)发现关系类比词
time ./word2vec -train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -t    hreads 20 -binary 1 -iter 15
./word-analogy vectors.bin

(4)词聚类
time ./word2vec -train text8 -output classes.txt -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -t    hreads 20 -iter 15 -classes 500
sort classes.txt -k 2 -n > classes.sorted.txtcat classes.sorted.txt | grep '135\|231\|444' | shuf | less

word 词类别id

(5)发现短语词
sed -e "s/’/'/g" -e "s/′/'/g" -e "s/''/ /g" < news.2012.en.shuffled | tr -c "A-Za-z'_ \n" " " > news.2012.en.sh    uffled-norm0
time ./word2phrase -train news.2012.en.shuffled-norm0 -output news.2012.en.shuffled-norm0-phrase0 -threshold 20    0 -debug 2
time ./word2phrase -train news.2012.en.shuffled-norm0-phrase0 -output news.2012.en.shuffled-norm0-phrase1 -thre    shold 100 -debug 2
tr A-Z a-z < news.2012.en.shuffled-norm0-phrase1 > news.2012.en.shuffled-norm1-phrase1
time ./word2vec -train news.2012.en.shuffled-norm1-phrase1 -output vectors-phrase.bin -cbow 1 -size 200 -window     10 -negative 25 -hs 0 -sample 1e-5 -threads 20 -binary 1 -iter 15
./distance vectors-phrase.bin

word2vec-google code相关推荐

  1. 使用Mercurial从Google Code获得 项目源代码

    在Google Code上看到一个心动的项目源代码? 想要获得它.千万不要一个文件一文件的复制它!!因为你可以用Mercurial 轻松获得它们..有每个项目源代码下面有使用Mercurial路径   ...

  2. GitHub, Google Code, and other

    http://antkillerfarm.github.io/ GitHub 2014.12 自从最近google code日益难以访问以来,我就一直在思考着替代的方案.然后在大徐的blog的指引之下 ...

  3. 一个下载Google code源码的 绿色、迷你工具 MiniSVN v1.0

    一个下载Google code源码的 绿色.迷你工具 MiniSVN v1.0 想下载Google code中的源码 不需要装各种软件,只需要一个小工具即可! 如何使用? 访问一个谷歌开源项目网站,比 ...

  4. 从 Google Code 迁移代码到 GitHub 上

    从Google Code迁移代码到github上的步骤: 首先访问 https://github.com/nirvdrum/svn2git 安装svn2git工具. 创建一个空白目录,进入该目录执行 ...

  5. google code托管项目svn密码获取错误的解决办法

    尝试着把一些自己的工作积累和学习开源项目所得的东西整理成自己的类库,一是方便自己管理更新使用,二是为日后的换工作做下准备.记得以前面试时,很多曾经思考过做过的东西,问起来却回忆不起细节,这会让人感觉这 ...

  6. maven 依赖com.google.code.kaptcha

    前言 在工程的pom.xml文件里已经加了 <dependency><groupId>com.google.code.kaptcha</groupId><ar ...

  7. (转) maven 依赖com.google.code.kaptcha

    https://blog.csdn.net/lancelet223/article/details/78941489 使用时的pom依赖 <dependency><groupId&g ...

  8. google code 免费svn服务器使用说明

    转载:http://zhaoningbo.iteye.com/blog/1122225 引言: 写代码的我们,经常有一些精髓的代码想保存下来,方便用的时候翻阅.要是能放在网上,随时在有网的地方查看就好 ...

  9. google code

    看到很多人把自己的项目放到了google code project上面,自己也就想试试,至少也算个免费空间呢. 总体思路就是在google code上申请一个开源项目, 然后用版本控制客户端torto ...

  10. 初尝Google Code

    今天首次尝试Google Code,按照文章 <<tortoise svn + google code使用方法>>中介绍的方法,一路走下来,还算顺利. 但当要获取项目的密码时, ...

最新文章

  1. 二叉树的层次遍历 II
  2. php调用restful接口_jzq_sdk_php
  3. fsck.ext3: Unable to resolve 'LABEL=/design'
  4. ESP8266—“ICACHE_FLASH_ATTR”宏
  5. java string 字典序_[小白问题] Java 中路径 String 的字典序排序
  6. 来谈谈Spring构造函数注入的循环依赖问题
  7. Python不使用scrapy框架而编写的网页爬虫程序
  8. Linux awk用法
  9. 下载centos(阿里云)
  10. php如何打开格式_php的文件格式是什么?如何打开php文件[graphic]
  11. 小程序加入人脸识别_微信小程序实现人脸识别
  12. 海外app应用市场分享!
  13. 亲爱的,别把上帝缩小了 ---- 读书笔记1
  14. 零基础学摄影nbsp;跟老邮差一步一…
  15. C语言:strtok()的用法。
  16. IT服务台方案:提供完整的业务流程视图
  17. 明日之后各个服务器的信息,明日之后不同区可以一起玩吗_不同服务器互通吗...
  18. 前端导出word图片
  19. VS2019试用期结束怎么办
  20. 德智体美劳,全面发展的DevOps

热门文章

  1. 微信小程序简单实现两列瀑布流布局页面
  2. glassfish java ee_GlassFish 3.1.2发布 开源的JavaEE应用服务器
  3. 原生js实现数据双向绑定
  4. echarts K线图
  5. Bootstrap3 缩略图( thumbnail )
  6. 什么是数据产品,怎么设计一个好用的数据产品
  7. java.sql.SQLException: Illegal conversion 非法转化
  8. LINQS、xp、xb等开源项目的来龙去脉。
  9. 简单的命令改善你的Linux安全
  10. REVERSE-COMPETITION-HGAME2022-Week3