1. 环境及语料

1.1 环境

  • Python
  • GloVe

1.2 语料

  • 处理之后的中文Wiki

处理步骤参考我的这篇博客:使用中文维基百科进行Word2Vec实验。处理之后得到文件:corpus.zhwiki.segwithb.txt

2. 实验

2.1 GloVe

  • 获取GloVe,命令:wget http://www-nlp.stanford.edu/software/GloVe-1.2.zip
  • j解压缩:unzip GloVe-1.2.zip
  • cd GloVe-1.2
  • make

2.2 vocab_count

  • 命令:build/vocab_count -min-count 3 -verbose 2 < corpus.zhwiki.segwithb.txt > zhs_wiki_vocab

vocab_count从语料库(corpus.zhwiki.segwithb.txt是上面第一步处理好的语料库)中统计词频,输出文件 zhs_wiki_vocab,每行为词语 词频;-min-count 5指示词频低于5的词舍弃,-verbose 2控制屏幕打印信息的,设为0表示不输出

2.3 cooccur

  • 命令:build/cooccur -memory 4.0 -vocab-file zhs_wiki_vocab -verbose 2 -window-size 5 < corpus.zhwiki.segwithb.txt > zhs_wiki_cooccurence.bin

cooccur 从语料库中统计词共现,输出文件 zhs_wiki_cooccurence.bin,格式为非文本的二进制;-memory 4.0指示bigram_table缓冲器,-vocab-file指上一步得到的文件,-verbose 2同上,-window-size 5指示词窗口大小。

2.4 shuffle

  • 命令: build/shuffle -memory 4.0 -verbose 2 < zhs_wiki_cooccurence.bin > zhs_wiki_shuff.bin

shuffle 对 zhs_wiki_cooccurence.bin 重新整理,输出文件zhs_wiki_shuff.bin

2.5 Training

  • 命令:build/glove -save-file zhs_wiki_glove.vectors.300d.txt -threads 8 -input-file zhs_wiki_shuff.bin -vocab-file zhs_wiki_vocab -x-max 10 -iter 5 -vector-size 300 -binary 2 -verbose 2

glove 训练模型,输出词向量文件。-save-file 、-threads 、-input-file 和-vocab-file 直接按照字面应该就可以理解了,-iter 表示迭代次数,-vector-size 表示向量维度大小,-binary 控制输出格式0: save as text files; 1: save as binary; 2: both
可以根据自己的需求选择训词向量的维度,常选择100、200、300维

使用中文维基百科进行GloVe实验相关推荐

  1. 使用中文维基百科进行Word2Vec实验

    1. 环境及语料 1.1 环境 Homebrew Python jieba分词库 gensim库 1.2 下载维基百科语料 从这个链接下载http://download.wikipedia.com/z ...

  2. 中文维基百科语料上的Word2Vec实验

    说明:此文主要参考52nlp-中英文维基百科语料上的Word2Vec实验,按照上面的步骤来做的,略有改动,因此不完全是转载的.这里,为了方便大家可以更快地运行gensim中的word2vec模型,我提 ...

  3. 预训练词向量中文维基百科,英文斯坦福glove预训练的词向量下载

    中文预训练词向量--基于中文维基百科语料训练 英文预训练词向量--斯坦福glove预训练的词向量 百度云分享:https://pan.baidu.com/s/1UpZeuqlNMl6XtTB5la53 ...

  4. Word2vec训练中文维基百科

    1.取得中文维基百科数据,本实验用的数据是zhwiki-20180320-pages-articles-multistream.xml.bz2 也可以前往维基百科数据获取下载最新的数据.(请挑选以pa ...

  5. Windows下基于python3使用word2vec训练中文维基百科语料(一)

    在进行自然语言处理之前,首先需要一个语料,这里选择维基百科中文语料,由于维基百科是 .xml.bz2文件,所以要将其转换成.txt文件,下面就是相关步骤: 步骤一:下载维基百科中文语料 https:/ ...

  6. 把一个dataset的表放在另一个dataset里面_使用中文维基百科语料库训练一个word2vec模型并使用说明...

    ​本篇主要介绍如何通过中文维基百科语料库来训练一个word2vec模型. 相关资料下载: 中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/ WikiExtr ...

  7. NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量

    NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量 目录 输出结果 设计思路 1.Wikipedia Text语料来源 2.维基 ...

  8. Windows下基于python3使用word2vec训练中文维基百科语料资料汇总

    Windows下基于python3使用word2vec训练中文维基百科语料(一):https://www.cnblogs.com/gaofighting/p/9055674.html Windows下 ...

  9. 使用中文维基百科语料库训练一个word2vec模型

    本篇文章主要介绍如何通过中文维基百科语料库来训练一个word2vec模型. 相关资料下载: 中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/20180720 ...

  10. 使用中文维基百科语料库训练一个word2vec模型 12.1

    转自:https://blog.csdn.net/sinat_29957455/article/details/81432846 本篇文章主要介绍如何通过中文维基百科语料库来训练一个word2vec模 ...

最新文章

  1. 苹果小圆点怎么关闭_苹果手机连按2下屏幕,就能自动截图,不知道的来学一学...
  2. 2019年工信部重点实验室名单公布 涵盖卫星导航及人工智能等多个领域
  3. 风清杨之Oracle的安装与说明
  4. golang 单元测试
  5. UPSNet论文笔记
  6. 苹果考虑3月8日或前后发布5G iPhone SE
  7. oracle 函数 abs,Oracle 函数(八)
  8. 用Python编写干净 可测试 高质量的代码
  9. [导入][转] Eclipse中的快捷键
  10. android高通WiFi,高通QCA9377 WiFi蓝牙模块芯片介绍,
  11. Java常见gis开源框架,开源gis大全java
  12. 购票系统c语言座位分配,铁路购票系统的简单座位分配算法
  13. CAS配置REST请求方式
  14. php用redis实现队列,PHP使用Redis实现队列
  15. 白山数聚蜂巢敏捷集成助力能源企业数字化转型
  16. IE和Firefox浏览器下javascript、CSS兼容性研究
  17. vue 项目使用 Clipboard-复制文本或图片到剪贴板
  18. 【经典算法实现 3】冒泡排序算法(单向冒泡,双向冒泡)
  19. [敛火成丹]Win11Dev-25236.1010专业工作站版-微调
  20. 记录下在线扩容服务器遇到的问题 NOCHANGE: partition 1 is size 419428319. it cannot be grown

热门文章

  1. 怎么才能够坚持做一件事并且把它做好?
  2. java玫瑰花代码_给爱人的玫瑰花表白程序代码–Java版 | 学步园
  3. SharePoint Designer定制MOSS/WSS表单页面
  4. Error querying database. Cause: java.sql.SQLException: ORA-01008: 并非所有变量都已绑定
  5. Vue2 + ElementUI登录界面模板
  6. MATLAB对数刻度绘图 (不等间距坐标绘图)
  7. favicon 尺寸问题
  8. Apache ShenYu源码阅读系列-Agent模块源码分析
  9. 全球服务器系统排行,服务器操作系统排行榜
  10. 什么是听觉?机器听觉?