首先从官网上下载glove

下载地址:https://github.com/stanfordnlp/GloVe

这个工具是需要在lunix下执行的

解压后得到下图

把要生成词向量的文本扔进这个文件夹中(文本一句一行,分词)

我的文本 222.txt

 还 行 一级 棒 , 一切 都 好 ! 玩 的 很 开心 , 很 好 。 景色 优美 , 也 很 好玩 。 风景 特别 好 , 很 喜欢 。 啥 都 没有 啊 , 白 去一趟 ! 不错 , 比 青龙 侠 好多 了   好 地方 , 真的 好 地方 , 不错 青龙峡 也 是 非常 值得 一去 。 景区 很 不错 , 安静 、 幽美 。 值得 一去 , 这里 风景 非常 不错 玩得 很 开心 , 下次 还会 再 去 。 感觉 一般般 , 漂流 可以 试试 , 很 好 , 山西 太行山 很 不错 的 。 风景 不错 , 值得 来 这里 游玩 ! 长治 博物馆 体验 长治 人文 特色 ! 这 是 那 一片 山脉 里 最好 的 , 推荐 八路军 纪念馆 好 地方 , 值得 一去 !

修改demo.sh中的东西

首先我们先了解一下demo.sh中的一些内容

CORPUS=text8                                     要生成词向量的文本
VOCAB_FILE=vocab.txt                             得到的词和词频
COOCCURRENCE_FILE=cooccurrence.bin
COOCCURRENCE_SHUF_FILE=cooccurrence.shuf.bin
BUILDDIR=build
SAVE_FILE=vectors
VERBOSE=2
MEMORY=4.0                                        内存
VOCAB_MIN_COUNT=5                                 最小词频数
VECTOR_SIZE=50                                    词向量维度
MAX_ITER=15                                       训练迭代次数
WINDOW_SIZE=15                                    上下文窗口数
BINARY=2                                          保存文件类型(2进制)
NUM_THREADS=8                                     线程数
X_MAX=10

在这里修改CORPUS=222.txt,保存

在终端输入命令

sh demo.sh(centOS)bash demo.sh(ubuntu)

然后我的代码报错了

Shuffling by chunks: processed 0 lines.demo.sh: 行 40: 11571 段错误               (吐核)$BUILDDIR/shuffle -memory $MEMORY -verbose $VERBOSE < $COOCCURRENCE_FILE > $COOCCURRENCE_SHUF_FILE

因为在demo.sh中设置的MEMORY=4大于机器的memory

修改后的代码如下(我还改了其他参数,请根据需求自行修改)

CORPUS=222.txt
VOCAB_FILE=vocab.txt
COOCCURRENCE_FILE=cooccurrence.bin
COOCCURRENCE_SHUF_FILE=cooccurrence.shuf.bin
BUILDDIR=build
SAVE_FILE=vectors
VERBOSE=2
MEMORY=2.0
VOCAB_MIN_COUNT=5
VECTOR_SIZE=300
MAX_ITER=15
WINDOW_SIZE=15
BINARY=2
NUM_THREADS=8
X_MAX=10

最后得到结果

剧终。。。

另一篇文章说:

原文地址:https://blog.csdn.net/weixin_37947156/article/details/83145778

注意,如果训练数据较大,则训练时间较长,那么建议使用nohup来运行程序
nohup bash demo.sh >output.txt 2>&1 &
坐等训练,最后会得到vectors.txt 以及其他的相应的文件。如果要用gensim的word2ve load进来,那么需要在vectors.txt的第一行加上vacob_size vector_size,第一个数指明一共有多少个向量,第二个数指明每个向量有多少维。
我没有使用过,用后过来修改

使用GloVe生成中文词向量相关推荐

  1. 腾讯AI Lab开源大规模高质量中文词向量数据,800万中文词随你用

    今日,腾讯AI Lab 宣布开源大规模.高质量的中文词向量数据.该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率.新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向 ...

  2. AAAI 2018 论文 | 蚂蚁金服公开最新基于笔画的中文词向量算法

    导读:词向量算法是自然语言处理领域的基础算法,在序列标注.问答系统和机器翻译等诸多任务中都发挥了重要作用.词向量算法最早由谷歌在2013年提出的word2vec,在接下来的几年里,该算法也经历不断的改 ...

  3. 词向量算法—【AAAI2018】蚂蚁金服公开的基于笔画的中文词向量算法

    词向量算法是自然语言处理领域的基础算法,在序列标注.问答系统和机器翻译等诸多任务中都发挥了重要作用.词向量算法最早由谷歌在2013年提出的word2vec,在接下来的几年里.该算法也经历了不断的改进, ...

  4. 清华 词向量库_word2vec 构建中文词向量

    词向量作为文本的基本结构--词的模型,以其优越的性能,受到自然语言处理领域研究人员的青睐.良好的词向量可以达到语义相近的词在词向量空间里聚集在一起,这对后续的文本分类,文本聚类等等操作提供了便利,本文 ...

  5. word2vec 构建中文词向量

    2019独角兽企业重金招聘Python工程师标准>>> word2vec 构建中文词向量 词向量作为文本的基本结构--词的模型,以其优越的性能,受到自然语言处理领域研究人员的青睐.良 ...

  6. 十四、中文词向量训练一

    1.Word2vec介绍 1.1 Word Embedding介绍 WordEmbedding将「不可计算」「非结构化」的词转化为「可计算」「结构化」的向量. 1.2 Word2vec 基本内容 Wo ...

  7. 文本分类Keras RNN实践——应用腾讯和百度中文词向量

    中文词向量 深度学习在NLP领域大展身手,而深度学习处理文本,离不开文本的向量化. 英语独特的语法规则,使得单用空格就能将句子中的单词分割开来,从而取得词向量,这极大简化了英语的NLP预处理过程,工业 ...

  8. 使用transformers框架导入bert模型提取中文词向量

    导言 在笔者的上一篇文章大白话讲懂word2vec原理和如何使用中提到了如何将词语转变成计算机能够识别的语言,即将文本数据转换成计算机能够运算的数字或者向量这个概念,并详细阐述了word2vec这个模 ...

  9. 中文词向量:使用pytorch实现CBOW

    整个项目和使用说明地址:链接:https://pan.baidu.com/s/1my30wyqOk_WJD0jjM7u4TQ                                       ...

最新文章

  1. Office 365系列之十:批量部署O365客户端
  2. 虚拟机的联网模式正确的选择
  3. tomcat 目录结构 web 目录结构
  4. JZOJ 5401. 【NOIP2017提高A组模拟10.8】Star Way To Heaven
  5. 欧拉公式cos_对复数,复数平面以及欧拉公式的理解
  6. 【转】TFS上分支和标签的用法
  7. Python实时获取鼠标下窗口文本
  8. 实力验证,浪潮整机柜软件定义存储性能有“数”可依
  9. B - I Hate It(单点更新)(区间求最大值)
  10. const常类型说明
  11. java 认证考试题,2017年Java认证考试试题
  12. java不小于等于符号怎么打_小于号,小于等于号怎么用键盘打出来?-大于等于号怎么打-数学-毕睬诵同学...
  13. 海德汉圆光栅编码器RON786C/RON886C/RON785C/RPN886/RON285/RON287/RON275参数针脚定义
  14. 借鉴华为HiLink实现微信小程序智能配网功能
  15. 论文阅读 [TPAMI-2022] Locally Connected Network for Monocular 3D Human Pose Estimation
  16. 用python画一个笑脸_python画个笑脸
  17. 限速之令牌桶和漏桶算法
  18. 【XSY2271】青蛙(栈)
  19. JS中解决单击双击事件的冲突的问题
  20. uarl 1019 涂色

热门文章

  1. 单播、广播、多播(组播)的概念和区别
  2. opencv-python将彩色图片变回灰色图片
  3. 财务自由之路笔记 第一章 你真正想要什么
  4. 警务通、停车场收费终端集成手机拍照车牌识别SDK,通过手机就可实现快速便捷的出入口系统管理...
  5. 对实际电流源中内阻变化的简单分析
  6. Hadoop数据本地化
  7. 世纪难题,当Python爬虫遇到短信验证码如何处理?
  8. Celery介绍---手机短信异步发送
  9. VPX-M1 3U VPX 刀片计算机产品
  10. Hbase(3):HBase常用shell