使用GloVe生成中文词向量
首先从官网上下载glove
下载地址:https://github.com/stanfordnlp/GloVe
这个工具是需要在lunix下执行的
解压后得到下图
把要生成词向量的文本扔进这个文件夹中(文本一句一行,分词)
我的文本 222.txt
还 行 一级 棒 , 一切 都 好 ! 玩 的 很 开心 , 很 好 。 景色 优美 , 也 很 好玩 。 风景 特别 好 , 很 喜欢 。 啥 都 没有 啊 , 白 去一趟 ! 不错 , 比 青龙 侠 好多 了 好 地方 , 真的 好 地方 , 不错 青龙峡 也 是 非常 值得 一去 。 景区 很 不错 , 安静 、 幽美 。 值得 一去 , 这里 风景 非常 不错 玩得 很 开心 , 下次 还会 再 去 。 感觉 一般般 , 漂流 可以 试试 , 很 好 , 山西 太行山 很 不错 的 。 风景 不错 , 值得 来 这里 游玩 ! 长治 博物馆 体验 长治 人文 特色 ! 这 是 那 一片 山脉 里 最好 的 , 推荐 八路军 纪念馆 好 地方 , 值得 一去 !
修改demo.sh中的东西
首先我们先了解一下demo.sh中的一些内容
CORPUS=text8 要生成词向量的文本
VOCAB_FILE=vocab.txt 得到的词和词频
COOCCURRENCE_FILE=cooccurrence.bin
COOCCURRENCE_SHUF_FILE=cooccurrence.shuf.bin
BUILDDIR=build
SAVE_FILE=vectors
VERBOSE=2
MEMORY=4.0 内存
VOCAB_MIN_COUNT=5 最小词频数
VECTOR_SIZE=50 词向量维度
MAX_ITER=15 训练迭代次数
WINDOW_SIZE=15 上下文窗口数
BINARY=2 保存文件类型(2进制)
NUM_THREADS=8 线程数
X_MAX=10
在这里修改CORPUS=222.txt,保存
在终端输入命令
sh demo.sh(centOS)bash demo.sh(ubuntu)
然后我的代码报错了
Shuffling by chunks: processed 0 lines.demo.sh: 行 40: 11571 段错误 (吐核)$BUILDDIR/shuffle -memory $MEMORY -verbose $VERBOSE < $COOCCURRENCE_FILE > $COOCCURRENCE_SHUF_FILE
因为在demo.sh中设置的MEMORY=4大于机器的memory
修改后的代码如下(我还改了其他参数,请根据需求自行修改)
CORPUS=222.txt
VOCAB_FILE=vocab.txt
COOCCURRENCE_FILE=cooccurrence.bin
COOCCURRENCE_SHUF_FILE=cooccurrence.shuf.bin
BUILDDIR=build
SAVE_FILE=vectors
VERBOSE=2
MEMORY=2.0
VOCAB_MIN_COUNT=5
VECTOR_SIZE=300
MAX_ITER=15
WINDOW_SIZE=15
BINARY=2
NUM_THREADS=8
X_MAX=10
最后得到结果
剧终。。。
另一篇文章说:
原文地址:https://blog.csdn.net/weixin_37947156/article/details/83145778
注意,如果训练数据较大,则训练时间较长,那么建议使用nohup来运行程序
nohup bash demo.sh >output.txt 2>&1 &
坐等训练,最后会得到vectors.txt 以及其他的相应的文件。如果要用gensim的word2ve load进来,那么需要在vectors.txt的第一行加上vacob_size vector_size,第一个数指明一共有多少个向量,第二个数指明每个向量有多少维。
我没有使用过,用后过来修改
使用GloVe生成中文词向量相关推荐
- 腾讯AI Lab开源大规模高质量中文词向量数据,800万中文词随你用
今日,腾讯AI Lab 宣布开源大规模.高质量的中文词向量数据.该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率.新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向 ...
- AAAI 2018 论文 | 蚂蚁金服公开最新基于笔画的中文词向量算法
导读:词向量算法是自然语言处理领域的基础算法,在序列标注.问答系统和机器翻译等诸多任务中都发挥了重要作用.词向量算法最早由谷歌在2013年提出的word2vec,在接下来的几年里,该算法也经历不断的改 ...
- 词向量算法—【AAAI2018】蚂蚁金服公开的基于笔画的中文词向量算法
词向量算法是自然语言处理领域的基础算法,在序列标注.问答系统和机器翻译等诸多任务中都发挥了重要作用.词向量算法最早由谷歌在2013年提出的word2vec,在接下来的几年里.该算法也经历了不断的改进, ...
- 清华 词向量库_word2vec 构建中文词向量
词向量作为文本的基本结构--词的模型,以其优越的性能,受到自然语言处理领域研究人员的青睐.良好的词向量可以达到语义相近的词在词向量空间里聚集在一起,这对后续的文本分类,文本聚类等等操作提供了便利,本文 ...
- word2vec 构建中文词向量
2019独角兽企业重金招聘Python工程师标准>>> word2vec 构建中文词向量 词向量作为文本的基本结构--词的模型,以其优越的性能,受到自然语言处理领域研究人员的青睐.良 ...
- 十四、中文词向量训练一
1.Word2vec介绍 1.1 Word Embedding介绍 WordEmbedding将「不可计算」「非结构化」的词转化为「可计算」「结构化」的向量. 1.2 Word2vec 基本内容 Wo ...
- 文本分类Keras RNN实践——应用腾讯和百度中文词向量
中文词向量 深度学习在NLP领域大展身手,而深度学习处理文本,离不开文本的向量化. 英语独特的语法规则,使得单用空格就能将句子中的单词分割开来,从而取得词向量,这极大简化了英语的NLP预处理过程,工业 ...
- 使用transformers框架导入bert模型提取中文词向量
导言 在笔者的上一篇文章大白话讲懂word2vec原理和如何使用中提到了如何将词语转变成计算机能够识别的语言,即将文本数据转换成计算机能够运算的数字或者向量这个概念,并详细阐述了word2vec这个模 ...
- 中文词向量:使用pytorch实现CBOW
整个项目和使用说明地址:链接:https://pan.baidu.com/s/1my30wyqOk_WJD0jjM7u4TQ ...
最新文章
- Office 365系列之十:批量部署O365客户端
- 虚拟机的联网模式正确的选择
- tomcat 目录结构 web 目录结构
- JZOJ 5401. 【NOIP2017提高A组模拟10.8】Star Way To Heaven
- 欧拉公式cos_对复数,复数平面以及欧拉公式的理解
- 【转】TFS上分支和标签的用法
- Python实时获取鼠标下窗口文本
- 实力验证,浪潮整机柜软件定义存储性能有“数”可依
- B - I Hate It(单点更新)(区间求最大值)
- const常类型说明
- java 认证考试题,2017年Java认证考试试题
- java不小于等于符号怎么打_小于号,小于等于号怎么用键盘打出来?-大于等于号怎么打-数学-毕睬诵同学...
- 海德汉圆光栅编码器RON786C/RON886C/RON785C/RPN886/RON285/RON287/RON275参数针脚定义
- 借鉴华为HiLink实现微信小程序智能配网功能
- 论文阅读 [TPAMI-2022] Locally Connected Network for Monocular 3D Human Pose Estimation
- 用python画一个笑脸_python画个笑脸
- 限速之令牌桶和漏桶算法
- 【XSY2271】青蛙(栈)
- JS中解决单击双击事件的冲突的问题
- uarl 1019 涂色