准备语料

准备好自己的语料,保存为txt,每行一个句子或一段话,注意要分好词。

准备源码

从GitHub下载代码,https://github.com/stanfordnlp/GloVe
将语料corpus.txt放入到Glove的主文件夹下。

修改bash

打开demo.sh,修改相应的内容

因为demo默认是下载网上的语料来训练的,因此如果要训练自己的语料,需要注释掉
在这里插入图片描述

修改参数设置,将CORPUS设置成语料的名字
执行bash文件

进入到主文件夹下

make

bash demo.sh

注意,如果训练数据较大,则训练时间较长,那么建议使用nohup来运行程序
nohup bash demo.sh >output.txt 2>&1 &
坐等训练,最后会得到vectors.txt 以及其他的相应的文件。如果要用gensim的word2ve load进来,那么需要在vectors.txt的第一行加上vacob_size vector_size,第一个数指明一共有多少个向量,第二个数指明每个向量有多少维。

6.加载使用巽寮的词向量

from gensim.models import Word2Vec
model = Word2Vec.load_word2vec_format(‘vectors.txt’, binary=False) 

接下来的使用就和word2vec一样

参考

https://www.cnblogs.com/echo-cheng/p/8561171.html

训练GloVe中文词向量相关推荐

  1. Ubuntu下GloVe中文词向量模型训练

    开启美好的九月 最近在学习textCNN进行文本分类,然后随机生成向量构建embedding网络的分类效果不是很佳,便考虑训练Glove词向量来进行训练,整个过程还是有遇到一些问题,希望懂的旁友能来指 ...

  2. glove中文词向量_Summary系列glove模型解读

    一.Glove模型简介 语义文本向量表示可以应用在信息抽取,文档分类,问答系统,NER(Named Entity Recognition)和语义解析等领域中,大都需要计算单词或者文本之间的距离或者相似 ...

  3. gensim训练wiki中文词向量

    尝试用gensim来做word2vec,之后还会用glove和fasttext进行比较 获得wiki语料 前往维基百科:资料库下载, 点击中文版的下载,下载这份大的文件 同时安装好需要的gensim包 ...

  4. glove中文词向量_NLP中文文本分类任务的笔记(一)

    词向量的使用. 通用的词向量包含word2vec,glove,fasttext三种方式,通过n-gram以及COBW或者skip-gram的方式获取得到, 这边分享一个词向量的GitHub资 Embe ...

  5. 用维基百科训练word2vec中文词向量

    主要参考: https://blog.csdn.net/weixin_40547993/article/details/97781179 https://www.kaggle.com/jeffd23/ ...

  6. glove中文词向量_《GloVe:Global Vectors for Word Representation》学习

    1.概述 自从2013年Mikolov提出了word2vec之后,无监督预训练的word embedding越来越火,很多学者都在研究如何获得更好的语义表达.于是,出现了同样是静态表示的Glove,动 ...

  7. java加载中文词向量_Chinese Word Vectors:目前最全的中文预训练词向量集合

    对于国内自然语言处理的研究者而言,中文词向量语料库是需求很大的资源.近日,来自北京师范大学和人民大学的研究者开源了「中文词向量语料库」,试图为大家解决这一问题,该库包含经过数十种用各领域语料(百度百科 ...

  8. 文本分类Keras RNN实践——应用腾讯和百度中文词向量

    中文词向量 深度学习在NLP领域大展身手,而深度学习处理文本,离不开文本的向量化. 英语独特的语法规则,使得单用空格就能将句子中的单词分割开来,从而取得词向量,这极大简化了英语的NLP预处理过程,工业 ...

  9. NLP-分类模型-2016-文本分类:FastText【使用CBOW的模型结构;作用:①文本分类、②训练词向量、③词向量模型迁移(直接拿FastText官方已训练好的词向量来使用)】【基于子词训练】

    <原始论文:Bag of Tricks for Efficient Text Classification> <原始论文:Enriching Word Vectors with Su ...

最新文章

  1. Redis 管道技术
  2. Quartz.NET在ASP.NET 中使用
  3. Windows Live Writer推荐SyntaxHighlighter代码着色插件
  4. 观《phonegap第三季 angularjs+ionic视频教程 实时发布》学习笔记(一)
  5. 荣耀6手机升级android版本,华为荣耀6手机系统是什么?荣耀6能升级安卓4.3吗?...
  6. 第五期 RHCE远程班 12月1日开课(周末班)
  7. linux java top_Linux top和负载的解释(转载)
  8. 元件原理图旋转45度_大口径大曲率半径光学元件的高精度检测
  9. php.ini var dump,php安装xdebug后var_dump()不能输变量内容解决办法
  10. Linux Shell脚本入门教程系列之(六)Shell数组
  11. Java高并发编程详解系列-不可变对象设计模式
  12. NAACL 2019自然语言处理亮点
  13. 算法手记 之 数据结构(并查集详解)(POJ1703)
  14. Atitit java ftp client sumup apache common net jar 1.1. 协议解析 1 1.2. 读取文件 1 2. } 3 1. 下载文件 ftpCli
  15. jsp java 登陆界面代码_jsp登陆界面源代码
  16. python股票自动交易系统_怎样用 Python 写一个股票自动交易的程序
  17. 软件集成测试工作流程指南
  18. 非负矩阵分解 java_matlab练习程序(非负矩阵分解)
  19. css画横线箭头_如何用纯CSS实现的箭头的效果?
  20. ArcGIS Server 服务启动停止解决方法

热门文章

  1. TFLearn入门实例
  2. 使用Matplotlib绘制南丁格尔玫瑰图
  3. 8D报告要如何编写?
  4. caffe把数据转化为lmdb格式zxw.sh
  5. React native 接入百度AI活体检测、人脸识别 iOS版本
  6. 被周鸿祎夸奖的闷骚型产品经理,究竟是如何做产品的?
  7. Monty Python(蒙提·派森)的成员简介
  8. 小学奥数思维训练题(十一)
  9. 论文解读:Prefix-Tuning: Optimizing Continuous Prompts for Generation
  10. Novell的Suse Linux常用命令举例讲