首先,下载Glove项目资源:

https://github.com/stanfordnlp/GloVe

 注意1:

后续训练命令仅在服务器命令行界面有效,在本机命令行、anaconda prompt命令行、开发环境如vscode等的终端命令行均无效

 将下载解压之后的glove文件夹通过xftp传到服务器上,存放于123文件夹中(自己随便命名的文件夹)

然后在xshell中进入相应文件夹主目录路径,如下所示,红色部分为输入命令,回车即可:

 (base) 123@ls-X10DAi:~$ cd /home/123/GloVe-master

注意2:

需要先打开demo.sh文件,对内容进行修改:

因为我们使用的是自己的训练集,所以注释掉默认下载语料的语句:

 同时将数据文件换成自己的数据:

 自己的数据集需要先进行分词,一行一条数据,中间以空格隔开,放置在Glove-master主目录下,示意如下:

 接上一个命令行步骤,之前已经输入路径命令,进入主目录之后,输入make命令进行编译:

(base) 123@ls-X10DAi:~/123/GloVe-master$ make

回车之后运行如下(开头和结束部分截图):

 上述过程完成之后,继续输入命令bash demo.sh

(base) 123@ls-X10DAi:~/123/GloVe-master$ bash demo.sh

回车之后,结果如下(开头和结束部分截图):

 最后生成了五个文件,两个txt文件,三个bin文件:

 至此,glove训练自己的中文词向量训练完成

生成文件说明:

vocab_count:  用于计算原文本的单词统计(生成vocab.txt,每一行为:单词 词频)
cooccur:
统计词与词的共现,类似word2vec的窗口内的任意两个词(生成cooccurrence.bin,二进制文件)
shuffle:
对于cooccur中的共现结果重新整理,即word2vec的窗口内的任意两个词(生成 cooccurrence.shuf.bin,二进制文件)
glove:
​​​​​​​glove算法的训练模型,会运用到之前生成的相关文件(vocab.txt和cooccurrence.shuf.bin),最终会输出vectors.txt和vectors.bin(前者直接可以打开,后者还是二进制文件)

Glove模型训练自己的中文数据集词向量详细步骤相关推荐

  1. 利用Python构建Wiki中文语料词向量模型

    利用Python构建Wiki中文语料词向量模型试验 完整代码下载地址:利用Python构建Wiki中文语料词向量模型 本实例主要介绍的是选取wiki中文语料,并使用python完成Word2vec模型 ...

  2. linux英汉字典代码,Ubuntu安装英汉词典(词库)详细步骤

    Ubuntu安装英汉词典(词库)详细步骤 发布时间:2013-05-26 11:26:08   作者:佚名   我要评论 linux并不缺少词典软件.但是缺少词库.所有的词典软件都需要,自己下载安装词 ...

  3. CIFAR-10模型训练python版cifar10数据集

    在之前的博客中已经对CIFAR-10做了整体的解析,但是目前从tensorflow/models/tree/master/tutorials/image/cifar10中下载下来,运行cifar10_ ...

  4. GloVe 教程之实战入门+python gensim 词向量

    前几天看论文,忽然看到了一个跟word2vec并列的词向量工具,这么厉害?还能跟word2vec相提并论? 果断需要试试. GloVe  它来自斯坦福的一篇论文,GloVe全称应该是  Global  ...

  5. LSTM模型预测时间序列性质的进件量---详细步骤以及例子

    此博客适合刚刚入门LSTM的朋友学习,牛逼的朋友请略过,哈哈... github路径: https://github.com/zhouliping3712/LSTM_Times_Series 一.LS ...

  6. wintail 中文显示乱码_win7系统出现乱码无法显示中文如何解决【详细步骤】

    win7系统时当前主流的电脑操作系统,在前段时间微软宣布停止对xp系统技术支持后,使用win7系统的用户也随之增加,使用win7系统的用户是否有出现过 无法显示中文 ,并且都是由乱码组成,导致 win ...

  7. textcnn文本词向量_基于Text-CNN模型的中文文本分类实战

    1 文本分类 文本分类是自然语言处理领域最活跃的研究方向之一,目前文本分类在工业界的应用场景非常普遍,从新闻的分类.商品评论信息的情感分类到微博信息打标签辅助推荐系统,了解文本分类技术是NLP初学者比 ...

  8. 词向量:GloVe 模型详解

      本内容主要介绍构建词向量的 GloVe 模型. 1 前言   在 GloVe 模型被提出之前,学习词向量的模型主要有两大类: 全局矩阵分解方法,例如潜在语义分析(Latent semantic a ...

  9. 静态词向量预训练模型

    1.神经网络语言模型 从语言模型的角度来看,N 元语言模型存在明显的缺点. 首先,模型容易受到数据稀疏的影响,一般需要对模型进行平滑处理:其次,无法对长度超过 N 的上下文依赖关系进行建模. 神经网络 ...

最新文章

  1. win10_x64更新错误解决: 安装一些更新时出现问题,但我们稍后会重试。如果持续出现这些问题,并且你想要搜索Web或联系支持人员以获取相关信息,以下信息可能会对你有帮助:
  2. 基于光学导航系统,矩阵变换和3D-2D配准研究
  3. php手机接口购物车怎么实现,php购物车的实现原理
  4. 仔细看看,您会发现需要改进的地方
  5. 剑指前端(前端入门笔记系列)——数组(基本语法)
  6. 潘石屹回应丁磊“5G言论”:生活在4G的人理解不了5G
  7. Python:PyCharm提示Local variable ‘x‘ value is not used
  8. 通过zabbix获取数据库连接的信息及部分扩展
  9. 第二阶段冲刺 站立会议 -01个人进度
  10. AI金融知识自学偏量化方向-了解不同类型的机器学习2
  11. Axure手机原型图总结
  12. (最简单)uniapp微信小程序生成二维码图片插件
  13. 解决WPS文档不加载金格office360签章的问题
  14. matlab读取txt函数,matlab读取txt某一行
  15. linux服务器安装虚拟桌面,并可视化连接远程桌面
  16. 独立样本与配对样本t检验
  17. 排他思想 -- 百度换肤效果案例 以及 点击某按钮只是该按钮变色
  18. Psins代码解析之线性误差模型精度验证(test_SINS_error_model_verify.m)
  19. [android adb shell] 怎么解锁图案锁屏(pattern lock)的手机?
  20. uniapp 使用sqlite存储聊天记录篇

热门文章

  1. word 顽固的“信息检索”
  2. Android 根目录和sdcard卡路径分析
  3. verilog的代码片段在GVIM/VIM中的使用——:ab 配置使用(定制自己的coding)
  4. “果粉”速递:简单9步轻松绕过iCloud 激活锁
  5. 如何选择合适的进销存管理软件?这几点你需要知道
  6. win10下扩展磁盘空间
  7. node.js目录结构
  8. opencv 与dlib 结合实现人脸融合
  9. 高清视频软件bandicam的破解方法
  10. win10录屏文件在哪?怎么更改win10录屏保存位置