中文预训练词向量——基于中文维基百科语料训练

英文预训练词向量——斯坦福glove预训练的词向量

百度云分享:https://pan.baidu.com/s/1UpZeuqlNMl6XtTB5la53Xw

提取码: afhh

维基百科词向量 sgns.wiki.char.bz2解压后文件后缀名是.char, 可以通过一些方法得到.txt结尾的文件,有35万多个字词和符号,300维的向量表示。将词向量作为词嵌入层时需要加载全部的词向量到内存,如果计算机的内存不够大,会直接内存溢出。所以,截取8000,20000个词汇的词向量进行使用,在配置普遍的设备也能运行。

中文预训练词向量

2018  Analogical Reasoning on Chinese Morphological and Semantic Relations      (该文章被2018 ACL收录)

该项目提供了100多个使用不同表示(密集和稀疏),上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量(嵌入)。人们可以很容易地获得具有不同属性的预训练向量,并将它们用于下游任务。

下载地址:https://github.com/Embedding/Chinese-Word-Vectors

参考文献引用:

Li S, Zhao Z, Hu R, et al. Analogical Reasoning on Chinese Morphological and Semantic Relations[J]. meeting of the association for computational linguistics, 2018: 138-143.

英文词向量预训练

官方网站:https://nlp.stanford.edu/projects/glove/

预先训练的单词向量。此数据在Public Domain Dedication and License v1.0下提供,其全文可在以下网址找到:http://www.opendatacommons.org/licenses/pddl/1.0/。

  • 维基百科2014 + Gigaword 5(6B令牌,400K词汇,无章,50d,100d,200d和300d载体,822 MB下载):glove.6B.zip
  • 常见爬网(42B令牌,1.9M词汇,无框,300d向量,1.75 GB下载):glove.42B.300d.zip
  • Common Crawl(840B令牌,2.2M词汇,套装,300d载体,2.03 GB下载):glove.840B.300d.zip
  • Twitter(2B推文,27B令牌,1.2M词汇,无框,25d,50d,100d和200d向量,1.42 GB下载):glove.twitter.27B.zip

至此结束。

预训练词向量中文维基百科,英文斯坦福glove预训练的词向量下载相关推荐

  1. NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量

    NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量 目录 输出结果 设计思路 1.Wikipedia Text语料来源 2.维基 ...

  2. 使用中文维基百科训练word2vec模型

    一.下载原始数据 数据下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 ,或者在这 ...

  3. 把一个dataset的表放在另一个dataset里面_使用中文维基百科语料库训练一个word2vec模型并使用说明...

    ​本篇主要介绍如何通过中文维基百科语料库来训练一个word2vec模型. 相关资料下载: 中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/ WikiExtr ...

  4. python训练自己中文语料库_word2vec+维基百科语料库训练中文模型

    训练中文词向量word2vec模型 1.准备数据 中文维基百科地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-arti ...

  5. 使用中文维基百科语料库训练一个word2vec模型

    本篇文章主要介绍如何通过中文维基百科语料库来训练一个word2vec模型. 相关资料下载: 中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/20180720 ...

  6. 使用中文维基百科语料库训练一个word2vec模型 12.1

    转自:https://blog.csdn.net/sinat_29957455/article/details/81432846 本篇文章主要介绍如何通过中文维基百科语料库来训练一个word2vec模 ...

  7. Word2vec训练中文维基百科

    1.取得中文维基百科数据,本实验用的数据是zhwiki-20180320-pages-articles-multistream.xml.bz2 也可以前往维基百科数据获取下载最新的数据.(请挑选以pa ...

  8. 使用中文维基百科训练word2vec模型的最新方法!

    网上看了很多其他博客,发现有些部分都太老旧了,以至于现在套用都错误百出...这里总结了一下使用中文维基百科训练word2vec模型的最新方法. 参考链接: https://blog.csdn.net/ ...

  9. Windows下基于python3使用word2vec训练中文维基百科语料资料汇总

    Windows下基于python3使用word2vec训练中文维基百科语料(一):https://www.cnblogs.com/gaofighting/p/9055674.html Windows下 ...

最新文章

  1. R语言包_reshape2
  2. 什么时候应该在C ++中使用类与结构?
  3. asio 异步demo
  4. h5 数字变化_前端/h5 D3.js实现根据数据动态更新图形/类似进度实时变化效果
  5. Vim改装编辑器的安装与使用简介
  6. 防重 Token 令牌如何实现幂等性?
  7. 移动办公系统 服务器地址,安卓系统移动办公服务器地址
  8. 李超线段树 [Heoi2013]Segment
  9. 实体经济的“数字化”是不可逆转的趋势
  10. linux 中文乱码 转png_使用pdfBox实现pdf转图片,解决中文方块乱码等问题
  11. php 递归太多报错,php – javascript太多的递归?
  12. Jquery 强大的表单验证操作
  13. html汉字在ie11中乱码,你好 我电脑 IE11  网页下拉的键都变成的中文乱码 例如“马夬”“邢”之类的中文乱码...
  14. 利用FFmpegFrameGrabber截取视频中的某一帧图片压缩并旋转
  15. 阿里云服务器申请免费ssl证书
  16. 尾注参考文献之后添加附录致谢解决办法
  17. python django跨域解决csrf_exempt
  18. ALS模拟环境光传感芯片的工作原理
  19. A律十三折线法G711编解码介绍
  20. pe能用的固态硬盘测试软件,通用pe工具箱教你如何让硬盘4K对齐

热门文章

  1. Flume中 File Channel 的优化
  2. 网络教学在计算机专业应用研究,移动终端在中职计算机网络教学中的应用研究...
  3. f5服务器负载均衡性能指标,f5服务器负载均衡性能指标
  4. 计算机开关电源的发展,牛人总结的开关电源的发展现状
  5. ubuntu屏幕录制软件
  6. QCSuper:在高通手机猫上捕获无线2G/3G/4G数据包
  7. 【IoT】创业:创建硬件公司的 9 个步骤
  8. 激光切割机切割质量判定的规范
  9. pygame(十五)拼图游戏
  10. UnityThread子线程使用只能在主线程中调用的函数或Unity API