预训练词向量中文维基百科,英文斯坦福glove预训练的词向量下载
中文预训练词向量——基于中文维基百科语料训练
英文预训练词向量——斯坦福glove预训练的词向量
百度云分享:https://pan.baidu.com/s/1UpZeuqlNMl6XtTB5la53Xw
提取码: afhh
维基百科词向量 sgns.wiki.char.bz2解压后文件后缀名是.char, 可以通过一些方法得到.txt结尾的文件,有35万多个字词和符号,300维的向量表示。将词向量作为词嵌入层时需要加载全部的词向量到内存,如果计算机的内存不够大,会直接内存溢出。所以,截取8000,20000个词汇的词向量进行使用,在配置普遍的设备也能运行。
中文预训练词向量
2018 Analogical Reasoning on Chinese Morphological and Semantic Relations (该文章被2018 ACL收录)
该项目提供了100多个使用不同表示(密集和稀疏),上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量(嵌入)。人们可以很容易地获得具有不同属性的预训练向量,并将它们用于下游任务。
下载地址:https://github.com/Embedding/Chinese-Word-Vectors
参考文献引用:
Li S, Zhao Z, Hu R, et al. Analogical Reasoning on Chinese Morphological and Semantic Relations[J]. meeting of the association for computational linguistics, 2018: 138-143.
英文词向量预训练
官方网站:https://nlp.stanford.edu/projects/glove/
预先训练的单词向量。此数据在Public Domain Dedication and License v1.0下提供,其全文可在以下网址找到:http://www.opendatacommons.org/licenses/pddl/1.0/。
- 维基百科2014 + Gigaword 5(6B令牌,400K词汇,无章,50d,100d,200d和300d载体,822 MB下载):glove.6B.zip
- 常见爬网(42B令牌,1.9M词汇,无框,300d向量,1.75 GB下载):glove.42B.300d.zip
- Common Crawl(840B令牌,2.2M词汇,套装,300d载体,2.03 GB下载):glove.840B.300d.zip
- Twitter(2B推文,27B令牌,1.2M词汇,无框,25d,50d,100d和200d向量,1.42 GB下载):glove.twitter.27B.zip
至此结束。
预训练词向量中文维基百科,英文斯坦福glove预训练的词向量下载相关推荐
- NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量
NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量 目录 输出结果 设计思路 1.Wikipedia Text语料来源 2.维基 ...
- 使用中文维基百科训练word2vec模型
一.下载原始数据 数据下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 ,或者在这 ...
- 把一个dataset的表放在另一个dataset里面_使用中文维基百科语料库训练一个word2vec模型并使用说明...
本篇主要介绍如何通过中文维基百科语料库来训练一个word2vec模型. 相关资料下载: 中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/ WikiExtr ...
- python训练自己中文语料库_word2vec+维基百科语料库训练中文模型
训练中文词向量word2vec模型 1.准备数据 中文维基百科地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-arti ...
- 使用中文维基百科语料库训练一个word2vec模型
本篇文章主要介绍如何通过中文维基百科语料库来训练一个word2vec模型. 相关资料下载: 中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/20180720 ...
- 使用中文维基百科语料库训练一个word2vec模型 12.1
转自:https://blog.csdn.net/sinat_29957455/article/details/81432846 本篇文章主要介绍如何通过中文维基百科语料库来训练一个word2vec模 ...
- Word2vec训练中文维基百科
1.取得中文维基百科数据,本实验用的数据是zhwiki-20180320-pages-articles-multistream.xml.bz2 也可以前往维基百科数据获取下载最新的数据.(请挑选以pa ...
- 使用中文维基百科训练word2vec模型的最新方法!
网上看了很多其他博客,发现有些部分都太老旧了,以至于现在套用都错误百出...这里总结了一下使用中文维基百科训练word2vec模型的最新方法. 参考链接: https://blog.csdn.net/ ...
- Windows下基于python3使用word2vec训练中文维基百科语料资料汇总
Windows下基于python3使用word2vec训练中文维基百科语料(一):https://www.cnblogs.com/gaofighting/p/9055674.html Windows下 ...
最新文章
- R语言包_reshape2
- 什么时候应该在C ++中使用类与结构?
- asio 异步demo
- h5 数字变化_前端/h5 D3.js实现根据数据动态更新图形/类似进度实时变化效果
- Vim改装编辑器的安装与使用简介
- 防重 Token 令牌如何实现幂等性?
- 移动办公系统 服务器地址,安卓系统移动办公服务器地址
- 李超线段树 [Heoi2013]Segment
- 实体经济的“数字化”是不可逆转的趋势
- linux 中文乱码 转png_使用pdfBox实现pdf转图片,解决中文方块乱码等问题
- php 递归太多报错,php – javascript太多的递归?
- Jquery 强大的表单验证操作
- html汉字在ie11中乱码,你好 我电脑 IE11 网页下拉的键都变成的中文乱码 例如“马夬”“邢”之类的中文乱码...
- 利用FFmpegFrameGrabber截取视频中的某一帧图片压缩并旋转
- 阿里云服务器申请免费ssl证书
- 尾注参考文献之后添加附录致谢解决办法
- python django跨域解决csrf_exempt
- ALS模拟环境光传感芯片的工作原理
- A律十三折线法G711编解码介绍
- pe能用的固态硬盘测试软件,通用pe工具箱教你如何让硬盘4K对齐
热门文章
- Flume中 File Channel 的优化
- 网络教学在计算机专业应用研究,移动终端在中职计算机网络教学中的应用研究...
- f5服务器负载均衡性能指标,f5服务器负载均衡性能指标
- 计算机开关电源的发展,牛人总结的开关电源的发展现状
- ubuntu屏幕录制软件
- QCSuper:在高通手机猫上捕获无线2G/3G/4G数据包
- 【IoT】创业:创建硬件公司的 9 个步骤
- 激光切割机切割质量判定的规范
- pygame(十五)拼图游戏
- UnityThread子线程使用只能在主线程中调用的函数或Unity API