预训练词向量中文维基百科,英文斯坦福glove预训练的词向量下载

2024-04-15 16:21:05

中文预训练词向量——基于中文维基百科语料训练

英文预训练词向量——斯坦福glove预训练的词向量

百度云分享：https://pan.baidu.com/s/1UpZeuqlNMl6XtTB5la53Xw

提取码: afhh

维基百科词向量 sgns.wiki.char.bz2解压后文件后缀名是.char, 可以通过一些方法得到.txt结尾的文件，有35万多个字词和符号，300维的向量表示。将词向量作为词嵌入层时需要加载全部的词向量到内存，如果计算机的内存不够大，会直接内存溢出。所以，截取8000，20000个词汇的词向量进行使用，在配置普遍的设备也能运行。

中文预训练词向量

2018 Analogical Reasoning on Chinese Morphological and Semantic Relations （该文章被2018 ACL收录）

该项目提供了100多个使用不同表示（密集和稀疏），上下文特征（单词，ngram，字符等）和语料库训练的中文单词向量（嵌入）。人们可以很容易地获得具有不同属性的预训练向量，并将它们用于下游任务。

下载地址：https://github.com/Embedding/Chinese-Word-Vectors

参考文献引用：

Li S, Zhao Z, Hu R, et al. Analogical Reasoning on Chinese Morphological and Semantic Relations[J]. meeting of the association for computational linguistics, 2018: 138-143.

英文词向量预训练

官方网站：https://nlp.stanford.edu/projects/glove/

预先训练的单词向量。此数据在Public Domain Dedication and License v1.0下提供，其全文可在以下网址找到：http：//www.opendatacommons.org/licenses/pddl/1.0/。

维基百科2014 + Gigaword 5（6B令牌，400K词汇，无章，50d，100d，200d和300d载体，822 MB下载）：glove.6B.zip
常见爬网（42B令牌，1.9M词汇，无框，300d向量，1.75 GB下载）：glove.42B.300d.zip
Common Crawl（840B令牌，2.2M词汇，套装，300d载体，2.03 GB下载）：glove.840B.300d.zip
Twitter（2B推文，27B令牌，1.2M词汇，无框，25d，50d，100d和200d向量，1.42 GB下载）：glove.twitter.27B.zip

至此结束。

预训练词向量中文维基百科,英文斯坦福glove预训练的词向量下载相关推荐

NLP之word2vec：利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量
NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量目录输出结果设计思路 1.Wikipedia Text语料来源 2.维基 ...
使用中文维基百科训练word2vec模型
一.下载原始数据数据下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 ,或者在这 ...
把一个dataset的表放在另一个dataset里面_使用中文维基百科语料库训练一个word2vec模型并使用说明...
本篇主要介绍如何通过中文维基百科语料库来训练一个word2vec模型. 相关资料下载: 中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/ WikiExtr ...
python训练自己中文语料库_word2vec+维基百科语料库训练中文模型
训练中文词向量word2vec模型 1.准备数据中文维基百科地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-arti ...
使用中文维基百科语料库训练一个word2vec模型
本篇文章主要介绍如何通过中文维基百科语料库来训练一个word2vec模型. 相关资料下载: 中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/20180720 ...
使用中文维基百科语料库训练一个word2vec模型 12.1
转自:https://blog.csdn.net/sinat_29957455/article/details/81432846 本篇文章主要介绍如何通过中文维基百科语料库来训练一个word2vec模 ...
Word2vec训练中文维基百科
1.取得中文维基百科数据,本实验用的数据是zhwiki-20180320-pages-articles-multistream.xml.bz2 也可以前往维基百科数据获取下载最新的数据.(请挑选以pa ...
使用中文维基百科训练word2vec模型的最新方法！
网上看了很多其他博客,发现有些部分都太老旧了,以至于现在套用都错误百出...这里总结了一下使用中文维基百科训练word2vec模型的最新方法. 参考链接: https://blog.csdn.net/ ...
Windows下基于python3使用word2vec训练中文维基百科语料资料汇总
Windows下基于python3使用word2vec训练中文维基百科语料(一):https://www.cnblogs.com/gaofighting/p/9055674.html Windows下 ...

最新文章

热门文章