腾讯AI Lab 宣布开源大规模、高质量的中文词向量数据，该数据包含800多万中文词汇，相比现有的公开数据，在覆盖率、新鲜度及准确性上大幅提高，为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。但是有一个很大问题，就是词向量过大，约16g，用普通服务器读取词向量需要半小时。一般用户并不需要太大的词向量，为方便用户，本文搜集了腾讯原版词向量精简版本，并提供各种大小版本的词向量下载。

有关词向量和嵌入技术请看这篇文章（图解word2vec（原文翻译））

腾讯AI Lab开源大规模高质量中文词向量数据简介：

https://cloud.tencent.com/developer/article/1356164

原版腾讯词向量下载：

https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz （6.31g，解压约16g，文末提供百度云下载）

如何使用

很多模型需要测试，建议初次测试的时候使用稍小的词向量版本，比如70000个词的版本（133mb），最后再使用原版800万个词的版本，这样可以节省很多实验时间。很多时候，70000个词的词向量已经可以满足要求了。

读取模型

from gensim.models
import KeyedVectorsmodel
= KeyedVectors.load_word2vec_format("50-small.txt")

使用模型

model.most_similar(positive=['女',
'国王'],
negative=['男'],
topn=1)model.doesnt_match("上海 成都 广州 北京".split(" "))model.similarity('女人',
'男人')model.most_similar('特朗普',topn=10)

深度学习模式示例

使用LSTM模型，根据豆瓣评论，预测打分。

首先下载豆瓣的数据

豆瓣评论数据149M （文末提供下载）

然后下载库对应的分词包。（文末提供下载）
使用效果

加载70000字典前

加载70000字典后

代码文件见

Use Tencent Word Embeddings with douban datasets.ipynb（文末提供下载）

参考：

https://github.com/cliuxinxin/TX-WORD2VEC-SMALL （这位小哥搜集的，希望star下）

https://cloud.tencent.com/developer/article/1356164

总结和下载

腾讯AI Lab 开源的中文词向量数据，包含800多万中文词汇，相比现有的公开数据，在覆盖率、新鲜度及准确性上大幅提高，但是有一个很大问题，就是词向量过大，约15g，用普通服务器读取词向量需要半小时。一般用户并不需要太大的词向量，为方便用户，本文搜集了腾讯原版词向量精简版本，并提供各种大小版本的词向量下载。并提供各种大小版本的词向量下载。

词向量及相关资料下载：

根目录：

5000-small.txt 这个有5000词，可以下下来玩玩
45000-small.txt 这个有4.5w的词，已经能解决很多问题了
70000-small.txt 7w词 133MB
100000-small.txt 10w词 190MB
500000-small.txt 50w词 953MB
1000000-small.txt 100w词 1.9GB
2000000-small.txt 200w词 3.8GB
Tencent_AILab_ChineseEmbedding.tar.gz 原版词向量（6.31g），解压后16g

code文件夹

doubanmovieshortcomments.zip豆瓣评论数据149M
分词文件（如：8000000-dict.txt等）
Use Tencent Word Embeddings with douban datasets.ipynb（测试代码）

下载链接：

https://pan.baidu.com/s/1QVuDrGoo46RaaaTTEpmgPw

提取码：bpai

若被和谐，请回复“腾讯词向量”获取最新地址。

本站简介↓↓↓

“机器学习初学者”是帮助人工智能爱好者入门的个人公众号（创始人：黄海广）

初学者入门的道路上，最需要的是“雪中送炭”，而不是“锦上添花”。

本站的知识星球（黄博的机器学习圈子）ID：92416895

目前在机器学习方向的知识星球排名第一（上图二维码）

往期精彩回顾

良心推荐：机器学习入门资料汇总及学习建议（2018版）
黄海广博士的github镜像下载（机器学习及深度学习资源）
吴恩达老师的机器学习和深度学习课程笔记打印版
机器学习小抄-（像背托福单词一样理解机器学习）
首发：深度学习入门宝典-《python深度学习》原文代码中文注释版及电子书
机器学习的数学基础
机器学习必备宝典-《统计学习方法》的python代码实现、电子书及课件
吐血推荐收藏的学位论文排版教程（完整版）
Python代码写得丑怎么办？推荐几个神器拯救你
重磅 | 完备的 AI 学习路线，最详细的资源整理！
图解word2vec(原文翻译)

备注：本站qq群：865189078（共8个群，不用重复加）。

加入本站微信群，请加黄博的助理微信，说明：公众号用户加群。

推荐：腾讯开源的词向量精简版本下载

腾讯AI Lab开源大规模高质量中文词向量数据简介：

使用模型

深度学习模式示例

Python代码写得丑怎么办？推荐几个神器拯救你

重磅 | 完备的 AI 学习路线，最详细的资源整理！

图解word2vec(原文翻译)

备注：本站qq群：865189078（共8个群，不用重复加）。

推荐：腾讯开源的词向量精简版本下载相关推荐

最新文章

热门文章