腾讯AI Lab 宣布开源大规模、高质量的中文词向量数据,该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率、新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。但是有一个很大问题,就是词向量过大,约16g,用普通服务器读取词向量需要半小时。一般用户并不需要太大的词向量,为方便用户,本文搜集了腾讯原版词向量精简版本,并提供各种大小版本的词向量下载。

有关词向量和嵌入技术请看这篇文章(图解word2vec(原文翻译))

腾讯AI Lab开源大规模高质量中文词向量数据简介:

https://cloud.tencent.com/developer/article/1356164

原版腾讯词向量下载:

https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz (6.31g,解压约16g,文末提供百度云下载)

如何使用

很多模型需要测试,建议初次测试的时候使用稍小的词向量版本,比如70000个词的版本(133mb),最后再使用原版800万个词的版本,这样可以节省很多实验时间。很多时候,70000个词的词向量已经可以满足要求了。

读取模型

from gensim.models
import KeyedVectorsmodel
= KeyedVectors.load_word2vec_format("50-small.txt")

使用模型

model.most_similar(positive=['女',
'国王'],
negative=['男'],
topn=1)model.doesnt_match("上海 成都 广州 北京".split(" "))model.similarity('女人',
'男人')model.most_similar('特朗普',topn=10)

深度学习模式示例

使用LSTM模型,根据豆瓣评论,预测打分。

  • 首先下载豆瓣的数据

豆瓣评论数据149M (文末提供下载)

  • 然后下载库对应的分词包。(文末提供下载)

  • 使用效果

加载70000字典前

加载70000字典后

  • 代码文件见

Use Tencent Word Embeddings with douban datasets.ipynb(文末提供下载)

参考:

https://github.com/cliuxinxin/TX-WORD2VEC-SMALL (这位小哥搜集的,希望star下)

https://cloud.tencent.com/developer/article/1356164

总结和下载

腾讯AI Lab 开源的中文词向量数据,包含800多万中文词汇,相比现有的公开数据,在覆盖率、新鲜度及准确性上大幅提高,但是有一个很大问题,就是词向量过大,约15g,用普通服务器读取词向量需要半小时。一般用户并不需要太大的词向量,为方便用户,本文搜集了腾讯原版词向量精简版本,并提供各种大小版本的词向量下载。并提供各种大小版本的词向量下载。

词向量及相关资料下载:

根目录:

  • 5000-small.txt 这个有5000词,可以下下来玩玩

  • 45000-small.txt 这个有4.5w的词,已经能解决很多问题了

  • 70000-small.txt 7w词  133MB

  • 100000-small.txt 10w词 190MB

  • 500000-small.txt 50w词 953MB

  • 1000000-small.txt 100w词 1.9GB

  • 2000000-small.txt 200w词 3.8GB

  • Tencent_AILab_ChineseEmbedding.tar.gz 原版词向量(6.31g),解压后16g

code文件夹

  • doubanmovieshortcomments.zip豆瓣评论数据149M

  • 分词文件(如:8000000-dict.txt等)

  • Use Tencent Word Embeddings with douban datasets.ipynb(测试代码)

下载链接:

https://pan.baidu.com/s/1QVuDrGoo46RaaaTTEpmgPw

提取码:bpai

若被和谐,请回复“腾讯词向量”获取最新地址。

本站简介↓↓↓ 

“机器学习初学者”是帮助人工智能爱好者入门的个人公众号(创始人:黄海广)

初学者入门的道路上,最需要的是“雪中送炭”,而不是“锦上添花”。

本站的知识星球(黄博的机器学习圈子)ID:92416895

目前在机器学习方向的知识星球排名第一(上图二维码)

往期精彩回顾

  • 良心推荐:机器学习入门资料汇总及学习建议(2018版)

  • 黄海广博士的github镜像下载(机器学习及深度学习资源)

  • 吴恩达老师的机器学习和深度学习课程笔记打印版

  • 机器学习小抄-(像背托福单词一样理解机器学习)

  • 首发:深度学习入门宝典-《python深度学习》原文代码中文注释版及电子书

  • 机器学习的数学基础

  • 机器学习必备宝典-《统计学习方法》的python代码实现、电子书及课件

  • 吐血推荐收藏的学位论文排版教程(完整版)

  • Python代码写得丑怎么办?推荐几个神器拯救你

  • 重磅 | 完备的 AI 学习路线,最详细的资源整理!

  • 图解word2vec(原文翻译)

备注:本站qq群:865189078(共8个群,不用重复加)。

加入本站微信群,请加黄博的助理微信,说明:公众号用户加群。

推荐:腾讯开源的词向量精简版本下载相关推荐

  1. 推荐:腾讯开源的词向量精简版本下载|湾区人工智能

    腾讯AI Lab 宣布开源大规模.高质量的中文词向量数据,该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率.新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务 ...

  2. 基于腾讯AI Lab词向量进行未知词、短语向量补齐与域内相似词搜索

    (~免费广告位一则~) 数据下载地址: https://ai.tencent.com/ailab/nlp/en/embedding.html AI Lab开源大规模高质量中文词向量数据,800万中文词 ...

  3. faiss通用向量搜索服务玩转腾讯880万词向量

    通用向量搜索服务 faiss是个高效的向量搜索解决方案,经过测试对比,可以感受到它的飞速,关于faiss性能测试的见这里:faiss包装与性能对比 这次开源的是使用faiss搭建的通用向量搜索服务. ...

  4. 开源中文词向量加载(训练好的词向量如何加载) tensorflow

    中文词向量下载 https://github.com/Embedding/Chinese-Word-Vectors 用到的函数: readline() 方法: fileObject.readline( ...

  5. 腾讯AI Lab开源大规模高质量中文词向量数据,800万中文词随你用

    今日,腾讯AI Lab 宣布开源大规模.高质量的中文词向量数据.该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率.新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向 ...

  6. 文本分类Keras RNN实践——应用腾讯和百度中文词向量

    中文词向量 深度学习在NLP领域大展身手,而深度学习处理文本,离不开文本的向量化. 英语独特的语法规则,使得单用空格就能将句子中的单词分割开来,从而取得词向量,这极大简化了英语的NLP预处理过程,工业 ...

  7. 机器翻译中丢掉词向量层会怎样?

    论文标题: Neural Machine Translation without Embeddings 论文作者: Uri Shaham,Omer Levy 论文链接: https://arxiv.o ...

  8. gensim-fast2vec改造、灵活使用大规模外部词向量(具备OOV查询能力)

    本篇是继 极简使用︱Gemsim-FastText 词向量训练以及OOV(out-of-word)问题有效解决 之后,让之前的一些旧的"word2vec"具备一定的词表外查询功能. ...

  9. 【英文文本分类实战】之四——词典提取与词向量提取

    ·请参考本系列目录:[英文文本分类实战]之一--实战项目总览 ·下载本实战项目资源:神经网络实现英文文本分类.zip(pytorch) [1] 提取词典   在这一步,我们需要把训练集train.cs ...

最新文章

  1. 写在园子里的第一篇BLOG
  2. POJ - 3255 Roadblocks(次短路)
  3. Python实战-获取鼠标键盘事件
  4. 得到python对象的真实大小
  5. Mars的mp3实例
  6. 程序员被怼!HR:对不起,我们不招“精通Excel”的程序员
  7. xamarin UWP ActivityIndicator
  8. AC日记——【模板】二分图匹配 洛谷 P3386
  9. 十大编程语言_2020年十大最佳编程语言
  10. baidu 地图 3d版 自定义地图样式
  11. java-php-python-ssm企业员工考勤系统的设计与实现计算机毕业设计
  12. 回归分析中f多少合适_spss回归分析F值很大,有100多,这样合理吗
  13. python上传钉钉媒体文件_python 上传钉钉图片
  14. 华为Mate20系列赢得各界盛誉,棋圣聂卫平也对其AI性能称赞
  15. cl.ez6.xyz index.php,[BJDCTF2020]EzPHP-POP链
  16. “专精特新”背后的京东动力
  17. 【RPC实战与核心原理】-第19讲-分布式环境下定位问题
  18. 微信机器人接口,ipad协议
  19. nginx进程模型,事件模型
  20. 《追风筝的人》读后感

热门文章

  1. zookeeper系列(九)zookeeper的会话详解
  2. 用Backbone.js创建一个联系人管理系统(一)
  3. Java设计模式 之 工厂方法模式
  4. winform之窗体固定
  5. [转贴]IT外包服务商如何构建高效率的服务台运营机制
  6. python爬虫scrapy步骤mac系统_python scrapy简单爬虫记录(实现简单爬取知乎)
  7. 清华大学车辆刚才专业大佬教你如何写SCI论文(转)
  8. 计算机视觉与深度学习 | 检测和测量图像中的圆形目标(数钢筋)
  9. c语言姓名号码,c语言如何输入编号和姓名
  10. 数学之路(2)-数据分析-R基础(4)