腾讯开源的word2vec模型。

原版15个G,一般爱好者很难玩出来。

所以做了一些小的。方便大家使用。

5000-small.txt 这个有5000词,可以下下来玩玩

45000-small.txt 这个有4.5w的词,已经能解决很多问题了

70000-small.txt 7w词 133MB https://pan.baidu.com/s/1DprHD8HwEqkWRBG0ss2y1A

100000-small.txt 10w词 190MB https://pan.baidu.com/s/1KqPOwfrw3KoLJqTsCUdriA

500000-small.txt 50w词 953MB https://pan.baidu.com/s/1SGwxpGW8HjYw8HdKQUB8Gw

1000000-small.txt 100w词 1.9GB https://pan.baidu.com/s/1ObstPl7R8o1L98Ag9owGiw

2000000-small.txt 200w词 3.8GB https://pan.baidu.com/s/1hmCiMandgyedjmP520_Aog

再大就自己去下载吧

https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz

使用

读模型

from gensim.models import KeyedVectorsmodel = KeyedVectors.load_word2vec_format("50-small.txt")

使用

model.most_similar(positive=['女', '国王'], negative=['男'], topn=1)model.doesnt_match("上海 成都 广州 北京".split(" "))model.similarity('女人', '男人')model.most_similar('特朗普',topn=10)

腾讯word2vec模型缩小版相关推荐

  1. 把一个dataset的表放在另一个dataset里面_使用中文维基百科语料库训练一个word2vec模型并使用说明...

    ​本篇主要介绍如何通过中文维基百科语料库来训练一个word2vec模型. 相关资料下载: 中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/ WikiExtr ...

  2. 使用中文维基百科语料库训练一个word2vec模型

    本篇文章主要介绍如何通过中文维基百科语料库来训练一个word2vec模型. 相关资料下载: 中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/20180720 ...

  3. 使用中文维基百科语料库训练一个word2vec模型 12.1

    转自:https://blog.csdn.net/sinat_29957455/article/details/81432846 本篇文章主要介绍如何通过中文维基百科语料库来训练一个word2vec模 ...

  4. 情感分析的描述、基于词袋模型和word2vec模型的情感分析实现

    情感分析的描述.基于词袋模型和word2vec模型的情感分析实现 以购物评论为例: # 读入原始数据集 import pandas as pddfpos = pd.read_excel('../dat ...

  5. 是否有可能从python中的句子语料库重新训练word2vec模型(例如GoogleNews-vectors-negative300.bin)?

    是否有可能从python中的句子语料库重新训练word2vec模型(例如GoogleNews-vectors-negative300.bin)? http://www.voidcn.com/artic ...

  6. 让机器搞懂100万种隐含语义 腾讯Peacock模型全揭秘

    让机器搞懂100万种隐含语义 腾讯Peacock模型全揭秘 腾讯模型 36大数据 · 2015-02-28 17:21 Peacock通过并行计算对10亿x1亿级别的大规模矩阵进行分解,从海量样本数据 ...

  7. 自然语言处理一大步,应用Word2Vec模型学习单词向量表征

    选自TowardsDataScience,作者:Suvro Banerjee,机器之心编译,参与:Pedro.张倩. 在常见的自然语言处理系统中,单词的编码是任意的,因此无法向系统提供各个符号之间可能 ...

  8. 268G+训练好的word2vec模型(中文词向量)

    268G+训练好的word2vec模型(   从网上了解到,很多人缺少大语料训练的word2vec模型,在此分享下使用268G+语料训练好的word2vec模型. 查看全文 http://www.ta ...

  9. Spark下的word2vec模型训练

    一.引言 前边一节介绍了Word2Vec模型训练同义词,那么在大数据量的情况下,我们自然想到了用spark来进行训练.下面就介绍我们是如何实现spark上的模型训练. 二.分词 模型训练的输入是分好词 ...

  10. gensim流式训练word2vec模型,不需要一次性加载完整数据集

    首先训练文本train_text.txt文件内容如下: 优惠的政策和政府对产业发展的重视也吸引了更多医美企业来成都寻觅机遇.2018年成都医美机构的数量一度飙升至407家,较之前一年激增131家 中国 ...

最新文章

  1. 入门NLP最优解:从项目实践轻松入手!
  2. 研发日烧6400万的百度发出新讯号,李彦宏:自动驾驶订单已是全球第一
  3. linux 单用户模式 救援模式 忘记root密码的两种解决办法
  4. js生成验证码并验证 .
  5. 跳表(skipList)
  6. RedisTemplate设置过期时间
  7. wordpress 迁移网站更改域名解决图片无法显示
  8. keras实例化model后,结果返回NoneType
  9. python怎么读取csv文件-使用Python读写csv文件的三种方法
  10. PASCAL-VOC2012数据集(vocdevkit、Vocbenchmark_release)详细介绍
  11. bay——RAC_ASM ORA-15001 diskgroup DATA does not exist or is not mounted.docx
  12. vscode: remote-ssh下与阿里云端编程
  13. MATLAB中pdetool工具求解泊松方程和Laplace方程
  14. Flash builder4 插件版破解
  15. 风花雪月·《基层风云·1》·四
  16. 操作系统--内存管理超详细整理!
  17. 2019年的计划,做最好的自己。
  18. attiny13a程序实例_如何使用Arduino IDE编程ATTINY13/ATTINY13A单片机
  19. aardio web.blink打开网址
  20. Unity3D IDE安装执行过程

热门文章

  1. 删除卸载企业微信后的残留文件
  2. 微信小程序开发--虎年头像制作、虎头帽制作
  3. 什么时候需要用到RCC_APB2Periph_AFIO
  4. 腾讯云学生服务器购买教程(图文)
  5. LTE学习笔记二:扁平化的组网架构
  6. ignite安装及简单使用命令
  7. 如何重新注册VMware Update Manager(VUM)至vCenter Server中
  8. matlab里删除文件恢复,删除的文件如何恢复?360安全卫士找回误删文件
  9. Android Studio连接MySQL:问题解决:虚拟机无法连接本地SQL,coon总为空
  10. 《麻辣江湖》即将上线!