从网上了解到,很多人缺少大语料训练的word2vec模型,在此分享下使用120G+语料训练好的word2vec模型。

训练语料:

  • 百度百科800w+条,20G+
  • 搜狐新闻400w+条,12G+(数据下载链接见其它博文)
  • 小说:90G左右
模型参数:
  • window=5
  • min_count=5
  • size=64
  • ps:其它参数见gensim库,执行代码为:Word2Vec(sentence, window=5, min_count=5,size=64, workers=4)
其它相关:
  1. 分词词典使用了130w+词典。分词代码:jieba.lcut(sentence),默认使用了HMM识别新词;
  2. 剔除了所有非中文字符;
  3. 最终得到的词典大小为6115353;
  4. 目前只跑了64维的结果,后期更新128维词向量;
  5. 模型格式有两种bin和model;
下载链接:链接: https://pan.baidu.com/s/1eUgu8Cy 密码: 4is8
本文转自 https://weibo.com/p/23041816d74e01f0102x77v#_loginLayer_1515659232344

120G+训练好的word2vec模型(中文词向量)相关推荐

  1. 基于word2vec的中文词向量训练

    基于word2vec的中文词向量训练 使用katex解析的数学公式,csdn好像不支持 word2vec来源 Google开源 可以在百万数量级的词典和上亿的数据集上进行高效地训练 该工具得到的训练结 ...

  2. word2vec 构建中文词向量

    2019独角兽企业重金招聘Python工程师标准>>> word2vec 构建中文词向量 词向量作为文本的基本结构--词的模型,以其优越的性能,受到自然语言处理领域研究人员的青睐.良 ...

  3. 【深度学习】120G+训练好的word2vec模型(中文词向量)

    很多人缺少大语料训练的word2vec模型,在此分享下使用268G+语料训练好的word2vec模型. 训练语料: 百度百科800w+条,26G+ 搜狐新闻400w+条,13G+ 小说:229G+ i ...

  4. torchtext处理文本数据——使用自己的word2vec模型作为词向量建立词表(学习二)

    首先复制上一篇博客的完整代码,代码如下: 注:如果有不明白的地方请参考上一篇博客--torchtext处理文本数据--构造dataset读取文本(学习一) 数据源和解释都在上一篇博客中 from to ...

  5. 从利用gensim 训练好的word2vec模型中取出向量并计算余弦相似度,Levenshtein distance 计算

    1.Levenshtein distance 表示两个字符串之间,由一个转成另一个所需的最少编辑次数,允许的操作有:替换.插入和删除 导入包: import Levenshtein #Levensht ...

  6. AAAI 2018 论文 | 蚂蚁金服公开最新基于笔画的中文词向量算法

    导读:词向量算法是自然语言处理领域的基础算法,在序列标注.问答系统和机器翻译等诸多任务中都发挥了重要作用.词向量算法最早由谷歌在2013年提出的word2vec,在接下来的几年里,该算法也经历不断的改 ...

  7. 清华 词向量库_word2vec 构建中文词向量

    词向量作为文本的基本结构--词的模型,以其优越的性能,受到自然语言处理领域研究人员的青睐.良好的词向量可以达到语义相近的词在词向量空间里聚集在一起,这对后续的文本分类,文本聚类等等操作提供了便利,本文 ...

  8. 268G+训练好的word2vec模型(中文词向量)

    268G+训练好的word2vec模型(   从网上了解到,很多人缺少大语料训练的word2vec模型,在此分享下使用268G+语料训练好的word2vec模型. 查看全文 http://www.ta ...

  9. word2vec训练中文词向量

    词向量作为文本的基本结构--词的模型.良好的词向量可以达到语义相近的词在词向量空间里聚集在一起,这对后续的文本分类,文本聚类等等操作提供了便利,这里简单介绍词向量的训练,主要是记录学习模型和词向量的保 ...

最新文章

  1. 使用WKWebView替换UIWebView
  2. 使用html5 Geolocation显示你的地理位置
  3. 节点+Executor+Core+Task+Partition+RDD+job+DAG+stage+action算子之间的数量关系+两种并行度的区别
  4. stringBuffer的使用及字符串比较的区别
  5. javascript Blob数据解析 HUOBI火币api数据解析
  6. 查看进程中占cpu高的线程方法
  7. 后端如何收取多个文件_前段文件分片后后端怎么接收
  8. Java并发编程之CountDownLatch/CyclicBarrierDemo/SemaphoreDemo详解
  9. 类型的取值范围_Java基础类型取值范围,从基础的理解加深记忆
  10. 再解Java中的String
  11. 说说 SpringMVC 工作原理
  12. SOP封装的后缀字母L M N都代表什么意思?
  13. arm-linux-gcc camke,Window平台基于CMake与linaro交叉编译arm程序
  14. C语言加减乘除运算符
  15. (三)夯基础——urllib基本库的使用1.0
  16. 浅谈mysql的执行计划是何方神圣
  17. 陈立杰的励志演讲. 充满动力地走下去吧!
  18. 500 Whoops, something went wrong on our end. Try refreshing the page
  19. 用户为什么要使用天翼LIVE?
  20. if语句和switch语句

热门文章

  1. [转][汇编] 汇编语言实现简易文本编辑器(光标移动、上卷和退格删除)
  2. Games101 学习笔记
  3. Macbook pro苹果笔记本电脑安装双系统图文教程
  4. 蚂蚁代理免费代理ip爬取(端口图片显示+token检查)
  5. C++语言基础篇(二)
  6. Kvm与webvirtmgr虚拟化安装
  7. 312. 戳气球(区间dp)
  8. 康奈尔大学计算机科学人工智能,康奈尔大学计算机科学系
  9. python控制浏览器脚本_Chrome 33+浏览器 Cookies encrypted_value解密脚本(python实现)...
  10. 《 猜数字》小游戏的Java实现