腾讯AI Lab 宣布开源大规模、高质量的中文词向量数据,该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率、新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。但是有一个很大问题,就是词向量过大,约16g,用普通服务器读取词向量需要半小时。一般用户并不需要太大的词向量,为方便用户,本文搜集了腾讯原版词向量精简版本,并提供各种大小版本的词向量下载。

有关词向量和嵌入技术请看这篇文章(图解word2vec(原文翻译))

腾讯AI Lab开源大规模高质量中文词向量数据简介:

https://cloud.tencent.com/developer/article/1356164

原版腾讯词向量下载:

https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz (6.31g,解压约16g,文末提供百度云下载

如何使用

很多模型需要测试,建议初次测试的时候使用稍小的词向量版本,比如70000个词的版本(133mb),最后再使用原版800万个词的版本,这样可以节省很多实验时间。很多时候,70000个词的词向量已经可以满足要求了。

读取模型


使用模型


深度学习模式示例

使用LSTM模型,根据豆瓣评论,预测打分。

  • 首先下载豆瓣的数据

豆瓣评论数据149M (文末提供下载

  • 然后下载库对应的分词包。文末提供下载

  • 使用效果

加载70000字典前

加载70000字典后

  • 代码文件见

Use Tencent Word Embeddings with douban datasets.ipynb文末提供下载

参考:

https://github.com/cliuxinxin/TX-WORD2VEC-SMALL (这位小哥搜集的,希望star下)

https://cloud.tencent.com/developer/article/1356164

总结和下载

腾讯AI Lab 开源的中文词向量数据,包含800多万中文词汇,相比现有的公开数据,在覆盖率、新鲜度及准确性上大幅提高,但是有一个很大问题,就是词向量过大,约15g,用普通服务器读取词向量需要半小时。一般用户并不需要太大的词向量,为方便用户,本文搜集了腾讯原版词向量精简版本,并提供各种大小版本的词向量下载。并提供各种大小版本的词向量下载。

词向量及相关资料下载:

根目录:

  • 5000-small.txt 这个有5000词,可以下下来玩玩

  • 45000-small.txt 这个有4.5w的词,已经能解决很多问题了

  • 70000-small.txt 7w词  133MB

  • 100000-small.txt 10w词 190MB

  • 500000-small.txt 50w词 953MB

  • 1000000-small.txt 100w词 1.9GB

  • 2000000-small.txt 200w词 3.8GB

  • Tencent_AILab_ChineseEmbedding.tar.gz 原版词向量(6.31g),解压后16g

code文件夹

  • doubanmovieshortcomments.zip豆瓣评论数据149M

  • 分词文件(如:8000000-dict.txt等)

  • Use Tencent Word Embeddings with douban datasets.ipynb测试代码)

下载链接:

https://pan.baidu.com/s/1QVuDrGoo46RaaaTTEpmgPw

提取码:bpai

若被和谐,请回复“腾讯词向量”获取最新地址。

欢迎加入免费星球,获取最前沿认知和精英理念

扫码领取资料

推荐:腾讯开源的词向量精简版本下载|湾区人工智能相关推荐

  1. 推荐:腾讯开源的词向量精简版本下载

    腾讯AI Lab 宣布开源大规模.高质量的中文词向量数据,该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率.新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向的业务 ...

  2. AI实战!开源一个机器学习/情感分析实战项目(附源码/教程)|湾区人工智能...

    分享一个在公司做的机器学习文本分类项目的demo,该分类项目是一个通用的文本分类项目,这里的数据集我酒店用户评价数据,分类模型为二分类,正面评价和负面评价,这里所说的通用,就是你可以根据你自己的数据, ...

  3. 【后空翻机器人代码】斯坦福后空翻机器人设计、代码全开源,成本降至3000美元,人人皆可DIY|湾区人工智能...

    机器之心报道 机器之心编辑部 斯坦福学生机器人俱乐部(Stanford Student Robotics club)Extreme Mobility 团队最近迎来了一名新成员--一个名为 Stanfo ...

  4. 互联网晚报 | 2月25日 星期五 | 元宇宙概念,热度显著下降;​腾讯正洽谈落地“东数西算”大湾区枢纽韶关数据中心集群...

    ‍‍ 自动驾驶公司"云骥智行"获数亿元天使轮融资 2月25日消息,钛媒体App 独家获悉,国产GPU芯片公司壁仞科技的创始人张文,日前以董事长身份,领导了一家L4级自动驾驶初创企业 ...

  5. 基于腾讯AI Lab词向量进行未知词、短语向量补齐与域内相似词搜索

    (~免费广告位一则~) 数据下载地址: https://ai.tencent.com/ailab/nlp/en/embedding.html AI Lab开源大规模高质量中文词向量数据,800万中文词 ...

  6. faiss通用向量搜索服务玩转腾讯880万词向量

    通用向量搜索服务 faiss是个高效的向量搜索解决方案,经过测试对比,可以感受到它的飞速,关于faiss性能测试的见这里:faiss包装与性能对比 这次开源的是使用faiss搭建的通用向量搜索服务. ...

  7. 开源中文词向量加载(训练好的词向量如何加载) tensorflow

    中文词向量下载 https://github.com/Embedding/Chinese-Word-Vectors 用到的函数: readline() 方法: fileObject.readline( ...

  8. 开源网安亮相粤港澳大湾区CIO高峰论坛,保障企业数字化安全转型

    近日,由深圳市工业化与信息化局.深圳市科学技术协会指导,深圳市CIO协会主办的"2023中国(深圳)数字化转型大会暨粤港澳大湾区CIO高峰论坛"圆满完成.开源网安作为拥有软件安全领 ...

  9. 腾讯安全助力高校信息安全建设,护航湾区教育高质量发展

    2023年4月20日-21日,首届大湾区信息网络安全大会在广州市长隆国际会展中心隆重召开.会议以"同筑安全屏障,共赢湾区未来"为主题,旨在响应国家安全战略,推动粤港澳大湾区信息网络 ...

最新文章

  1. 《Unix网络编程卷1-套接字联网API》第一个例子编译 不通过问题解决
  2. SEO网络优化三招教你高质量外链的技巧
  3. PHP5魔术函数与魔术常量
  4. Android Studio开发基础之AutoCompleteTextView控件的使用
  5. ubuntu14.04 配置jdk环境变量
  6. html css 时钟,css3时钟
  7. SQL Server安装失败,SQL Server卸载不干净
  8. 【叁】量化思维--复利
  9. IAR 开发Zigbee 下载调试时总是出现target selection对话框
  10. Seckill学习笔记——Day3(秒杀功能实现)
  11. Python高级用法:索引和切片
  12. python培训机构 马哥
  13. 清北学堂 2017-10-05
  14. word图文混排复制到TinyMCE图片不显示
  15. e480换高分屏_ThinkPadE480电脑(i5-8250u 8G内存 256G固态 高分屏0QCD 14英寸) 京东5699元...
  16. python图像锐化,图像加强、锐化,利用 Python-OpenCV 来实现 4 种方法!
  17. 2016年天梯赛初赛题集(L1 - L2)
  18. Android build.gradle文件详解
  19. 华为Java面试真题解析,都是精髓!
  20. 安装程序无法复制文件 Atapi.sys的解决方法

热门文章

  1. 《深入理解分布式事务》第四章 分布式事务的基本概念和理论知识
  2. 【Java数据结构与算法】第二章 单链表及简单面试题
  3. 微信小程序后端-PageHelper分页时查询结果重复问题
  4. 序列化与反序列化存储、updatepanel
  5. 梯度下降、随机梯度下降、方差减小的梯度下降(matlab实现)
  6. 处理table 超出部分滚动问题
  7. Qt——线程类QThread
  8. 小记css的margin collapsing
  9. fzu 1675 The Seventy-seven Problem
  10. 关于地理国情监测(国家测绘局、地理信息系统协会改名及国家级地理信息产业园奠基的风生水起)...