(~免费广告位一则~)

数据下载地址:
https://ai.tencent.com/ailab/nlp/en/embedding.html

AI Lab开源大规模高质量中文词向量数据,800万中文词随你用,质量非常高,就是一个词向量.txt文件都有16G之多,太夸张了。。不过的确非常有特点:

  • ⒈ 覆盖率(Coverage):

该词向量数据包含很多现有公开的词向量数据所欠缺的短语,比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。以“喀拉喀什河”为例,利用腾讯AI Lab词向量计算出的语义相似词如下:

墨玉河、和田河、玉龙喀什河、白玉河、喀什河、叶尔羌河、克里雅河、玛纳斯河

  • ⒉ 新鲜度(Freshness):

该数据包含一些最近一两年出现的新词,如“恋与制作人”、“三生三世十里桃花”、“打call”、“十动然拒”、“供给侧改革”、“因吹斯汀”等。以“因吹斯汀”为例,利用腾讯AI Lab词向量计算出的语义相似词如下:

一颗赛艇、因吹斯听、城会玩、厉害了word哥、emmmmm、扎心了老铁、神吐槽、可以说是非常爆笑了

  • ⒊ 准确性(Accura

基于腾讯AI Lab词向量进行未知词、短语向量补齐与域内相似词搜索相关推荐

  1. 腾讯AI Lab 2020年度回顾:科技向善,迈向通用人工智能

    来源:腾讯AI Lab 刚刚过去的 2020 年算不上是平静的一年.贯穿全年的新冠肺炎疫情仍未平息,各类偶发事件也层出不穷.即便如此,秉承「科技向善」信念和「Make AI Everywhere」愿景 ...

  2. 2020腾讯AI Lab犀牛鸟专项研究及访问学者计划入选项目公布!!!

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 本文来源:腾讯AI实验室  2020年度腾讯AI Lab犀牛鸟专项研究计划及访问学 ...

  3. 腾讯AI Lab与北京协和医院联合发布国产手术导航系统

    感谢阅读腾讯AI Lab微信号第149篇文章.本文介绍腾讯 AI Lab 联合北京协和医院共同发布便携式智能化手术导航系统. 7月5日,腾讯 AI Lab 联合北京协和医院,共同发布了具有有完全自主知 ...

  4. 腾讯AI Lab开源大规模高质量中文词向量数据,800万中文词随你用

    今日,腾讯AI Lab 宣布开源大规模.高质量的中文词向量数据.该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率.新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向 ...

  5. 800万中文词,腾讯AI Lab开源大规模NLP数据集

    参加 2018 AI开发者大会,请点击 ↑↑↑ 10 月19 日,腾讯 AI Lab 宣布开源大规模.高质量的中文词向量数据.该数据包含 800 多万中文词汇. 腾讯 AI Lab 表示,相比现有的公 ...

  6. 腾讯AI Lab开源800万中文词的NLP数据集 | 资源

    允中 发自 凹非寺  量子位 报道 | 公众号 QbitAI 鹅厂开源,+1 again~ 又一来自腾讯AI实验室的资源帖. 腾讯AI实验室宣布,正式开源一个大规模.高质量的中文词向量数据集. 该数据 ...

  7. 腾讯 AI Lab副主任俞栋:过去两年基于深度学习的声学模型进展

    来源:腾讯AI Lab 概要:过去几年里,自动语音识别(ASR)已经取得了重大的进步 .这些进步让 ASR 系统越过了许多真实场景应用所需的门槛,催生出了 Google Now.微软小娜和亚马逊 Al ...

  8. 深度 | 腾讯 AI Lab副主任俞栋:过去两年基于深度学习的声学模型进展

    感谢阅读腾讯AI Lab微信号第七篇文章,这是一篇深度研究的概述,论文全文可在页末下载.今年七月, IEEE/CAA Journal of Automatica Sinica发表了腾讯 AI Lab ...

  9. 腾讯AI Lab副主任俞栋:过去两年基于深度学习的声学模型进展

    本文来自腾讯AI Lab(微信号:tencent_ailab),这是一篇深度研究的概述.今年七月, IEEE/CAA Journal of Automatica Sinica发表了腾讯 AI Lab ...

最新文章

  1. Educational Codeforces Round 78 (Rated for Div. 2)B~C[前缀和]
  2. SAP QM 内向交货单在完成包装之后就自动触发了检验批?
  3. SSM实现定时任务的两种方式
  4. Flink部署、使用、原理简介
  5. linux 内核与分析 -- 内存管理(下)
  6. mysql中重复数据的查询
  7. golang快速实现服务端网页截图
  8. PXE + KS 实现系统自动部署系统
  9. UE4:转换成VR项目
  10. 怎么选择触摸液晶广告机?
  11. http判断缓存是否有效,为什么有了last-modified还需要etag呢?
  12. eigen坐标变换_Eigen实现坐标转换
  13. 使用deno和oak创建短链应用 1.0
  14. HttpWebRequest 介绍
  15. Linux下软中断过程(详细)源码总结
  16. unity3d俯视角简易移动控制脚本及其易错点小分享
  17. 迅雷API批量下载巨潮年报
  18. python三方库—pywebio
  19. 【Android开发】在Android Studio上关联使用第三方模拟器(MuMu模拟器)调试方法
  20. 【5G】有史以来最强的5G入门科普

热门文章

  1. lucky的时光助理-2017.02
  2. Kotlin中变量不同于Java: var 对val(KAD 02)
  3. 无限分级和tree结构数据增删改【提供Demo下载】
  4. 使用with语句:记录时间检查路径
  5. 针对ASP.NET页面实时进行GZIP压缩优化的几款压缩模块的使用简介及应用测试!(附源码)...
  6. Elasticsearch一些常用操作和一些基础概念
  7. 一名爬虫工程师的运维入门之路:IPy学习笔记
  8. 如何自己制作一个web项目Tomcat+war包的Docker镜像
  9. POJ 2528 Mayor's posters 贴海报 线段树 区间更新
  10. Android使用相机demo