800万中文词，腾讯AI Lab开源大规模NLP数据集

参加 2018 AI开发者大会，请点击 ↑↑↑

10 月19 日，腾讯 AI Lab 宣布开源大规模、高质量的中文词向量数据。该数据包含 800 多万中文词汇。

腾讯 AI Lab 表示，相比现有的公开数据，该数据在覆盖率、新鲜度及准确性上大幅提高，为对话回复质量预测和医疗实体识别等自然语言处理方向的业务应用带来显著的效能提升。

▌腾讯 AI Lab 词向量的特点

腾讯 AI Lab 此次公开的中文词向量数据包含 800 多万中文词汇，其中每个词对应一个 200 维的向量。相比现有的中文词向量数据，腾讯 AI Lab 的中文词向量着重提升了以下 3 个方面：

覆盖率（Coverage）：

该词向量数据包含很多现有公开的词向量数据所欠缺的短语，比如“不念僧面念佛面”、“冰火两重天”、“煮酒论英雄”、“皇帝菜”、“喀拉喀什河”等。以“喀拉喀什河”为例，利用腾讯AI Lab词向量计算出的语义相似词如下：

墨玉河、和田河、玉龙喀什河、白玉河、喀什河、叶尔羌河、克里雅河、玛纳斯河

新鲜度（Freshness）：

该数据包含一些最近一两年出现的新词，如“恋与制作人”、“三生三世十里桃花”、“打call”、“十动然拒”、“供给侧改革”、“因吹斯汀”等。以“因吹斯汀”为例，利用腾讯 AI Lab 词向量计算出的语义相似词如下：

一颗赛艇、因吹斯听、城会玩、厉害了word哥、emmmmm、扎心了老铁、神吐槽、可以说是非常爆笑了

准确性（Accuracy）：

由于采用了更大规模的训练数据和更好的训练算法，所生成的词向量能够更好地表达词之间的语义关系，如下列相似词检索结果所示：

输入

刘德华

兴高采烈

狂奔

自然语言处理

相似词

刘天王

兴高彩烈

飞奔

自然语言理解

周润发

兴冲冲

一路狂奔

计算机视觉

华仔

欢天喜地

奔跑

自然语言处理技术

梁朝伟

兴致勃勃

狂跑

深度学习

张学友

眉飞色舞

疾驰

机器学习

古天乐

得意洋洋

飞驰

图像识别

张家辉

喜笑颜开

疾奔

语义理解

张国荣

欢呼雀跃

奔去

语音识别

得益于覆盖率、新鲜度、准确性的提升，在内部评测中，腾讯AI Lab提供的中文词向量数据相比于现有的公开数据，在相似度和相关度指标上均达到了更高的分值。

▌腾讯 AI Lab 词向量的构建

为了生成高覆盖率、高新鲜度、高准确性的词向量数据，腾讯 AI Lab 主要从以下 3 个方面对词向量的构建过程进行了优化：

语料采集：

训练词向量的语料来自腾讯新闻和天天快报的新闻语料，以及自行抓取的互联网网页和小说语料。大规模多来源语料的组合，使得所生成的词向量数据能够涵盖多种类型的词汇。而采用新闻数据和最新网页数据对新词建模，也使得词向量数据的新鲜度大为提升。

词库构建：

除了引入维基百科和百度百科的部分词条之外，还实现了 Shi 等人于 2010 年提出的语义扩展算法 [5]，可从海量的网页数据中自动发现新词——根据词汇模式和超文本标记模式，在发现新词的同时计算新词之间的语义相似度。

训练算法：

腾讯 AI Lab 采用自研的 Directional Skip-Gram (DSG)算法 [6] 作为词向量的训练算法。DSG 算法基于广泛采用的词向量训练算法 Skip-Gram (SG)，在文本窗口中词对共现关系的基础上，额外考虑了词对的相对位置，以提高词向量语义表示的准确性。

▌中文 NLP 数据集的意义

近年来，深度学习技术在自然语言处理领域中得到了广泛应用。基于深度神经网络的模型已经在词性标注、命名实体识别、情感分类等诸多任务上显著超越了传统模型。用深度学习技术来处理自然语言文本，离不开文本的向量化，即把一段文本转化成一个n维的向量。在大量任务中，作为千变万化的文本向量化网络架构的共同底层，嵌入层（Embedding Layer）负责词汇（文本的基本单元）到向量（神经网络计算的核心对象）的转换，是自然语言通向深度神经网络的入口。大量的学界研究和业界实践证明，使用大规模高质量的词向量初始化嵌入层，可以在更少的训练代价下得到性能更优的深度学习模型。

目前，针对英语环境，工业界和学术界已发布了一些高质量的词向量数据，并得到了广泛的使用和验证。其中较为知名的有谷歌公司基于word2vec算法[1]、斯坦福大学基于GloVe算法[2]、Facebook基于fastText项目[3]发布的数据等。

然而，目前公开可下载的中文词向量数据[3,4]还比较少，并且数据的词汇覆盖率有所不足，特别是缺乏很多短语和网络新词。因此，腾讯 AI Lab 开源中文词向量数据对中文 NLP 的研究者来说，绝对算得上是一个利好消息。

最后，送上传送门：

https://ai.tencent.com/ailab/nlp/embedding.html

[1] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory S. Corrado, and Jeffrey Dean:Distributed Representations of Words and Phrases and their Compositionality. NIPS 2013.

[2] Jeffrey Pennington, Richard Socher, and Christopher D. Manning. GloVe: Global Vectors for Word Representation. EMNLP 2014.

[3] P. Bojanowski, E. Grave, A. Joulin, T. Mikolov, Enriching Word Vectors with Subword Information. TACL 2017 (5).

[4] Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du. Analogical Reasoning on Chinese Morphological and Semantic Relations. ACL 2018.

[5] Shuming Shi, Huibin Zhang, Xiaojie Yuan, and Ji-Rong Wen. Corpus-based Semantic Class Mining: Distributional vs. Pattern-Based Approaches. COLING 2010.

[6] Yan Song, Shuming Shi, Jing Li, and Haisong Zhang. Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings. NAACL 2018.

[7] Jialong Han, Yan Song, Wayne Xin Zhao, Shuming Shi, and Haisong Zhang. hyperdoc2vec: Distributed Representations of Hypertext Documents. ACL 2018.

[8] Jichuan Zeng, Jing Li, Yan Song, Cuiyun Gao, Michael R. Lyu, and Irwin King. Topic Memory Networks for Short Text Classification. EMNLP 2018.

[9] Yan Song and Shuming Shi. Complementary Learning of Word Embeddings. IJCAI 2018.

[10] Yan Song, Shuming Shi, and Jing Li. Joint Learning Embeddings for Chinese Words and their Components via Ladder Structured Networks. IJCAI 2018.

【完】

2018 AI开发者大会

◆

只讲技术，拒绝空谈

◆

2018 AI开发者大会是一场由中美人工智能技术高手联袂打造的AI技术与产业的年度盛会！是一场以技术落地为导向的干货会议！大会设置了10场技术专题论坛，力邀15+硅谷实力讲师团和80+AI领军企业技术核心人物，多位一线经验大咖带你将AI从云端落地。

大会日程以及嘉宾议题请查看下方海报（点击查看大图）

800万中文词，腾讯AI Lab开源大规模NLP数据集相关推荐

腾讯AI Lab开源大规模高质量中文词向量数据，800万中文词随你用
今日,腾讯AI Lab 宣布开源大规模.高质量的中文词向量数据.该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率.新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向 ...
腾讯AI Lab开源800万中文词的NLP数据集 | 资源
允中发自凹非寺量子位报道 | 公众号 QbitAI 鹅厂开源,+1 again~ 又一来自腾讯AI实验室的资源帖. 腾讯AI实验室宣布,正式开源一个大规模.高质量的中文词向量数据集. 该数据 ...
腾讯 AI Lab 开源业内最大规模多标签图像数据集
2018年9月10日,腾讯AI Lab宣布将于9月底开源"Tencent ML-Images"项目,该项目由多标签图像数据集ML-Images,以及业内目前同类深度学习模型中精度最 ...
腾讯AI Lab开源业内最大规模多标签图像数据集（附下载地址）
今日(10 月 18 日),腾讯AI Lab宣布正式开源"Tencent ML-Images"项目.该项目由多标签图像数据集 ML-Images,以及业内目前同类深度学习模型中精度 ...
CVPR 2022｜处理速度仅用0.2秒！港科大腾讯AI lab开源基于GAN反演的高保真图像编辑算法...
作者丨Tengfei Wang 来源丨港科大.腾讯 AI Lab 编辑丨极市平台论文:https://arxiv.org/abs/2109.06590 代码:https://github.com/T ...
腾讯AI Lab开源世界首款自动化模型压缩框架PocketFlow：将深度学习装进口袋
来源:腾讯AI 实验室腾讯AI Lab机器学习中心今日宣布成功研发出世界上首款自动化深度学习模型压缩框架--PocketFlow,并即将在近期发布开源代码.这是一款面向移动端AI开发者的自动模型压缩 ...
优秀！腾讯AI Lab开源模型压缩与加速框架PocketFlow！
点击我爱计算机视觉标星,更快获取CVML新技术 PocketFlow,成熟高效的模型压缩与加速框架,经过腾讯内部AI技术商用实践检验,你值得拥有- 以下内容来自腾讯AI实验室(tencent_aila ...
探索“老药新用”最短路径：亚马逊AI Lab开源大规模药物重定位知识图谱DRKG
本文经授权转载自机器之心(almosthuman2014),未经授权禁止二次转载与摘编. 本文长度为3200字,建议阅读9分钟本文带你了解亚马逊AI实验室的开源机器学习工具. [ 摘要 ]最近,来自 ...
基于腾讯AI Lab词向量进行未知词、短语向量补齐与域内相似词搜索
(~免费广告位一则~) 数据下载地址: https://ai.tencent.com/ailab/nlp/en/embedding.html AI Lab开源大规模高质量中文词向量数据,800万中文词 ...

800万中文词，腾讯AI Lab开源大规模NLP数据集

800万中文词，腾讯AI Lab开源大规模NLP数据集相关推荐

最新文章

热门文章