文章目录

  • 引言
  • 腾讯中文词汇/短语向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)
    • 使用方法
  • 中文词向量语料库 by 北京师范大学&人民大学
  • Stanford GloVe Embeddings 英文词向量
  • fastText word vectors
    • 使用方法
  • 词向量训练工具包
  • Reference

引言

NLP用向量表示单词,这些向量捕获有关语言的隐藏信息,例如单词类比或语义。它还用于提高文本分类器的性能,可以广泛应用于许多下游文本处理任务。

本文整理一下常用的中、英文预训练词向量的链接,无须自己训练,下载即可使用。


腾讯中文词汇/短语向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)

官网:https://ai.tencent.com/ailab/nlp/zh/embedding.html
下载页面:https://ai.tencent.com/ailab/nlp/zh/download.html

2021年12月24日发布版本v0.2.0,提供四个版本下载,词汇规模有200万和1200万两种,词向量维度有100和200维两种,大家可以按需求下载。

  • 数据规模:1200 万个中文词汇、短语
  • 数据维度:提供100维、200维词向量
  • 数据来源:包含从新闻、网页和小说中收集的大规模文本
  • 数据优势:主要在于覆盖率、新鲜度和准确性。包含大量的领域词汇或俚语,如“喀拉喀什面河”、“皇帝菜”、“不念僧佛面”、“冰火两重天”、“煮酒论”英雄”,大多数现有的嵌入语料库都没有涵盖。还有一些近期出现或流行的新鲜词,如“冠病毒”、“元宇宙”、“了不起的新儿”、“流金岁月”、“凡尔赛文学”、“yyds”等。
  • 训练方式:Directional Skip-Gram1

使用方法

from gensim.models import KeyedVectors
wv_from_text = KeyedVectors.load_word2vec_format(file, binary=False)

中文词向量语料库 by 北京师范大学&人民大学

https://github.com/Embedding/Chinese-Word-Vectors

项目提供超过100种中文词向量,下载后即可用于下游任务。2

此外,项目还提供了中文词类比任务数据集CA8和配套的评测工具,以便对中文词向量进行评估。

  • 数据来源&规模:百度百科(vocab 5422K)、维基百科(vocab 2129K)、人民日报 1947-2017(vocab 1664K)、金融新闻(vocab 2785K)、知乎(vocab 1117K)、微博(vocab 850K)、文学(vocab 702K)、综合(vocab 10653K)、古汉语(vocab 21.8K)等
  • 数据维度:300维词向量
  • 数据优势:包括不同的表示方式(稠密和稀疏)、不同的上下文特征(词、N元组、字等等)、以及不同的训练语料。
  • 训练方式:ngram2vec

Stanford GloVe Embeddings 英文词向量

https://nlp.stanford.edu/projects/glove/

GloVe 是一种用于获取单词向量表示的无监督学习算法。对来自语料库的聚合全局词-词共现统计进行训练,得到的表示展示了词向量空间的线性子结构。3

根据数据来源不同,GloVe 英文词向量分为以下几种:

  • Wikipedia 2014 + Gigaword 5 (6B tokens, 400K vocab, uncased, 50d, 100d, 200d, & 300d vectors, 822 MB download): glove.6B.zip
  • Common Crawl (42B tokens, 1.9M vocab, uncased, 300d vectors, 1.75 GB download): glove.42B.300d.zip
  • Common Crawl (840B tokens, 2.2M vocab, cased, 300d vectors, 2.03 GB download): glove.840B.300d.zip
  • Twitter (2B tweets, 27B tokens, 1.2M vocab, uncased, 25d, 50d, 100d, & 200d vectors, 1.42 GB download): glove.twitter.27B.zip

fastText word vectors

英文预训练的词向量:https://fasttext.cc/docs/en/english-vectors.html
157 种语言预训练的词向量:https://fasttext.cc/docs/en/crawl-vectors.html

fastText 是一个用于高效学习单词表示和句子分类的库,并提供了预训练的词向量。4

fastText 词表示的关键特性之一是:它能够为任何单词生成向量,甚至是虚构的单词。事实上,fastText 词向量是由其中包含的字符子串向量构建的。这允许为拼写错误的单词或单词连接构建向量。

英文预训练词向量,根据不同规模和语料库,分为以下四种:

  • wiki-news-300d-1M.vec.zip: 1 million word vectors trained on Wikipedia 2017, UMBC webbase corpus and statmt.org news dataset (16B tokens).
  • wiki-news-300d-1M-subword.vec.zip: 1 million word vectors trained with subword infomation on Wikipedia 2017, UMBC webbase corpus and statmt.org news dataset (16B tokens).
  • crawl-300d-2M.vec.zip: 2 million word vectors trained on Common Crawl (600B tokens).
  • crawl-300d-2M-subword.zip: 2 million word vectors trained with subword information on Common Crawl (600B tokens).

使用方法

import iodef load_vectors(fname):fin = io.open(fname, 'r', encoding='utf-8', newline='\n', errors='ignore')n, d = map(int, fin.readline().split())data = {}for line in fin:tokens = line.rstrip().split(' ')data[tokens[0]] = map(float, tokens[1:])return data

词向量训练工具包

  • ngram2vec:https://github.com/zhezhaoa/ngram2vec/
  • word2vec:https://github.com/svn2github/word2vec
  • fasttext:https://github.com/facebookresearch/fastText

Reference


  1. Yan Song, Shuming Shi, Jing Li, and Haisong Zhang. Directional Skip-Gram: Explicitly Distinguishing Left and Right Context for Word Embeddings. NAACL 2018 (Short Paper). ↩︎

  2. Shen Li, Zhe Zhao, Renfen Hu, Wensi Li, Tao Liu, Xiaoyong Du, Analogical Reasoning on Chinese Morphological and Semantic Relations, ACL 2018. ↩︎

  3. Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014. GloVe: Global Vectors for Word Representation. ↩︎

  4. Mikolov T , Grave E , Bojanowski P , et al. Advances in Pre-Training Distributed Word Representations[J]. 2017. ↩︎

整理常用的中英文预训练词向量(Pretrained Word Vectors)相关推荐

  1. 常用的中文预训练模型、预训练词向量下载地址收藏

    中文预训练模型下载 原版:https://huggingface.co/models Google原版bert:https://github.com/google-research/bert 中文XL ...

  2. word2vec预训练词向量+通俗理解word2vec+CountVectorizer+TfidfVectorizer+tf-idf公式及sklearn中TfidfVectorizer

    文章目录 文分类实(一) word2vec预训练词向量 2 数据集 3 数据预处理 4 预训练word2vec模型 canci 通俗理解word2vec 独热编码 word2vec (Continuo ...

  3. 飞桨2.0高层api教程——使用预训练词向量进行文本分类

    使用预训练的词向量完成文本分类任务 作者: fiyen 日期: 2021.03 摘要: 本示例教程将会演示如何使用飞桨内置的Imdb数据集,并使用预训练词向量进行文本分类. 摘要 在这个示例中,我们将 ...

  4. PyTorch在NLP任务中使用预训练词向量

    在使用pytorch或tensorflow等神经网络框架进行nlp任务的处理时,可以通过对应的Embedding层做词向量的处理,更多的时候,使用预训练好的词向量会带来更优的性能.下面分别介绍使用ge ...

  5. 预训练词向量中文维基百科,英文斯坦福glove预训练的词向量下载

    中文预训练词向量--基于中文维基百科语料训练 英文预训练词向量--斯坦福glove预训练的词向量 百度云分享:https://pan.baidu.com/s/1UpZeuqlNMl6XtTB5la53 ...

  6. 基于Keras预训练词向量模型的文本分类方法

    本文语料仍然是上篇所用的搜狗新闻语料,采用中文预训练词向量模型对词进行向量表示.上篇文章将文本分词之后,采用了TF-IDF的特征提取方式对文本进行向量化表示,所产生的文本表示矩阵是一个稀疏矩阵,本篇采 ...

  7. java加载中文词向量_Chinese Word Vectors:目前最全的中文预训练词向量集合

    对于国内自然语言处理的研究者而言,中文词向量语料库是需求很大的资源.近日,来自北京师范大学和人民大学的研究者开源了「中文词向量语料库」,试图为大家解决这一问题,该库包含经过数十种用各领域语料(百度百科 ...

  8. 实践:jieba分词和pkuseg分词、去除停用词、加载预训练词向量

    一:jieba分词和pkuseg分词 原代码文件 链接:https://pan.baidu.com/s/1J8kmTFk8lec5ubfwBaSnLg 提取码:e4nv 目录: 1:分词介绍: 目标: ...

  9. Python Djang 搭建自动词性标注网站(基于Keras框架和维基百科中文预训练词向量Word2vec模型,分别实现由GRU、LSTM、RNN神经网络组成的词性标注模型)

    引言 本文基于Keras框架和维基百科中文预训练词向量Word2vec模型,分别实现由GRU.LSTM.RNN神经网络组成的词性标注模型,并且将模型封装,使用python Django web框架搭建 ...

最新文章

  1. 通过反射获取DLL的类实现加载窗体
  2. __stdcall详解
  3. 超好用的简单的jquery tab选项卡切换代码(点击切换和导航栏滑过)
  4. 可视化工具Navicat for MySQL-操作三
  5. CSS自学笔记(15):CSS3多列布局
  6. MySql join on 和 where
  7. sdut 2878 圆圈
  8. c语言实现16位定点数乘法,c语言 fixed-point 定点数 运算
  9. Eclipse与SQL Server 2005 连接
  10. 数据库和SQL基本知识点
  11. 创建虚拟机并加载镜像文件
  12. badboy设置中文_badboy中文手册
  13. DRV_03_编写最简单的触摸屏驱动程序_基于QEMU
  14. mac中clion无法运行
  15. 简单易懂的颜色透明度计算
  16. 基于微信小程序社区疫情防控系统
  17. java隐藏手机号中间四位和隐藏邮箱
  18. 夜暗方显万颗星,灯明始见一缕尘
  19. 处理unity第一第三人称游戏中的摄像机穿墙的问题
  20. PDF文件如何另存为

热门文章

  1. 冷风 星号密码查看工具DIY
  2. sql server中字符集和排序规则到底什么关系
  3. 归一化(Normalization)标准化(Standarlization)tensorflow和opencv区别:opencv之transform函数解析CHW与HWC:图像的线性数据格
  4. 大华播放器退出时发生assert原因
  5. 【scratchjr】开源项目开发踩坑之环境配置篇
  6. 新玺配资:指数回调 行情可期
  7. Mathtype公式编辑器中插入空格
  8. viso中无法使用左右键移动形状的解决方法
  9. 3D游戏建模如火如荼,你还在为未来迷茫吗?
  10. php 图片 字母识别,php实现ocr文字识别