(给机器学习算法与Python学习加星标,提升AI技能) 该项目提供了不同表征(密集和稀疏)上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量。开发者可以轻松获得具有不同属性的预先训练的向量,并将它们用于下游任务。此外,该库还提供了一个中文类比推理数据集CA8和评估工具包,供用户评估他们的单词向量的质量。

格式

预先训练好的向量文件是 text 格式,每行包含一个单词和它的向量,每个值由空格分隔。第一行记录元信息:第一个数字表示文件中的字数,第二个表示维度。除了密集的单词矢量(用 SGNS 训练)之外,我们还提供稀疏矢量(用 PPMI 训练)。它们与 liblinear 的格式相同,其中“:”之前的数字表示维度索引,“:”之后的数字表示该值。Github:https://github.com/Embedding/Chinese-Word-Vectors

预训练中文词向量

基础设置不同的领域用不同的表示法,上下文特征和语料库训练的中文单词向量。*本库提供了字符嵌入,因为大部分古汉字都是独立的字符。

各种共现信息

本库根据不同的共现信息发布单词向量,目标向量和上下文向量在相关论文中被称为输入和输出向量。这一部分,可以获取词层面之上的任意语言单元向量。例如,汉字向量包含在词-汉字的上下文向量中。所有向量都在百度百科上使用 SGNS 训练。

推荐阅读手绘日漫版的新垣结衣见过没?这个开源动漫生成器让你的照片秒变教程资源 | 5天玩转PyTorch深度学习,从GAN到词嵌入都有实例技巧 | 30招教你顺滑切换Python3PDF+视频 | 欲学机器学习必先掌握Shell,自制教程

喜欢就点「在看」吧 !

github设置中文_【Github】100+ Chinese Word Vectors 上百种预训练中文词向量相关推荐

  1. 预训练词向量中文维基百科,英文斯坦福glove预训练的词向量下载

    中文预训练词向量--基于中文维基百科语料训练 英文预训练词向量--斯坦福glove预训练的词向量 百度云分享:https://pan.baidu.com/s/1UpZeuqlNMl6XtTB5la53 ...

  2. java加载中文词向量_Chinese Word Vectors:目前最全的中文预训练词向量集合

    对于国内自然语言处理的研究者而言,中文词向量语料库是需求很大的资源.近日,来自北京师范大学和人民大学的研究者开源了「中文词向量语料库」,试图为大家解决这一问题,该库包含经过数十种用各领域语料(百度百科 ...

  3. PromptCLUE:大规模多任务Prompt预训练中文开源模型

    简介 PromptCLUE:大规模多任务Prompt预训练中文开源模型. 中文上的三大统一:统一模型框架,统一任务形式,统一应用方式.支持几十个不同类型的任务,具有较好的零样本学习能力和少样本学习能力 ...

  4. 【NLP】维基百科中文数据训练word2vec词向量模型——基于gensim库

    前言   本篇主要是基于gensim 库中的 Word2Vec 模型,使用维基百科中文数据训练word2vec 词向量模型,大体步骤如下: 数据预处理 模型的训练 模型的测试 准备条件: Window ...

  5. NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量

    NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量 目录 输出结果 设计思路 1.Wikipedia Text语料来源 2.维基 ...

  6. NLP 利器 Gensim 来训练 word2vec 词向量模型的参数设置

    使用 Gensim 来训练 word2vec 词向量模型的参数设置 文章目录 一.最小频次 min_count 二.词向量维度 size 三.并行处理核心数 workers 我们可以使用一些参数设置来 ...

  7. wordcloud里面设置mask加载不出来词频_一条龙搞定情感分析:文本预处理、加载词向量、搭建RNN

    IMDB Sentiment Classification from scratch Author: Beyond Time: 2019.04.26 情感分析是上手NLP的最简单的任务之一,它就是一个 ...

  8. 电脑分辨率设置工具_手机也能运行电脑上的软件了?苹果这个办法好

    上周的 WWDC 大会上,苹果展示了全新的 macOS 和 iPad OS. 大家纷纷感慨苹果设备之间的联动愈发密切,终于像个生产力工具了. 比如利用名为 Slidecar 的功能,可以将 iPad ...

  9. 为什么python不能输入中文_一条命令解决mac版本python IDLE不能输入中文问题

    安装完Python通常自动就有了一个简易的集成环境IDLE,但在mac上,无法在IDLE中使用中文. 通常故障有两种情况: 1.在IDLE中,中文输入法根本无法工作,不会弹出输入框,所有的输入都被当做 ...

最新文章

  1. 【python】关于控制台的中文输出出现\x形式的问题 python常用包与如何安装
  2. POJ2337 欧拉路径字典序输出
  3. Spring MVC-09循序渐进之文件上传(基于Servlet3.0+内置功能)
  4. My Appointment - Belonging to me, Search by team, Search by group
  5. linux文件本编辑,Linux就该这么学 -- 命令 -- 文本文件编辑命令
  6. jpa 测试_使用外星人进行测试:如何使用Arquillian测试JPA类型转换器
  7. stackexchange_通过Spring Social发推StackExchange问​​题
  8. python中的关键函数_Python关键要素
  9. Java 基础【13】 I/O流概念分析整理
  10. DNS Server 的设置使用
  11. ThinkPhp项目部署到Linux session_start() 报错:failed:No such file or directory
  12. 计算机组成原理课后答案(唐朔飞第三版) 第三章
  13. 推荐几个Mac系统桌面吸色工具!颜色吸取器
  14. stm32毕业设计 单片机指纹识别考勤系统
  15. JAVA定时调度框架Quartz使用案例
  16. Gym Atari: Gym no longer distributes ROMs.
  17. java上传文件怎么设置成777权限_如何修改文件夹777权限
  18. 快速批量下载 B 站视频
  19. PR剪辑-电子相册学习笔记
  20. 【电力电子技术】 THE BUCK-BOOST 升降压斩波电路

热门文章

  1. 云计算产值将超3000亿美元 亚马逊微软谷歌居三甲
  2. 【遥感数字图像处理】基础知识:第三章 遥感数字图像几何处理
  3. Android之android.system.ErrnoException: open failed: ENOENT (No such file or directory)
  4. linux之nm命令
  5. 数据结构之广度优先搜索(队列实现)问题
  6. 编写函数判断一个数是否是回文数_程序员面试金典 - 面试题 01.04. 回文排列
  7. 王道408数据结构——第三章 栈和队列
  8. python字符串创建_在Python上创建完整的字符串
  9. 06-广度优先搜索:图、队列
  10. 史上最冤!美国原子弹之父被骂了9年!最后他上台领奖,竟一把推开了总统.........