中文词向量、字向量
将汉字拆分成偏旁部首训练词向量

现在有个想法是将汉字拆分成偏旁部首或者笔画,想法来自 fastText 的 n-gram 字符集。(注意:在 Chinese NLP 领域, 应该默认以 word 为词, character 为字, 本文也是如此. 以后如无意外, 不再赘述。)

fastText:2016年 facebook 的论文
Enriching Word Vectors with Subword Information

cw2vec: 阿里
Learning Chinese Word Embeddings with Stroke n-gram Information
AAAI 2018高分录用的一篇中文词向量论文,出自蚂蚁金服人工智能部。

Chinese Word Vectors:目前最全的中文预训练词向量集合
https://www.jiqizhixin.com/articles/2018-05-15-10

自然语言处理算法之cw2vec理论及其实现(基于汉字笔画)
https://blog.csdn.net/HHTNAN/article/details/81807680

Unicode汉字笔画顺序表
UNICODE汉字笔顺表,共2万多个汉字,最多的有四十多划。
https://download.csdn.net/download/bao110908/363125

搜“笔画拆拆”
https://bbs.csdn.net/topics/380220799

汉字的字向量、词向量和表示学习(中文词向量)相关推荐

  1. 腾讯AI Lab开源大规模高质量中文词向量数据,800万中文词随你用

    今日,腾讯AI Lab 宣布开源大规模.高质量的中文词向量数据.该数据包含800多万中文词汇,相比现有的公开数据,在覆盖率.新鲜度及准确性上大幅提高,为对话回复质量预测和医疗实体识别等自然语言处理方向 ...

  2. 自动训练Embedding词向量和手动训练Embedding词向量

    手动训练自己的词向量 gensim工具包-训练自己的Word2Vec 产生word_vector.bin文件 然后调用: embedding = nn.Embedding.from_pretraine ...

  3. python3制作中文词云_Python_制作中文词云

    准备工作: 安装 jieba 中文分词工具 安装 wordcloud 词云生成工具 下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/ 在命令行执行: p ...

  4. 中文词向量学习记录-综述

    最近打算准备毕设,所以需要仔细了解一下中文词向量的最近发展,发现一个比较完整的系列文章: 参考原文链接:https://bamtercelboo.github.io/2018/08/16/chines ...

  5. 深度学习方法(十七):word2vec算法原理(1):跳字模型(skip-gram) 和连续词袋模型(CBOW)

    word embedding算法中最为经典的算法就是今天要介绍word2vec,最早来源于Google的Mikolov的: 1.Distributed Representations of Sente ...

  6. 800万中文词,腾讯AI Lab开源大规模NLP数据集

    参加 2018 AI开发者大会,请点击 ↑↑↑ 10 月19 日,腾讯 AI Lab 宣布开源大规模.高质量的中文词向量数据.该数据包含 800 多万中文词汇. 腾讯 AI Lab 表示,相比现有的公 ...

  7. Python库:wordcloud库介绍、政府工作报告词云、自定义背景词云

    一.wordcloud库 二.使用wordcloud库 注:库名wordcloud全部是小写,而WordCloud对象W和C大写 简单说,绘制一个词云有三步: 第一.生成词云对象WordCloud,并 ...

  8. JoSE:球面上的词向量和句向量

    作者丨苏剑林 单位丨追一科技 研究方向丨NLP,神经网络 个人主页丨kexue.fm 这篇文章介绍一个发表在 NeurIPS 2019 的做词向量和句向量的模型 JoSE(Joint Spherica ...

  9. NLP词向量和句向量方法总结及实现

    目前各种词向量是很多的,很有必要做一个综合性的总结.在CSDN上一看已经有作者做过这部分的工作了.觉得写的非常棒,于是就转载过来了,原文地址:NLP词向量和句向量方法总结及实现,具体内容如下: 一.W ...

  10. 词向量word2vec(图学习参考资料)

    介绍词向量word2evc概念,及CBOW和Skip-gram的算法实现. 项目链接: https://aistudio.baidu.com/aistudio/projectdetail/500940 ...

最新文章

  1. 修改CentOS7网卡名称为传统名称eth0格式(20170711更新)
  2. Flex很可能会消失
  3. Xorequ(BZOJ3329+数位DP+斐波那契数列)
  4. Dos中查找文件命令的使用find
  5. SD卡格式化怎么恢复?只需要五个步骤
  6. 晨读打卡(2018.1)
  7. MySQL8.0 版本的安装
  8. CNN的几种经典模型
  9. JsRender 前端渲染模板常用API学习
  10. 华为鸿蒙5g售价,华为5G新旗舰已确认,双曲面屏+升级到鸿蒙2.0,价格很感人
  11. SVG 教程 (一)
  12. 比其他行业晚了十年的工业软件,转型的核心和动力是什么?
  13. 怎么让背景铺满整个页面_必能用到,一页PPT中想放超多图片怎么办?
  14. SpringCloud学习笔记023---分布式集群之_Windows下搭建zookeeper服务器
  15. c语言gs迭代法解方程,ex1_7-GS迭代法例题源程序及注释.pdf
  16. [转]正确设置nginx/php-fpm/apache权限
  17. 简明python教程实例
  18. ps怎么做出针式打印机打印效果字体?
  19. 互联网安全架构师培训课程 互联网安全与防御高级实战课程 基于Springboot安全解决方案
  20. 阿里云产品介绍(一):云服务器ECS

热门文章

  1. Windows移动开发(五)——初始XAML
  2. Elasticsearch 2.3.x 拼音分词 analysis-lc-pinyin
  3. [读书笔记]iOS 7 UI设计 对比度
  4. Microsoft SQL Server 2008 Management Studio Express 下载地址
  5. [C++] - 面向对象-院校管理系统
  6. java 基础知识学习 内存泄露(memory leak) VS 内存溢出(out of memory)以及内存管理...
  7. Alpine Linux:如何配置GUI的图形桌面环境:x Desktop Environment
  8. 安装MATLAB(已经下载安装包)
  9. The Strategy pattern
  10. Ajax+Java实现大文件切割上传