ChineseEmbedding

Chinese Embedding collection incling token ,postag ,pinyin,dependency,word embedding.中文自然语言处理向量合集,包括字向量,拼音向量,词向量,词性向量,依存关系向量.共5种类型的向量.
项目地址:https://github.com/liuhuanyong

项目简介

目前不同于one-hot表示的稠密向量在常见的NLP任务中运用的越来越广,而目前开源的向量资源还比较单一,只有中文和其他语言的词向量.本项目想弥补这一缺陷.

本项目认为

1,NLP中的各种语言单元形态都可以进行向量表示.
2,稠密低维的向量较one-hot这种sparse向量更具备语义信息.
3,中文信息处理中可以进行词向量表示的语言单位包括:

  1. 字符(单个汉字)
  2. 词语(词或词组)
  3. 汉语拼音
  4. 汉语词性
  5. 汉语词语之间的依存关系

本项目要完成的任务

运用词向量建模方法,分别完成以上5种形态的词向量训练, 并检验效果.

训练语料

本项目将使用中文维基百科(zhiwiki)作为训练语料来源.

训练方法

  1. 基于skigram的方法
    对字向量,拼音向量,词向量,词性向量采用此类方法,分别设定词向量的维度及其他超参数
  2. 基于上下文共现与PCA降维的方法
    对依存向量采用此类方法

测试方法

本测试较为简单,直接使用语义最近的语言单元作为检验

代码目录

train_vector.py: 向量训练脚本
test_vector.py: 向量测试脚本

结果展示

向量名称 向量含义 词数 维度 例子
de_vec_10 依存关系向量 13 10 SBV, ATT
pinyin_vec_300 汉语拼音向量 146242 300 ni, hao
postag_vec_30 汉语词性向量 59 300 n,v,a,d
token_vec_300 汉语字向量 20029 300 刘,焕,勇
word_vec_300 汉语词向量 673266 300 刘焕勇

向量测试

    ***********************字符向量************************token:刘('李', 0.7306396961212158),('陈', 0.7201231122016907)('赵', 0.6974461674690247),('杨', 0.6972213983535767)('吴', 0.6851627230644226),('徐', 0.6516467332839966)('郭', 0.6499480605125427),('蔡', 0.6175302267074585)('郑', 0.6092196106910706),('孙', 0.5950524210929871)token:丑('卯', 0.6074919700622559),('酉', 0.5910211801528931)('巳', 0.5581363439559937),('戌', 0.43932047486305237)('戊', 0.41449615359306335),('壬', 0.40456631779670715)('謤', 0.367109090089798),('绯', 0.3643313944339752),('寅', 0.36351141333580017),('旽', 0.3549465537071228)***********************依存向量************************dependency rel:ATT('COO', 0.14239487051963806),('ADV', -0.16987691819667816)('RAD', -0.2357601821422577),('HED', -0.2401314228773117)('SBV', -0.25625932216644287),('WP', -0.27165737748146057)('LAD', -0.2902592420578003),('POB', -0.2990782558917999)('VOB', -0.37553706765174866),('IOB', -0.6669262647628784)dependency rel:POB('IOB', 0.16698899865150452),('DBL', 0.16678886115550995)('FOB', 0.1657436639070511),('CMP', 0.14784857630729675)('VOB', 0.1461176574230194),('SBV', 0.08011472970247269)('LAD', -0.022307466715574265),('WP', -0.022942926734685898)('HED', -0.037264980375766754),('RAD', -0.042251598089933395)***********************拼音向量************************pinyin:wo('shei', 0.6129732131958008)('ta', 0.6081706285476685)('nin', 0.5819231867790222),('!', 0.5435523986816406)('……', 0.48428624868392944),('ai', 0.47832390666007996)('o', 0.4761071801185608),('。』', 0.4598163366317749)('...', 0.45207729935646057),('ni', 0.44975683093070984)pinyin:guo('dang', 0.3908974528312683),('yuan', 0.378823846578598)('zu', 0.35387369990348816),('hua', 0.3405681848526001)('zheng', 0.3355437219142914),('yi', 0.3333034813404083)('ren', 0.3194104731082916),('jun', 0.3187354505062103)('hui', 0.31342023611068726),('xin', 0.3096797466278076)***********************词性向量************************word postag:a('d', 0.7203904986381531),('c', 0.6124969720840454)('v', 0.4963228106498718),('an', 0.4531499147415161)('uz', 0.4459834396839142),('ud', 0.42059916257858276)('r', 0.4090540111064911),('uj', 0.4061364233493805)('i', 0.38707998394966125),('l', 0.3551557660102844)word postag:n('b', 0.7030695676803589),('vn', 0.490166038274765)('p', 0.4858315885066986),('v', 0.4499088227748871)('nt', 0.44155171513557434),('f', 0.26609259843826294)('s', 0.2639649212360382),('l', 0.24365971982479095)('ns', 0.2278469204902649),('m', 0.202927365899086)***********************词向量************************word:爱情('爱恋', 0.6931096315383911),('真爱', 0.6897798776626587)('婚姻', 0.6540514826774597),('浪漫爱情', 0.6535360813140869)('情感', 0.6501022577285767),('感情', 0.6403399705886841)('纯爱', 0.6394841074943542),('爱情故事', 0.6282097101211548)('校园爱情', 0.6078493595123291),('情爱', 0.5976818799972534)word:创新('技术创新', 0.7648976445198059),('不断创新', 0.7172579765319824)('创新型', 0.6573833227157593),('创新能力', 0.6533682942390442)('创新性', 0.6160774827003479),('革新', 0.6159394383430481)('人才培养', 0.6093565821647644),('开拓创新', 0.6015594601631165)('探索', 0.5987343788146973),('技术革新', 0.5949685573577881)

总结

1,本项目完成了中文五种语言单位的向量训练.
2,从以上可以看出,词和字向量的效果看起来还不错.
3,依存向量,依存向量中可以看出,ATT作为定中关系,在依存关系中属于定中结构,COO(联合),ADV(状中)的相似度要比主谓SBV,动宾VOB的相似度要高.另外,作为介宾的POB,相似的有IOB,DBL,FOB,这些关系均与宾语成分相关.
4,拼音向量,从wo,guo的拼音相似拼音来看,我们可以看到,这种相似的拼音更像是一种搭配,很有意思.(词性参照jieba分词词性对照表)
5,词性向量,从a,n的相似词性来看,也似乎更像是一种搭配现象,或许有更好的解释…
4,总之,向量性能的好坏,需要在实际的NLP任务中运用检验,这个是后续需要进行的工作.

If any question about the project or me ,see https://liuhuanyong.github.io/

中文自然语言处理向量合集(字向量,拼音向量,词向量,词性向量,依存关系向量)相关推荐

  1. jieba库 python2.7 安装_Python中文分词工具大合集:安装、使用和测试

    这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AI ...

  2. 中文 Python 开源资料合集!这应该是最全的了!

    学习编程的人都知道全球有个最大的开源社区 Github,在这社区上有很多开源免费的资料.今天我就给整理了关于 Python 资源最全的中文合集! 这个开源是由 vinta 发起维护的 Python 资 ...

  3. 资源 | Python中文分词工具大合集

    跟着博主的脚步,每天进步一点点 这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工 ...

  4. Python中文分词工具大合集:安装、使用和测试

    转自:AINLP 这篇文章事实上整合了之前文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具 ...

  5. python 分词工具训练_Python中文分词工具大合集:安装、使用和测试

    这篇文章事实上整合了前面两篇文章的相关介绍,同时添加一些其他的Python中文分词相关资源,甚至非Python的中文分词工具,仅供参考. 首先介绍之前测试过的8款中文分词工具,这几款工具可以直接在AI ...

  6. 重磅!9个中文免费电子书网站合集来了

    程序员的成长之路 互联网/程序员/成长/职场 关注 阅读本文大概需要 2 分钟. 来自:程序员书库整理 作为开发者多看点书还是应该的,要是想要看的书都能免费那就更好不过了,此前猿哥已经和大家分享过一些 ...

  7. SCI科研工具推荐合集!

    科研工具推荐 作者:科研情报站BioSCI @知乎,编辑:极市平台 导读 作为一个平时就很辛苦的科研er,本着能用工具解决的问题绝对不花苦力的原则,收集了很多科研利器,现在分享给大家,相信大家看完以后 ...

  8. 2013年CISA中英对照题目解析合集国盟官方(红宝书第四版)

    2013年CISA中英对照题目解析合集国盟官方(红宝书第四版) 本书为国际信息安全学习联盟(简称国盟)CNCISA(中国CISA)家园历年发布的中文对照题目解析合集(红宝书)第四版.本书的目的在于向C ...

  9. 文本分析合集,文本向量处理的方法jieba,对文本的特征工程之TfidfVectorizer以及结合TruncatedSVD,WordCloud词云图展示

    文本分析合集,文本向量处理的方法jieba,对文本的特征工程之TfidfVectorizer以及结合TruncatedSVD,WordCloud词云图展示 对于一列文本我们需要对其进行操作的话首先要进 ...

最新文章

  1. http和https的区别和联系
  2. 为什么Java能够持续的受到欢迎呢?原因有这些
  3. 按钮开始多线程_微软MR技术专家分享:AR/VR多线程处理的八年经验与技巧
  4. IOS之学习笔记六(可变形参)
  5. 我懵了,那个听起来很厉害的微内核架构是个什么鬼?
  6. 拳王虚拟项目公社:小投资虚拟创业副业项目?零成本投资网赚项目
  7. 一文读懂python本地开发环境配置
  8. BigDecimal 加减乘除及对比
  9. 内连接、左外连接与右外连接的区别及作用介绍
  10. 阿里hotfix热修复自动更新,了解一下。
  11. k8s教程(pod篇)-容器获取pod信息(Downward API)
  12. MySQL Flashback拯救手抖党
  13. 自己 总结 一些 学习上 鼓励自己的 话~共勉哟
  14. win10更新后任务栏卡死解决方法
  15. Minor GC、Young GC、Old GC、Major GC、Mixed GC、Full GC都是什么?
  16. 美容店信息管理系统与小程序设计与实现
  17. 2020文献积累:计算机 [1] Reinforcement learning in Economics and Finance
  18. android读取U引导扇区,回收站清空了怎么恢复,删除的文件如何恢复,u盘格式化后数据恢复 - 久久量产网...
  19. 通过kafka发送和接收消息
  20. maya turtle 贴图烘培文件命名规范

热门文章

  1. 使用PIL将白底黑字图片转为透明底白字
  2. 采购管理主要流程有哪些?
  3. vue导入xlsx-style组件报错Can‘t resolve ‘./cptable‘ in ‘xxx\node_modules_xlsx
  4. 关于典型二阶系统固有频率
  5. Boston_House_Price经典例子分析
  6. HBS57S雷赛伺服的初探
  7. Mac安装beego和bee时出现的问题
  8. sizeof运算符详细总结
  9. SA387GR11CL2钢板密度
  10. Spring Security Oauth2 授权码模式下 自定义登录、授权页面