一 背景介绍

数据表示是机器学习领域的基础问题。在机器学习任务中,第一步即输入样本数字化。不同于声音、图像、视频等数字信号,自然语言具有先天的高度结构化、抽象化的特点。因此自然语言任务的首要任务便是将语言文字数字化。

随着技术的发展,语言文字的表征方式不断进步。从最初始的one-hot到如今的分布式表示,词向量包含的信息愈加的丰富。现有的统计模型对于未登录词、低频词依然无法有效的表征。中文词向量研究受限于中文汉字特有的“象形”特征,尚没有一种有效利用笔画信息方法。

二 研究难点

汉字是一种具有二维复杂结构的象形字。笔画——部件——汉字的层次构成结构。研究中文汉字字向量有一下难点:

1、部件结构复杂

不同部件在汉字中位置不一样,导致汉字字义变化,如“杲 gao3”、“杳yao3”等;

2、不同汉字可能对应相同的笔画序列

“日 曰”、“人 八 乂”等。

3、笔画序列为一维序列,汉字为二维结构

三 方法与设计

1、使用CNN网络结构,提取笔画序列中的部件信息

CNN网络结构具有平移不变性,卷积核大小的设置对应n-元笔画的部件,可以通过设置不同卷积核大小,提取不同笔画序列的部件信息

2、细化笔画系统,笔画序列和汉字一一对应

如“横”细化为“长横、短横、横”等,可以区分“日 曰”等汉字。引入注意力机制,计算笔画对汉字的贡献度去模拟细化后的笔画系统。

3、模型设计

模型扩展了Word2Vec中的CBOW模型,使用上下文抽取器替换上下文矩阵,字向量生成器替换词向量矩阵,采用Negative Sample方法,进行模型的训练。

需要注意的是,字向量生成器的输入是原始笔画序列X字向量贡献度,得到的新的笔画序列。

四 实验结果

对比了Word2Vec、GLoVe与本模型在中文NER中的准召率,本模型为F1值为81.6%,Word2Vec为80.2%,GloVe为81.1%。

基于笔画序列的中文字向量模型设计与研究相关推荐

  1. 通过偏旁信息改进中文字向量

    基本思想 在中文中,我们都知道汉字是由若干部分组成的,称为偏旁.而且偏旁也往往能够提供丰富的语义信息.比如,单人旁组成的字往往意指人,如"他"."你"等:三点水 ...

  2. 横扫13项中文NLP记录,中文字型深度学习模型Glyce问世!

    来源:PaperWeekly 本文约3000字,建议阅读5分钟. 本文介绍了由香侬科技提出的中文字型的深度学习模型Glyph,其中13项打破纪录. [ 导读 ]香侬科技近期提出 Glyce,首次在深度 ...

  3. 香侬科技提出中文字型的深度学习模型Glyce,横扫13项中文NLP记录

    香侬科技近期提出 Glyce,首次在深度学习的框架下使用中文字形信息(Glyph),横扫 13 项中文自然语言任务记录,其中包括:(1) 字级别语言模型 (2) 词级别语言模型 (3) 中文分词 (4 ...

  4. 报告上、下集 |《认文识字●中文字信息精准化》

    您好,欢迎关注<认文识字--中文字信息精准化>报告.我是安秀. 这里说的"中文字",是"中国文字"的简称,也就是我们常说的"汉字" ...

  5. 报告上集 | 《认文识字·中文字信息精准化》报告

    您好,欢迎关注<认文识字--中文字信息精准化>报告.我是安秀. 这里说的"中文字",是"中国文字"的简称,也就是我们常说的"汉字" ...

  6. AAAI 2018 论文 | 蚂蚁金服公开最新基于笔画的中文词向量算法

    导读:词向量算法是自然语言处理领域的基础算法,在序列标注.问答系统和机器翻译等诸多任务中都发挥了重要作用.词向量算法最早由谷歌在2013年提出的word2vec,在接下来的几年里,该算法也经历不断的改 ...

  7. 词向量算法—【AAAI2018】蚂蚁金服公开的基于笔画的中文词向量算法

    词向量算法是自然语言处理领域的基础算法,在序列标注.问答系统和机器翻译等诸多任务中都发挥了重要作用.词向量算法最早由谷歌在2013年提出的word2vec,在接下来的几年里.该算法也经历了不断的改进, ...

  8. 基于笔画描述的文字识别OCR系统——技术说明

    1. 已排除的方法 以下方法经过我们编写程序代码来实践验证了其不可行性. 1.1 游程统计法 思路:统计出点阵中的任意一点向六个角度0°.30°.60°.90°.120°.150°所能遍历的点数.如图 ...

  9. 基于DDTBOX,使用线性支持向量回归(SVR)从ERP数据中解码连续变量

    导读 事件相关电位(ERP)数据的多变量分类分析是预测认知变量的强大工具.然而,分类通常仅限于分类变量,并未充分利用连续数据,如反应时间.反应力或主观评分.另一种方法是支持向量回归(SVR),它使用单 ...

最新文章

  1. 什么是三层架构?简单的介绍三层架构!
  2. 后台开发必读书籍--算法导论
  3. 十年技术骨干面试被开出一万五薪资,直呼 “这是对我的侮辱”
  4. 作者:杜圣东(1981-),男,西南交通大学信息科学与技术学院讲师,中国计算机学会(CCF)和国际计算机学会(ACM)会员。...
  5. Visual Studio 调试器---Visual Studio 调试器
  6. 虚拟机centos7启动无法识别磁盘_分享VSAN磁盘无法识别的故障解决方法
  7. 没有业务思维,数据分析只能是一堆废纸
  8. 数据库返回刚插入记录的ID
  9. 使用jdbc连接数据库的步骤
  10. c++ 指针与引用区别
  11. 大数据——Spark GraphX介绍
  12. installshield脚本入门
  13. 6123测试软件,OTP6123系列手持式OTDR测试仪
  14. matlab fft时域采样,信号时域采样 谱分析(matlab).doc
  15. matConvNet学习-使用GPU
  16. nas 微型计算机,快速做种,PT上传更方便 用NAS玩转PT
  17. PHP 5.6,7.0,7.1,7.2 和 HHVM 运行效率比较
  18. 2022《福布斯》富豪榜发布,FTX联合创始人Gary Wang上榜
  19. 电脑取消撤销快捷键是什么_都知道“撤消”快捷键是Ctrl Z,那“反撤消”是什么呢?...
  20. git stash drop 误删恢复

热门文章

  1. css实现毛玻璃效果
  2. JS 报错getElementsByClassName.appendChild报错“Uncaught TypeError: s.appendChild is not a function”
  3. 转载英语词汇程序语言学习
  4. 哥德尔递归汉译和原始递归——哥德尔原著英译拆解汉译之七
  5. 基于ESP8266的STM32物联网开发板
  6. Excel中制作目录的3种方法,你了解几种?
  7. java接口防刷_API 接口防刷
  8. ubuntu anaconda 3.6.4 zipimport.ZipImportError: can't decompress data; zlib not available Makefile:1
  9. 你因为拖延症,错过了什么?
  10. powershell 启动时报错 profile.ps1 cannot be loaded because running scri