基于笔画序列的中文字向量模型设计与研究
一 背景介绍
数据表示是机器学习领域的基础问题。在机器学习任务中,第一步即输入样本数字化。不同于声音、图像、视频等数字信号,自然语言具有先天的高度结构化、抽象化的特点。因此自然语言任务的首要任务便是将语言文字数字化。
随着技术的发展,语言文字的表征方式不断进步。从最初始的one-hot到如今的分布式表示,词向量包含的信息愈加的丰富。现有的统计模型对于未登录词、低频词依然无法有效的表征。中文词向量研究受限于中文汉字特有的“象形”特征,尚没有一种有效利用笔画信息方法。
二 研究难点
汉字是一种具有二维复杂结构的象形字。笔画——部件——汉字的层次构成结构。研究中文汉字字向量有一下难点:
1、部件结构复杂
不同部件在汉字中位置不一样,导致汉字字义变化,如“杲 gao3”、“杳yao3”等;
2、不同汉字可能对应相同的笔画序列
“日 曰”、“人 八 乂”等。
3、笔画序列为一维序列,汉字为二维结构
三 方法与设计
1、使用CNN网络结构,提取笔画序列中的部件信息
CNN网络结构具有平移不变性,卷积核大小的设置对应n-元笔画的部件,可以通过设置不同卷积核大小,提取不同笔画序列的部件信息
2、细化笔画系统,笔画序列和汉字一一对应
如“横”细化为“长横、短横、横”等,可以区分“日 曰”等汉字。引入注意力机制,计算笔画对汉字的贡献度去模拟细化后的笔画系统。
3、模型设计
模型扩展了Word2Vec中的CBOW模型,使用上下文抽取器替换上下文矩阵,字向量生成器替换词向量矩阵,采用Negative Sample方法,进行模型的训练。
需要注意的是,字向量生成器的输入是原始笔画序列X字向量贡献度,得到的新的笔画序列。
四 实验结果
对比了Word2Vec、GLoVe与本模型在中文NER中的准召率,本模型为F1值为81.6%,Word2Vec为80.2%,GloVe为81.1%。
基于笔画序列的中文字向量模型设计与研究相关推荐
- 通过偏旁信息改进中文字向量
基本思想 在中文中,我们都知道汉字是由若干部分组成的,称为偏旁.而且偏旁也往往能够提供丰富的语义信息.比如,单人旁组成的字往往意指人,如"他"."你"等:三点水 ...
- 横扫13项中文NLP记录,中文字型深度学习模型Glyce问世!
来源:PaperWeekly 本文约3000字,建议阅读5分钟. 本文介绍了由香侬科技提出的中文字型的深度学习模型Glyph,其中13项打破纪录. [ 导读 ]香侬科技近期提出 Glyce,首次在深度 ...
- 香侬科技提出中文字型的深度学习模型Glyce,横扫13项中文NLP记录
香侬科技近期提出 Glyce,首次在深度学习的框架下使用中文字形信息(Glyph),横扫 13 项中文自然语言任务记录,其中包括:(1) 字级别语言模型 (2) 词级别语言模型 (3) 中文分词 (4 ...
- 报告上、下集 |《认文识字●中文字信息精准化》
您好,欢迎关注<认文识字--中文字信息精准化>报告.我是安秀. 这里说的"中文字",是"中国文字"的简称,也就是我们常说的"汉字" ...
- 报告上集 | 《认文识字·中文字信息精准化》报告
您好,欢迎关注<认文识字--中文字信息精准化>报告.我是安秀. 这里说的"中文字",是"中国文字"的简称,也就是我们常说的"汉字" ...
- AAAI 2018 论文 | 蚂蚁金服公开最新基于笔画的中文词向量算法
导读:词向量算法是自然语言处理领域的基础算法,在序列标注.问答系统和机器翻译等诸多任务中都发挥了重要作用.词向量算法最早由谷歌在2013年提出的word2vec,在接下来的几年里,该算法也经历不断的改 ...
- 词向量算法—【AAAI2018】蚂蚁金服公开的基于笔画的中文词向量算法
词向量算法是自然语言处理领域的基础算法,在序列标注.问答系统和机器翻译等诸多任务中都发挥了重要作用.词向量算法最早由谷歌在2013年提出的word2vec,在接下来的几年里.该算法也经历了不断的改进, ...
- 基于笔画描述的文字识别OCR系统——技术说明
1. 已排除的方法 以下方法经过我们编写程序代码来实践验证了其不可行性. 1.1 游程统计法 思路:统计出点阵中的任意一点向六个角度0°.30°.60°.90°.120°.150°所能遍历的点数.如图 ...
- 基于DDTBOX,使用线性支持向量回归(SVR)从ERP数据中解码连续变量
导读 事件相关电位(ERP)数据的多变量分类分析是预测认知变量的强大工具.然而,分类通常仅限于分类变量,并未充分利用连续数据,如反应时间.反应力或主观评分.另一种方法是支持向量回归(SVR),它使用单 ...
最新文章
- 什么是三层架构?简单的介绍三层架构!
- 后台开发必读书籍--算法导论
- 十年技术骨干面试被开出一万五薪资,直呼 “这是对我的侮辱”
- 作者:杜圣东(1981-),男,西南交通大学信息科学与技术学院讲师,中国计算机学会(CCF)和国际计算机学会(ACM)会员。...
- Visual Studio 调试器---Visual Studio 调试器
- 虚拟机centos7启动无法识别磁盘_分享VSAN磁盘无法识别的故障解决方法
- 没有业务思维,数据分析只能是一堆废纸
- 数据库返回刚插入记录的ID
- 使用jdbc连接数据库的步骤
- c++ 指针与引用区别
- 大数据——Spark GraphX介绍
- installshield脚本入门
- 6123测试软件,OTP6123系列手持式OTDR测试仪
- matlab fft时域采样,信号时域采样 谱分析(matlab).doc
- matConvNet学习-使用GPU
- nas 微型计算机,快速做种,PT上传更方便 用NAS玩转PT
- PHP 5.6,7.0,7.1,7.2 和 HHVM 运行效率比较
- 2022《福布斯》富豪榜发布,FTX联合创始人Gary Wang上榜
- 电脑取消撤销快捷键是什么_都知道“撤消”快捷键是Ctrl Z,那“反撤消”是什么呢?...
- git stash drop 误删恢复
热门文章
- css实现毛玻璃效果
- JS 报错getElementsByClassName.appendChild报错“Uncaught TypeError: s.appendChild is not a function”
- 转载英语词汇程序语言学习
- 哥德尔递归汉译和原始递归——哥德尔原著英译拆解汉译之七
- 基于ESP8266的STM32物联网开发板
- Excel中制作目录的3种方法,你了解几种?
- java接口防刷_API 接口防刷
- ubuntu anaconda 3.6.4 zipimport.ZipImportError: can't decompress data; zlib not available Makefile:1
- 你因为拖延症,错过了什么?
- powershell 启动时报错 profile.ps1 cannot be loaded because running scri