作者提出了一种基于n元笔画的中文词嵌入,可以有效的刻画中文的语义特征以及形态学特征。相对于现存的word2Vec,Glove,CWE,JWE以及GWE,cw2vec在语义分析,文本分类,命名实体识别任务中表现更好。

1.引言

与onehot词表征不同,低维的词嵌入可以更好的刻画自然语言的语义特征,广泛应用于词性分类,命名实体识别,机器翻译等领域。现存的方法主要是词级别的基于上下文信息学习发词表征,有学者研究sub-word级别的词表征应用于英语,德语,等,但是无法直接应用于中文中。

中文词的字符比英文更少,有学者研究了词级别的中文词表征,但是无法完全刻画词义,基于偏旁和组成的词表征噪声较大。如智的偏旁‘日’很难表达其智慧的意思,成分矢,口,日也一样。作者首次提出基于笔画级别的中文词表征。

2.cw2vec 模型

每个字分为5中笔画,ID为1-5如下图所示

通过如下操作将词转化为n元笔画模型。

2.2目标函数

词之间的相似度计算如下:

q为当前词语对应的一个n元笔画向量,而c是其对应的上下文词语的词向量。这项技术将当前词语拆解为其对应的n元笔画,但保留每一个上下文词语不进行拆解。S(w)为词语w所对应的n元笔画的集合。预测目标词的概率为

由于分母中的词汇量V太大,训练速度太慢,所以采用负采样的技术,选取部分的上下文作为负样本。具体可以参考:https://blog.csdn.net/wizardforcel/article/details/84075703。于是目标函数为:

其中,W和C分别为当前词语和上下文词语,σ是sigmoid函数,T(w)是当前词语划窗内的所有词语集合,D是训练语料的全部文本。C'为随机选取的词语,称为“负样例”,λ是负样例的个数,而Ec~p则表示负样例C'按照词频分布进行的采样,其中语料中出现次数越多的词语越容易被采样到。负采样分布的指数为3/4。

3.实验

3.1数据

语料来自中文维基百科,通过opencc工具把繁体字转化为简体字,通过ansj工具对语句进行分词。通过juhe DATA API在新华字典网站上爬取汉字的笔画顺序。

3.2基准和度量

词相似性任务:该任务用于评价模型刻画两个相邻词语义相似性的能力。在wordsim-240和wordsin-296数据集上使用秩相关系数来评价次嵌入的质量。

词推理任务:给定a-->b,和c推理c-->?用于评价模型推理语义相关性能力。使用3Cosadd和3CosMul函数推理第四个词。

文本分类任务:用于评价词嵌入模型在下游任务的表现。作者下载复旦语料库,选取其中5个话题,70%用于训练,30%用于测试。使用LIBLINEAR分类器,对文本分类。

命名实体识别:也是测试下游任务。使用BosonNLP NER 6C数据集,包含时间、地点、人、组织、公式、产品以及其他七类。70%训练,30%测试。

定性评价:作者给定目标词的前10个相近词进行定性分析。

3.3baseline算法

word2Vec(包含skip-gram和cbow):字级别的

Glove:字级别

CWE:中文字符级别

GWE:中文像素级别通过汉字的图像进行卷积提取特征

JWE:组成级别

为了统一比较,所以的词嵌入维度一致,训练集去除出现频率小于10的字,上下文窗大小以及负采样为5。

4.实验结果

4.1词相似和词推理,文本分类和命名实体识别

词嵌入为300维,结果为秩相关系数x100,结果表明基于中文的CWE,GWE以及JWE表现总体比word2vec以及Glove好,cw2vec表现超过了所有的模型!!!!!在推理任务提高了4个百分点。

4.3表现VS维度

结果如图所示,cw2vec同样打败了所有模型,在300维时表现最好。

4.4表现VS训练数据集大小

作者还研究了小数据集的影响,选取训练集的20%进行训练,测试结果如下

skipgram, cbow和GloVe算法由于没有利用中文的特性信息进行加强,所以在小语料上表现较差,而其余四个算法取得了不错的效果。cw2vec表现最好,CWE表现次好,两者的鲁棒性好,可以有效刻画子词的信息。

4.5定性分析

作者选取水污染和孙悟空做案例分析。第一个是环境相关的“水污染”,然后根据词向量利用向量夹角余弦找到与其语义最接近的词语。GWE找到了一些和“污”字相关的词语,比如“污泥”,“污渍”和“污垢”,而JWE则更加强调后两个字“污染”GloVe找到了一些奇怪的相近词语,比如“循环系统”,“神经系统”。CWE找到的相近词语均包含“水”和“污”这两个字,猜测是由于其利用汉字信息直接进行词向量加强的原因。此外,只有cw2vec找到了“水质”这个相关词语,分析认为是由于n元笔画和上下文信息对词向量共同作用的结果。第二个例子,特别选择了“孙悟空”这个词语,该角色出现在中国的名著《西游记》和知名日本动漫《七龙珠》中,cw2vec找到的均为相关的角色或著作名称。

5.相关工作与总结

作者在文中介绍了提取sub-word信息以及中文词嵌入的一些工作,还指出了模型的缺点,无法将一些字区分开如:土和士。

cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information阅读笔记相关推荐

  1. cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information

    Abstract 我们提出了一种新的汉字嵌入学习方法cw2vec.根据我们的观察,笔划层次的信息对于提高汉字单词嵌入的学习是至关重要的.具体来说,我们设计了一种极简主义的方法来利用这些特征,通过使用笔 ...

  2. Rasa课程、Rasa培训、Rasa面试、Rasa实战系列之Understanding Word Embeddings CBOW and Skip Gram

    Rasa课程.Rasa培训.Rasa面试.Rasa实战系列之Understanding Word Embeddings CBOW and Skip Gram 字嵌入 从第i个字符,第i+1个字符预测第 ...

  3. 《A Survey on Deep Learning Technique for Video Segmentation》视频分割综述阅读笔记(翻译)

    <A Survey on Deep Learning Technique for Video Segmentation>视频分割综述阅读笔记(背景部分翻译) 作者:Wenguan Wang ...

  4. MGN:Learning Discriminative Features with Multiple Granularities for Person Re-Identification阅读笔记

    Learning Discriminative Features with Multiple Granularities for Person Re-Identification Guanshuo W ...

  5. 【图像增强】Learning Enriched Features for Real Image Restoration and Enhancement 阅读笔记

  6. Deep Learning for Polar Codes over Flat Fading Channels《阅读笔记》精读

    平面衰落通道上的极地代码深度学习 文章目录 Abstract introduction 二.系统模型 1.系统模型框图 Polar Codes 神经网络模型 性能评估 结论 Abstract 提出了啥 ...

  7. 【吴恩达深度学习】05_week2_quiz Natural Language Processing Word Embeddings

    (1)Suppose you learn a word embedding for a vocabulary of 10000 words. Then the embedding vectors sh ...

  8. Word embeddings in 2017: Trends and future directions (2017年里的词嵌入:趋势和未来方向)

    Word embeddings in 2017: Trends and future directions 原文作者:anonymous 原文地址:http://ruder.io/word-embed ...

  9. Task 4: Contextual Word Embeddings (附代码)(Stanford CS224N NLP with Deep Learning Winter 2019)

    Task 4: Contextual Word Embeddings 目录 Task 4: Contextual Word Embeddings 词向量的表示 一.Peters et al. (201 ...

最新文章

  1. ADO.net 中数据库连接方式
  2. python编程入门免费_python编程入门 零基础学习Python基础(附带最新免费教程)...
  3. 01 能够使用Format实现格式化输出显示
  4. 如何引用传递参数从一个函数中得到多个返回值
  5. 测试老司机一起聊聊性能测试是怎么一回事?
  6. paip.关于动画特效原理 html js 框架总结
  7. github第一次使用--创建hello-world
  8. JAVA的抽象类和接口
  9. 平面判断两点连线是否交叉
  10. PMP认证的教材更新到第几版了?
  11. matlab实验十ask,matlab实验十ASK调制与解调实验
  12. html5设置图片为页面背景透明度,纯CSS设置图片半透明,DIV半透明,背景半透明的方法...
  13. 苹果关掉200m限制_苹果下载超过200兆怎么设置
  14. 产业安全专家谈丨数字经济高速发展,数据要素安全该如何保障?
  15. springboot+二手车交易系统 毕业设计-附源码131456
  16. android仿微信聊天功能,Android高仿微信聊天界面代码分享
  17. PS cc 2018分享
  18. Latex如何排版矩阵
  19. 解决macbook pro中使用word打字出现拼音问题
  20. Vue与Angular以及React的区别

热门文章

  1. 欧姆龙温控器参数笔记(四)(调整菜单)
  2. 电影【万里归途】定档了吗?什么时候上映?
  3. springboot框架学习 图书管理系统的简单实现
  4. DB/DC计划模式比较分析
  5. 计算机网络会议排名,计算机通信网络领域的顶级期刊会议排名,和投稿心得分享...
  6. 十个网站助力毕业设计通关
  7. ElasticSearch学习过程中遇到的坑
  8. 航模遥控器FM/PCM与FM/PPM区别_上海无线模型航模遥控飞机专卖店_百度空间
  9. 08 JavaScript(js)
  10. 【模板】KMP字符串匹配