cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information阅读笔记
作者提出了一种基于n元笔画的中文词嵌入,可以有效的刻画中文的语义特征以及形态学特征。相对于现存的word2Vec,Glove,CWE,JWE以及GWE,cw2vec在语义分析,文本分类,命名实体识别任务中表现更好。
1.引言
与onehot词表征不同,低维的词嵌入可以更好的刻画自然语言的语义特征,广泛应用于词性分类,命名实体识别,机器翻译等领域。现存的方法主要是词级别的基于上下文信息学习发词表征,有学者研究sub-word级别的词表征应用于英语,德语,等,但是无法直接应用于中文中。
中文词的字符比英文更少,有学者研究了词级别的中文词表征,但是无法完全刻画词义,基于偏旁和组成的词表征噪声较大。如智的偏旁‘日’很难表达其智慧的意思,成分矢,口,日也一样。作者首次提出基于笔画级别的中文词表征。
2.cw2vec 模型
每个字分为5中笔画,ID为1-5如下图所示
通过如下操作将词转化为n元笔画模型。
2.2目标函数
词之间的相似度计算如下:
q为当前词语对应的一个n元笔画向量,而c是其对应的上下文词语的词向量。这项技术将当前词语拆解为其对应的n元笔画,但保留每一个上下文词语不进行拆解。S(w)为词语w所对应的n元笔画的集合。预测目标词的概率为
由于分母中的词汇量V太大,训练速度太慢,所以采用负采样的技术,选取部分的上下文作为负样本。具体可以参考:https://blog.csdn.net/wizardforcel/article/details/84075703。于是目标函数为:
其中,W和C分别为当前词语和上下文词语,σ是sigmoid函数,T(w)是当前词语划窗内的所有词语集合,D是训练语料的全部文本。C'为随机选取的词语,称为“负样例”,λ是负样例的个数,而Ec~p则表示负样例C'按照词频分布进行的采样,其中语料中出现次数越多的词语越容易被采样到。负采样分布的指数为3/4。
3.实验
3.1数据
语料来自中文维基百科,通过opencc工具把繁体字转化为简体字,通过ansj工具对语句进行分词。通过juhe DATA API在新华字典网站上爬取汉字的笔画顺序。
3.2基准和度量
词相似性任务:该任务用于评价模型刻画两个相邻词语义相似性的能力。在wordsim-240和wordsin-296数据集上使用秩相关系数来评价次嵌入的质量。
词推理任务:给定a-->b,和c推理c-->?用于评价模型推理语义相关性能力。使用3Cosadd和3CosMul函数推理第四个词。
文本分类任务:用于评价词嵌入模型在下游任务的表现。作者下载复旦语料库,选取其中5个话题,70%用于训练,30%用于测试。使用LIBLINEAR分类器,对文本分类。
命名实体识别:也是测试下游任务。使用BosonNLP NER 6C数据集,包含时间、地点、人、组织、公式、产品以及其他七类。70%训练,30%测试。
定性评价:作者给定目标词的前10个相近词进行定性分析。
3.3baseline算法
word2Vec(包含skip-gram和cbow):字级别的
Glove:字级别
CWE:中文字符级别
GWE:中文像素级别通过汉字的图像进行卷积提取特征
JWE:组成级别
为了统一比较,所以的词嵌入维度一致,训练集去除出现频率小于10的字,上下文窗大小以及负采样为5。
4.实验结果
4.1词相似和词推理,文本分类和命名实体识别
词嵌入为300维,结果为秩相关系数x100,结果表明基于中文的CWE,GWE以及JWE表现总体比word2vec以及Glove好,cw2vec表现超过了所有的模型!!!!!在推理任务提高了4个百分点。
4.3表现VS维度
结果如图所示,cw2vec同样打败了所有模型,在300维时表现最好。
4.4表现VS训练数据集大小
作者还研究了小数据集的影响,选取训练集的20%进行训练,测试结果如下
skipgram, cbow和GloVe算法由于没有利用中文的特性信息进行加强,所以在小语料上表现较差,而其余四个算法取得了不错的效果。cw2vec表现最好,CWE表现次好,两者的鲁棒性好,可以有效刻画子词的信息。
4.5定性分析
作者选取水污染和孙悟空做案例分析。第一个是环境相关的“水污染”,然后根据词向量利用向量夹角余弦找到与其语义最接近的词语。GWE找到了一些和“污”字相关的词语,比如“污泥”,“污渍”和“污垢”,而JWE则更加强调后两个字“污染”GloVe找到了一些奇怪的相近词语,比如“循环系统”,“神经系统”。CWE找到的相近词语均包含“水”和“污”这两个字,猜测是由于其利用汉字信息直接进行词向量加强的原因。此外,只有cw2vec找到了“水质”这个相关词语,分析认为是由于n元笔画和上下文信息对词向量共同作用的结果。第二个例子,特别选择了“孙悟空”这个词语,该角色出现在中国的名著《西游记》和知名日本动漫《七龙珠》中,cw2vec找到的均为相关的角色或著作名称。
5.相关工作与总结
作者在文中介绍了提取sub-word信息以及中文词嵌入的一些工作,还指出了模型的缺点,无法将一些字区分开如:土和士。
cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information阅读笔记相关推荐
- cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information
Abstract 我们提出了一种新的汉字嵌入学习方法cw2vec.根据我们的观察,笔划层次的信息对于提高汉字单词嵌入的学习是至关重要的.具体来说,我们设计了一种极简主义的方法来利用这些特征,通过使用笔 ...
- Rasa课程、Rasa培训、Rasa面试、Rasa实战系列之Understanding Word Embeddings CBOW and Skip Gram
Rasa课程.Rasa培训.Rasa面试.Rasa实战系列之Understanding Word Embeddings CBOW and Skip Gram 字嵌入 从第i个字符,第i+1个字符预测第 ...
- 《A Survey on Deep Learning Technique for Video Segmentation》视频分割综述阅读笔记(翻译)
<A Survey on Deep Learning Technique for Video Segmentation>视频分割综述阅读笔记(背景部分翻译) 作者:Wenguan Wang ...
- MGN:Learning Discriminative Features with Multiple Granularities for Person Re-Identification阅读笔记
Learning Discriminative Features with Multiple Granularities for Person Re-Identification Guanshuo W ...
- 【图像增强】Learning Enriched Features for Real Image Restoration and Enhancement 阅读笔记
- Deep Learning for Polar Codes over Flat Fading Channels《阅读笔记》精读
平面衰落通道上的极地代码深度学习 文章目录 Abstract introduction 二.系统模型 1.系统模型框图 Polar Codes 神经网络模型 性能评估 结论 Abstract 提出了啥 ...
- 【吴恩达深度学习】05_week2_quiz Natural Language Processing Word Embeddings
(1)Suppose you learn a word embedding for a vocabulary of 10000 words. Then the embedding vectors sh ...
- Word embeddings in 2017: Trends and future directions (2017年里的词嵌入:趋势和未来方向)
Word embeddings in 2017: Trends and future directions 原文作者:anonymous 原文地址:http://ruder.io/word-embed ...
- Task 4: Contextual Word Embeddings (附代码)(Stanford CS224N NLP with Deep Learning Winter 2019)
Task 4: Contextual Word Embeddings 目录 Task 4: Contextual Word Embeddings 词向量的表示 一.Peters et al. (201 ...
最新文章
- ADO.net 中数据库连接方式
- python编程入门免费_python编程入门 零基础学习Python基础(附带最新免费教程)...
- 01 能够使用Format实现格式化输出显示
- 如何引用传递参数从一个函数中得到多个返回值
- 测试老司机一起聊聊性能测试是怎么一回事?
- paip.关于动画特效原理 html js 框架总结
- github第一次使用--创建hello-world
- JAVA的抽象类和接口
- 平面判断两点连线是否交叉
- PMP认证的教材更新到第几版了?
- matlab实验十ask,matlab实验十ASK调制与解调实验
- html5设置图片为页面背景透明度,纯CSS设置图片半透明,DIV半透明,背景半透明的方法...
- 苹果关掉200m限制_苹果下载超过200兆怎么设置
- 产业安全专家谈丨数字经济高速发展,数据要素安全该如何保障?
- springboot+二手车交易系统 毕业设计-附源码131456
- android仿微信聊天功能,Android高仿微信聊天界面代码分享
- PS cc 2018分享
- Latex如何排版矩阵
- 解决macbook pro中使用word打字出现拼音问题
- Vue与Angular以及React的区别