Glyce 一种针对中文汉字结构信息抽取的Embedding策略

这篇博客主要参考了香侬科技公司李纪为大神团队的paper《Glyce: Glyph-vectors for Chinese Character Representations》，其主要面对的是中文（类象形文字）从构字法的角度来对中文的汉字进行分析。之前看过的包括自己研究的从构字法角度研究中文的主要参考的是五笔拼音输入法，一个汉字会被拆分成一个部首序列，这种方法由于汉字复杂性和现代汉字的简洁性，使提取到的汉字构字信息大大折扣。而本篇paper提出的方法很好的解决了这个问题。

从整体来看，这篇paper一共有三个很大的创新点，整个论文的结构也是围绕介绍着三个创新点来展开的：

1 同一汉字不同形式字体的使用。
对于一个汉字来说，使用的不仅仅是现代汉字的形式（中华文明上下5000年，随着时间的发展，汉字变的越来越容易写，但是同时丧失了作为象形文字所具备的形态上的很多特征信息）。同时参考了汉字在历史上的各个时期的形式，具体如下图所示：

从图中可以看出，针对同一个汉字分别提取了金文，隶书，纂书，魏碑，繁体中文，简体中文，草书等形式。同时和之前方法不同的是，不再依赖于类似五笔输入法这种对于原始字体的拆分策略，而是直接使用汉字的图片形式，直接从图片的像素中抽取信息。具体从图片中抽取汉字信息的结构是本文第二个创新点。

2 一种面向低像素图片的信息抽取结构。
由于不同的汉字都是以图片的形式提供的，因此必须设计网络结构从图片中抽取信息。之前的面向图片的抽取结构都是deep CNNs，即很多卷积层+max pooling层。如果直接拿过来提取汉字的图片特征，作者发现会有很大的问题，因为：1 汉字图片的像素比较低12 * 12，远远低于Imagenet数据集中的800*600；2 中文的话总共大概只有1万多个不同的汉字，而Imagenet中的分类样本数量则达到了百万量级。基于上面两个原因，作者针对这种情况专门设计了提取汉字图片特征的网络结构：

输入层是一个汉字对应的图片，是三维的结构，channel维指代的是同一个汉字不同时期形式下的字体。具体的网络参数说明如下：

其实整个网络结构相对于传统的deep CNNs 系列网络模型结构来说是比较简单，而且层数比较少的。（毕竟样本数量少，过于复杂的网络结构很容易过拟合）。需要注意的是倒数后两层中同一个汉字的像素变成了2 * 2，作者将其和我们小学时用到的田字格联系到了一起，就给这个网络结构起名叫做tianzige-cnn（我个人感觉这个只是包装paper用到的概念，其具体概念感觉和真正的田字格的用法还是有一定出入的）。

3 使用汉字图片分类损失作为辅助的训练策略。
为了进一步降低整个网络过拟合的风险，作者将汉字图片分类损失函数作为辅助损失函数来辅助整个网络的训练过程，假设 $h_{image}$ 即上图中对应的最后一层输出向量（1024 *1 *1）代表了某个汉字的Embedding，z是该汉字对应的ID，那么辅助损失函数就是一个多分类问题，即为 $L (c l s) = - l o g p (z ∣ x) = - l o g$ $softmax(W * h_{image})$ 。
那么整个网络的损失则为： $(1-\lambda(t))L(task)+\lambda(t)L(cls)$ 。其中 $L (t a s k)$ 是下游任务，可能是文本分类，命名实体识别，中英文翻译等。其中 $λ(t)=λ0λ1t\lambda(t)=\lambda_0 \lambda_1^t$ ， $λ0\lambda_0$ 代表了start value，而 $λ1\lambda_1$ 则代表了衰减速率，它们两个都是[0,1]之间的浮点数。 $t$ 是epoch数目。

最终根据下游任务的不同，整个网络结构可以大致有2个类别：

上图中的模型是针对character level 的下游任务，从图中可以看出Glyph Emb 就是本文提出的模型，而char-Id Emb就是每一个汉字对应的普通Embedding，它们两个结合起来就可以作为整个汉字完整的Embedding，结合的方式可以是拼接，fully connected network, highway network等。

上图中的模型是针对word level 的下游任务，其他部分和character level部分是一致的，唯一不同的是在生成完整的character Embedding之后，会将一个词语中不同的character Embedding通过max-pooling方式结合起来生成该词语对应的word Embedding。

作者将上述结构运用到了语言模型、机器翻译、命名实体识别、情感分类、中文分词等多达13个不同的中文领域中的下游任务里，并通过大量的对比实验证明了Glyce中文汉字构结构的有效性。

Glyce 一种针对中文汉字结构信息抽取的Embedding策略相关推荐

《中文文本信息抽取模型与方法研究》5：基于论元结构的事件要素及其角色识别
论元结构是沟通认知与句法结构的桥梁,是语义和句法的接口,在现代句法学和语义学研究中有着相当重要的地位,对于确定句子含义和进行文本理解意义重大.利用CRF来识别事件要素及其角色的方法. 语义分析旨在让计 ...
论文浅尝 | Doc2EDAG：一种针对中文金融事件抽取的端到端文档级框架
论文笔记整理:叶宏彬,浙江大学博士生,研究方向为知识图谱.自然语言处理. 链接:https://arxiv.org/pdf/1904.07535.pdf 背景大多数现有的事件提取(EE)方法仅提取句 ...
一人之力，刷爆三路榜单！信息抽取竞赛夺冠经验分享
点击上方"AI遇见机器学习",选择"星标"公众号重磅干货,第一时间送达文 | JayLou娄杰在现如今的NLP竞赛中,信息抽取(IE)任务已占据半壁江山.来 ...
创新杯论文——面向中文专利信息的关系数据库检索优化策略研究及应用
面向中文专利信息的关系数据库检索优化策略研究及应用目录 1 引言... 3 2 中文专利信息检索优化概述... 4 2.1 中文信息检索的概念... 4 2.2 ...
python爬取电子病历_一种基于中文电子病历的实体识别方法技术
本发明专利技术提供了一种基于中文电子病历的实体识别方法,涉及医疗实体识别技术领域.针对目前国内缺少公开中文电子病历标注语料库的缺陷,本发明专利技术通过构建整理医学词典,提出了一种半自动语料库标注方法, ...
面向知识图谱的信息抽取
面向知识图谱的信息抽取人工智能技术与咨询点击蓝字 · 关注我们来源:< 数据挖掘,> ,作者赵海霞等关键词: 知识图谱:信息抽取:实体抽取:关系抽取:开放域摘要: 摘要: 随着大 ...
【信息抽取】介绍一种端到端的关系抽取方法
事物.概念之间的关系是人类知识中非常重要的一个部分,但是他们通常隐藏在海量的非结构文本中.为了从文本中抽取这些关系事实,从早期的模式匹配到近年的神经网络,大量的研究在多年前就已经展开. 然而,随着互联 ...
基于Bert-NER构建特定领域中文信息抽取框架
向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程公众号:datayx 知识图谱(Knowledge Graph)主要由实体.关系和属性构成,而信息抽取(Inform ...
PaddleNLP通用信息抽取技术UIE【一】产业应用实例：信息抽取{实体关系抽取、中文分词、精准实体标。情感分析等}、文本纠错、问答系统、闲聊机器人、定制训练
相关文章: 1.快递单中抽取关键信息[一]----基于BiGRU+CR+预训练的词向量优化 2.快递单信息抽取[二]基于ERNIE1.0至ErnieGram + CRF预训练模型 3.快递单信息抽取[ ...

Glyce 一种针对中文汉字结构信息抽取的Embedding策略

Glyce 一种针对中文汉字结构信息抽取的Embedding策略相关推荐

最新文章

热门文章