导读

最近在做中文词向量相关工作,其中看了一些中文词向量的相关论文,在这篇文章,将把近几年的中文词向量进展及其模型结构加以简述,大概要写3-4篇综述,每篇包含2-3篇论文。续 --- 中文词向量论文综述(二)。

一、Learning Chinese Word Representations From Glyphs Of Characters

论文来源

这是一篇2017年发表在EMNLP(Empirical Methods in Natural Language Processing)会议上的论文,作者来自于台湾大学 --- Tzu-Ray Su 和 Hung-Yi Lee。

Abstract

这篇论文的出发点也很新颖,中文汉字可以认为是由图形组件组成的,具有丰富的语义信息,基于此,提出了一个新的学习中文词向量的方法,通过图形字符(character glyphs)来增强词的表示,character glyphs通过图像卷积从位图(bitmaps)中编码得来,character glyphs特征加强了word的表示,也提高了character embedding。這篇论文虽然是在繁体中文进行的改进,不过idea同样也可以应用在简体中文中。在 Word SimilarityWord Analogy 上验证了其实验效果。

Model

這篇论文的模型参考了CWE模型MGE模型,模型部分也是分为了几个阶段,第一个阶段是通过convAE从位图中抽取glyph特征,第二阶段是在已有的中文词向量模型中进行改进提高,像CWE,MGW模型,第三阶段是直接使用glyph特征学习中文词向量表示。

Character Bitmap Feature Extraction

前期把字符全部转换成图像,通过convAE对图像抽取特征,convAE的模型结构图如下图所示,通过convAE最后的输出得到的512维的特征,character的glyph特征表示为g_k。
QjDyXxJ.jpg

Glyph-Enhanced Word Embedding (GWE)

在這部分对CWE模型做了两个调整分别构建了CWE+ctxG模型CWE+tarG模型

  1. Enhanced by Context Word Glyphs --- CWE+ctxG模型
    在CWE的基础之上增加了上下文词的glyph特征, 模型图如下所示,
    SeAGnKc.jpg
    其中,W(ctxG)_i的表示如下,其实计算就是word embedding + avgall(character embedding + glyph embedding)
    Wl0pX28.jpg

  2. Enhanced by Target Word Glyphs --- CWE+tarG模型
    CWE+tarG模型和上文差不多,不过这个加入的是目标词的glyph特征,具体的模型图如下。
    AtWHXBW.jpg

Directly Learn From Character Glyph Features

在这部分仅仅通过glyph特征与RNN循环神经网络构建了两个模型,分别是 RNN-SkipgramRNN-Glove

  1. RNN-Skipgram
    RNN-Skipgram是把RNN和skipgram结合,通过RNN对glyph特征进行编码,产生隐层表示,然后把隐层表示作为skipgram的输入,进行预测,具体的模型结构图如下图所示。
    785Vs3o.jpg

  2. RNN-Glove
    通过两个RNN循环神经网络,输入分别是中心词和上下文词的glyph特征,与RNN-Skipgram有微小的差别,输入中心词的网络后连接的是一个共享网络,输入上下文词的网络后面是全连接层,然后两个的输出的内积就是log(X_ij)的预测。

k5qn20q.jpg

Experiment Result

Word SimilarityWord Analogy 上验证了其实验效果,由于以前的评测文件都是基于简体中文的,他们对其手工翻译成繁体中文的数据集进行评测。
Word Similarity采用的评测文件是wordsim-240wordsim-296,由于中文简体和繁体在翻译过程中产生的歧义性,他们手工构建了SimLex-999评测文件,并把SimLex-999作为第三个评测文件,具体的实验结果如下图。
2ityDAu.jpg

Word Analogy采用的是Chen 2015年构造的评测文件,但是增加了一个Job&Place,具体的实验结果如下图。
OQvoyUg.jpg

二、Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components

论文来源

这是一篇2017年发表在EMNLP(Empirical Methods in Natural Language Processing)会议上的论文,作者来自于香港科技大学 --- Jinxing Yu。

Abstract

与西方语言不同,中文汉字包含了丰富的语义信息,这篇论文提出了一个联合学习word,character和更加细粒度的subcharacter的方法来学习word embedding。在Word SimilarityWord Analogy任务上验证其优越性。

Model

提出了一个联合( Chinese words, characters, and subcharacter components)学习word embedding的模型,称之为JWE模型,JWE模型也是基于CBOW来进行的完善,模型结构如下图。根据下图,只是在输入端多了一些改变,w_i代表目标词;w_i+1,w_i-1代表上下文词;c_i-1,c_i+1代表上下文词的character;s_i+1,s_i-1代表上下文词的subcharacter(radical),s_i代表目标词的subcharacter(radical)。
Mk1uDjy.jpg

损失函数有所不同,为三者的相加,具体公式如下,其中h_i1,h_i2,h_i3分别代表context word,context character,context subcharacter,h_i1,h_i2,h_i3分别取三者的平均值作为表示,例如h_i1如下图2所示,v_wi代表的是context word。
tRNkNOu.jpg
mqRMkx9.jpg

Experiment Result

Word SimilarityWord Analogy 上验证了其优越性。
论文在模型上尝试了不同的组合来进行实验,具体如下:

  1. +c :代表的是component特征
  2. +r :代表的是radical特征
  3. +p :代表的是subcharacter components 特征
  4. +p1 :代表的是使用上下文词的subcharacter components 特征
  5. +p2 :代表的是使用目标词的subcharacter components 特征
  6. +p3 :代表的是使用上下文词和目标词的subcharacter components 的特征
  7. -n :代表的是仅仅使用character
  8. 具体来说上面提到的component,radical(偏旁),subcharacter,比如这个汉字,它的radical是 灬component是日、刀、口subcharacter是subcharacter components,应该是所有的components(包含radical)。

Word Similarity采用的评测文件是wordsim-240wordsim-295wordsim-296移除了评测文件中没有出现在训练语料中的一个词,变为评测文件wordsim-295,具体的实验结果如下图。
NEKw8aI.jpg

Word Analogy采用的是Chen 2015年构造的评测文件,具体的实验结果如下图。
vovCCT5.jpg

References

[1] Learning Chinese Word Representations From Glyphs Of Characters
[2] Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components

个人信息

[1] Blog : https://bamtercelboo.github.io/
[2] Github : https://github.com/bamtercelboo
[3] 知乎 :https://www.zhihu.com/people/bamtercelboo/activities
[4] 博客园: http://www.cnblogs.com/bamtercelboo/

转载请注明出处

https://www.cnblogs.com/bamtercelboo/p/9485116.html

转载于:https://www.cnblogs.com/bamtercelboo/p/9485116.html

中文词向量论文综述(三)相关推荐

  1. 中文词向量论文综述(二)

    导读 最近在做中文词向量相关工作,其中看了一些中文词向量的相关论文,在这篇文章,将把近几年的中文词向量进展及其模型结构加以简述,大概要写3-4篇综述,每篇包含2-3篇论文.续 --- 中文词向量论文综 ...

  2. AAAI 2018 论文 | 蚂蚁金服公开最新基于笔画的中文词向量算法

    导读:词向量算法是自然语言处理领域的基础算法,在序列标注.问答系统和机器翻译等诸多任务中都发挥了重要作用.词向量算法最早由谷歌在2013年提出的word2vec,在接下来的几年里,该算法也经历不断的改 ...

  3. 中文词向量学习记录-综述

    最近打算准备毕设,所以需要仔细了解一下中文词向量的最近发展,发现一个比较完整的系列文章: 参考原文链接:https://bamtercelboo.github.io/2018/08/16/chines ...

  4. 使用transformers框架导入bert模型提取中文词向量

    导言 在笔者的上一篇文章大白话讲懂word2vec原理和如何使用中提到了如何将词语转变成计算机能够识别的语言,即将文本数据转换成计算机能够运算的数字或者向量这个概念,并详细阐述了word2vec这个模 ...

  5. 清华 词向量库_word2vec 构建中文词向量

    词向量作为文本的基本结构--词的模型,以其优越的性能,受到自然语言处理领域研究人员的青睐.良好的词向量可以达到语义相近的词在词向量空间里聚集在一起,这对后续的文本分类,文本聚类等等操作提供了便利,本文 ...

  6. word2vec 构建中文词向量

    2019独角兽企业重金招聘Python工程师标准>>> word2vec 构建中文词向量 词向量作为文本的基本结构--词的模型,以其优越的性能,受到自然语言处理领域研究人员的青睐.良 ...

  7. NLP︱高级词向量表达(三)——WordRank(简述)

    如果说FastText的词向量在表达句子时候很在行的话,GloVe在多义词方面表现出色,那么wordRank在相似词寻找方面表现地不错. 其是通过Robust Ranking来进行词向量定义. 相关p ...

  8. Bert 得到中文词向量

    通过bert中文预训练模型得到中文词向量和句向量,步骤如下: 下载 bert-base-chiese模型 只需下载以下三个文件,然后放到bert-base-chinese命名的文件夹中 得到中文词向量 ...

  9. java加载中文词向量_Chinese Word Vectors:目前最全的中文预训练词向量集合

    对于国内自然语言处理的研究者而言,中文词向量语料库是需求很大的资源.近日,来自北京师范大学和人民大学的研究者开源了「中文词向量语料库」,试图为大家解决这一问题,该库包含经过数十种用各领域语料(百度百科 ...

  10. ELMO中文词向量训练及使用的完整流程

    笔者最近在学习elmo中文的词向量训练及使用,由于网上相关资料比较缺乏,也比较零碎,没有完整的从中文词向量的训练到使用的介绍,学起来困难较多.经过漫长的尝试,笔者终于将整套流程走通,相信应该是目前最完 ...

最新文章

  1. ThreadLocalRandom 安全吗
  2. 曲线拟合最小二乘法优缺点_最小二乘法的优缺点
  3. Java 面试知识点解析(一)——基础知识篇
  4. imx6 板卡移植官方yocto版本(2_定制系统)
  5. python global 变量_python 全局变量和局部变量 (例子)
  6. Windows Server 2008设置远程桌面连接的最大数量
  7. 办公室中有一台计算机连接打印机,办公室就一个打印机,怎么让多个电脑一起用...
  8. JustOj 2038: 叶神的字符串
  9. 【组件化开发】前端进阶篇之如何编写可维护可升级的代码
  10. 【[转】MySql模糊查询
  11. JavaTPoint 数据科学和人工智能中文教程【翻译完成】
  12. 性能监控工具——Cacti安装文档
  13. php 的点代表什么意思,linux .(点)是什么意思
  14. 16 寸MacBook Pro比14 寸风扇更强大,更耐用
  15. php连接mib库,常用的一些MIB以及对应的OID
  16. Vue3.0 + pdf.js 实现pdf预览
  17. 用U盘安装ubuntu系统的具体步骤
  18. c++ | 尝试攥写头文件遇到的坑
  19. 题目 A : 勇士传说
  20. Niushop 商品海报

热门文章

  1. Docker中配置国内镜像
  2. 下一步怎么办?核心网带宽必须迅猛增长!
  3. react-native 自定义view向js暴露接口方法
  4. 系统架构设计:平滑发布和 ABTesting,你都会吗?
  5. 周末内部常用的15款开发者工具
  6. 一个小小的签到功能,到底用MySQL还是Redis?
  7. Redis 面试一定要知道的 3 个 问题!
  8. IntelliJ IDEA 新版本又来了,修复严重 bug!
  9. 阿里巴巴技术总监全解中台架构
  10. 高并发、高性能 Web 架构