论文《Mimicking Word Embeddings using Subword RNNS》开源的代码是基于DyNet深度学习框架。不同于静态声明深度学习框架,例如:TensorFlowTheanoCNTK等,户需要首先定义计算图(computation graph),然后样本会被传递给执行该计算的引擎并计算其导数。而对于DyNet,计算图的构建(construction)基本是透明的,对于任意一个输入,用户都可以自由得使用不同的网络结构。个人感觉DyNet确实还挺好用的。

Mimick模型介绍

目的:论文《Mimicking Word Embeddings usingSubword RNNS》发表在EMNLP2017论文主要目的在于解决NLP中基于词基础的序列标注和求句法属性的相关应用,不在词库中out-of-vocabulary的词向量问题,从作者的paper描述中,实验了23种语言,在序列标注等NLP应用中都提升了效果。

通过对已经训练好的词向量,学习字向量,然后BiLSTM模型进行词向量的重构。由于中文词太多,但是字的话就会相对少很多,如果能够通过字向量去重构词向量,减少存储问题。另外,词组合太多,训练语料库中的词不足以涵盖所有词,且上下文的差异,分词工具在分词的时候也是有差异,包括一些新词等。BiLSTM模型输入序列是一个词中的所有字,通过最小化模型预测的词向量与输入词的原始词向量的距离优化各参数值。

实验数据:

基于wiki上的中文词库以及其它的一些语料库的合并,利用word2vector训练好的大概有75万多个词以及对应的词向量,作为Mimick模型的训练数据

实验效果

第一:针对句子相似性任务来评估模型重构的词向量(用来训练的词)效果

小儿腹泻偏方

大家都爱看喜剧

原始Word2vector词向量(加学习权重)方法

宝宝拉肚子偏方0.744

很多人喜欢看幽默的电0.842

小儿感冒偏方0.969

他是一个幽默的人0.322

Mimick模型重构词向量(加学习权重)方法

宝宝拉肚子偏方0.836

很多人喜欢看幽默的电0.800

小儿感冒偏方0.932

他是一个幽默的人0.115

信号忽强忽弱

红米更新出错

原始Word2vector词向量(加学习权重)方法

信号忽高忽低0.864

红米升级系统出错0.921

信号忽然中断0.321

如何买到小米手机0.723

Mimick模型重构词向量(加学习权重)方法

信号忽高忽低0.900

红米升级系统出错0.962

信号忽然中断0.704

如何买到小米手机0.791

第二:评估mimick模型预测不在训练中的词(新词)词向量与word2vector原词向量相似性。

word2vector中留下2万多个词不作为mimick模型的训练,随机抽取几个词的评估效果如下:

        

       词

           

    原词向量与mimick模型通过字向量重构的词向量相似性

          

      李大夫

 

 

                           0.748

         

      照相师

       

                           0.768

 

      穷人区

                           

                         0.784

 

      养马户

                          

                           0.397

       

      初犯者

 

       

                           0.771

 

      紫荆楼

                           0.850

           

 习声乐

                           

               0.763

 

      19.7亿

 

      

                           0.852

 

      达旦河

 

                           0.849

 

      52.86%

 

 

                           0.757

 

     食之无味

 

 

                           0.337

 (3) 实验分析

从上面的实验来看,模型还是起到了一定的作用。但也存在一些bad case,可能原因在于:利用BiLSTM模型对所有的词向量重构,包含了75万多的词,每个词向量维度200维,而且很多词之间都有相同的字,但意思却可能完全不一样,要想靠模型去完全拟合多样化的词向量分布,感觉有一定得难度。

(4) 总结

(a) 训练mimick模型的时候,模型参数细节还是很影响实验效果

(b) 当模型的记忆和拟合能力足够强的时候,完全可以不用分词,直接基于字的模型。但在本文处理中,字与字之间相关性是很大的,特征之间是不独立,为了削弱相关性,降低对词序的依赖,将句子分为若干个相关性比较弱的部分,有利于更进一步处理,也许这是分词的目的之一。用CNN模型做文本分类也是通过把若干个字组合作为特征来看。

 

测评Mimick模型对词向量重构效果相关推荐

  1. 文本深度表示模型——word2vecdoc2vec词向量模型(转)

    from: https://www.cnblogs.com/maybe2030/p/5427148.html 阅读目录 1. 词向量 2.Distributed representation词向量表示 ...

  2. 文本深度表示模型—word2vecdoc2vec词向量模型

    来源:http://www.dataguru.cn/article-9478-1.html 深度学习掀开了机器学习的新篇章,目前深度学习应用于图像和语音已经产生了突破性的研究进展.深度学习一直被人们推 ...

  3. DNN模型训练词向量原理

    转自:https://blog.csdn.net/fendouaini/article/details/79821852 1 词向量 在NLP里,最细的粒度是词语,由词语再组成句子,段落,文章.所以处 ...

  4. torchtext处理文本数据——使用自己的word2vec模型作为词向量建立词表(学习二)

    首先复制上一篇博客的完整代码,代码如下: 注:如果有不明白的地方请参考上一篇博客--torchtext处理文本数据--构造dataset读取文本(学习一) 数据源和解释都在上一篇博客中 from to ...

  5. 主题模型结合词向量模型(Improving Topic Models with Latent Feature Word Representations)

    本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com 内容可能有不到之处,欢迎交流. 未经本人允许禁止转载. 论文来源 Nguyen D Q, Billingsley ...

  6. 文本表示:静态词向量模型

    1. 词向量模型的核心思想 文本的词向量表示又叫文本的分布式表示,它源自于语言学家的语境理论.语言学家Firth认为:"语言是人类的生活方式,词语的含义根植于人类赖以生存的社会活动中&quo ...

  7. 更别致的词向量模型(一):simpler glove

    如果问我哪个是最方便.最好用的词向量模型,我觉得应该是word2vec,但如果问我哪个是最漂亮的词向量模型,我不知道,我觉得各个模型总有一些不足的地方.且不说试验效果好不好(这不过是评测指标的问题), ...

  8. 基线系统需要受到更多关注:基于词向量的简单模型 | ACL 2018论文解读

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  9. PaperWeekly 第52期 | 更别致的词向量模型:Simpler GloVe - Part 1

    作者丨苏剑林 学校丨中山大学硕士生 研究方向丨NLP,神经网络 个人主页丨kexue.fm 前言 如果问我哪个是最方便.最好用的词向量模型,我觉得应该是 word2vec,但如果问我哪个是最漂亮的词向 ...

最新文章

  1. hibernate 插入 效率_Hibernate:检索策略的学习1
  2. http协商缓存VS强缓存
  3. 第六章 贪心 【完结】
  4. wpf 带复选框的treeview_WPF:带复选框CheckBox的树TreeView
  5. python整形浮点型运算规则
  6. K Co-prime Permutation 构造,gcd,互质(2020.12.南京)
  7. spring mvc4 笔记
  8. php mysql 性能测试工具下载_MySQL压力测试工具_MySQL
  9. iOS,多媒体,地图相关
  10. shell基础之EOF的用法
  11. 蒲公英快速查询苹果手机UDID方法
  12. ISO3834认证所需的部分标准
  13. 分形--Cantor三分集
  14. “云原生”、“大数据”、“云计算”的结合——阿里云的云原生大数据计算服务MaxCompute
  15. 中移互联网Java后台开发一二面
  16. 强劲的Linux Trace工具:bpftrace (DTrace 2.0) for Linux 2018
  17. 海康DVR DS-6708HW RTSP url格式笔记
  18. 给定一个排好序的数组,随机输入一个数,按原顺序插入
  19. 2019年Android版本分布(市场占有率、市场份额)统计
  20. 机器学习之决策树算法详解

热门文章

  1. 一个屌丝程序员的青春(一三八)
  2. EasyFlash 里的 EF_WRITE_GRAN
  3. 1.1.26 word内容导入PPT
  4. 不给别人添麻烦是一种教养还是性格缺陷?
  5. Unity相机漫游脚本
  6. python 转换图片大小,并保存
  7. 【Skill】解决 QQ 邮箱无法更改发信人名称问题
  8. windows搜索文件内容的软件推荐
  9. Ubuntu下wps英文界面切换成中文界面的方法
  10. 给华为服务器RH2288V3(hm23-03)安装驱动