Abstract
    最近连续空间语言模型在很多任务上表现很好。这篇文章研究了由输入层权值隐式学习的向量空间词表示。我们发现这些表示很擅长捕捉语言中的语义和词义表示,每个关系都有一个特定于关系的向量偏移量。例如,男人/女人这种关系被自动学习,产生的向量表示,“King - Man + Woman" 会得到一个和 ”Queen" 非常相近的向量。我们证明词向量通过语法类似问题捕捉语法规律,能够正确回答40%的问题。证明词向量能够通过使用向量偏移方法捕捉语义规律,可以回答 SemEval-2012 Task 2问题。出乎意料的是,这个方法比以前最好的系统还要好。
                                       Introduction
    神经网络语言模型一个明显特征是把词向量表示为高维实值向量。在这些模型中,单词通过一个学习好的查询表转换为实值向量,这些实值向量可以输入神经网络。正如原来的提议人所说,这些模型的一个主要有点是分布式表示实现了某种程度上的泛化,这是传统的n-gram模型不可能实现的。但是n-gram模型是利用相互之间没有内在关系的离散单元工作的。连续空间模型就相似的而言,有相似的词向量,这是连续空间模型的工作机制。因此,当模型根据特定词调整参数时,这种改进将延续到类似词和序列的出现。
    通过训练神经网络语言模型,得到的不仅仅是模型本身,而且还有学习好的单词表示,这些单词表示可能被用于其他可能没有关系的任务。这种单词表示用于NLP任务种改进了很多NLP任务的性能。
    在我们的工作中,我们发现实际上学习到的单词向量表示利用一种很简单的方式得到了有意义的语义和语法规律。具体来说,在存在某种关系的单词对之间有常数向量偏移就是我们观察到的规律。例如,如果我们用 x(i) 表示单词 i 的词向量, 对于单数/复数关系, 我们发现
也许更令人惊讶的是,我们发现这也是多种语义关系的情况,正如Semeval2012测量关系相似性的任务所测量的那样。
                                       Related Work
    分布式词向量有很长的历史。最近,神经网络语言模型被提出用于经典的语言模型任务,即根据前面的词语预测下一个词。这些模型首先是在前馈网络的背景下研究的,后来是在循环神经网络模型的背景下研究的。这项早期的工作显示了在单词预测方面的出色性能,但也需要更高效的计算模型。
                                       RNNM
    我们研究的单词表示是利用RNNLM学习到的,RNNLM如图一所示。

这种结构包括一个输入层,一个RNN连接的隐藏层,以及一个对应的权重矩阵。输出层的计算方式如下所示:


其中

  • w(t): t 时刻的one hot表示的输入向量
  • y(t): 输出的概率分布
  • s(t): 句子历史的表示

w(t)、y(t)的维度和词汇的个数相同
     在这个框架中,单词表示可以在权重矩阵U的列中找到,每一列表示一个词(看上面的公式就知道是行还是列)。RNN的代价函数是最大似然函数。模型本身没有语法、类比、语义知识。令人惊讶的是,训练这样一个简单的词汇模型会产生一个具有语法和语义属性的单词表示.
                                       向量偏移方法
    正如我们看到的,语法和语义任务都被表述为类比问题。我们发现一个基于cos距离的简单的单词偏移方法在解决这些问题的时候是非常有效的。在这种方法中,我们假设关系表现为向量偏移,所以在嵌入空间,所有具有某种特定关系的词对都有同样的常数偏移。正如图二所示。

在我们的方法中,为了回答类比问题 a:b,c:d,这里d是未知的,我们找到a,b,c的嵌入向量x(a),x(b),x©,然后计算y=x(b)-x(a)+x©,y是我们想得到的词的最好的连续空间表示,当然,可能这个词向量没有对应的单词,所以我们利用cos距离求得这个单词。

当给定d时,就像在我们的语义测试集中一样,我们只使用cos(xb-xa+xc,xd)来表示所提供的单词(这个地方我理解的意思是,利用a,b,c求出一个d的向量,然后根据求得的向量和已经有的向量计算相关性)。我们研究了几个相关的方法,发现我们提出的方法在语义和语法分析都表现很好。我们注意到,这个度量在性质上类似于(Turney,2012)的关系相似性模型,该模型预测词对(xb,xd),(xc,xd)成员之间的相似性和(xa,xd)成员之间的不相似性。

数据集:语法数据集和语义数据集
语法数据集:

  • adj: 原型/比较级/最高级
  • n: 单数/复数
  • 普通名词:所有格/非所有格
  • v: 原型/三单/过去式
    在新闻文章上面打标签,选择了100个最常用的adj的比较级,100个复数名词,100个最常见的所有格名词,100个最常见的基态动词。然后,我们通过将100个单词中的每一个与来自同一类别的5个其他单词随机匹配,并创建如表1所示的变体,系统地生成类比问题。测试集的总大小是8000。测试集在线可用

语义测试集:

  • SemEval-2012 Task 2(测量关系相似度,测量RNNLM词向量包含语义信息的程度)
  • 包含79种关系(10种用于训练,69种用于测试)

实验:

使用RNN工具包产生的向量测试词向量偏移方法

《Linguistic Regularities in Continuous Space Word Representations》翻译与理解相关推荐

  1. [Embeding-1]Efficient Estimation of Word Representations in Vector Space 译文

    1. abstract 我们提出了两种新的模型结构,用于计算非常大数据集中单词的连续矢量表示.这些表示的质量是在一个词相似性任务中测量的,并将结果与以前基于不同类型神经网络的最佳表现技术进行比较.我们 ...

  2. NLP系列:Word2Vec原始论文:Efficient Estimation of Word Representations in Vector Space

    译者按: 2013年,Google开源了一款用于词向量计算的工具--word2vec,引起了工业界和学术界的关注.首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练:其次,该工 ...

  3. 论文翻译解读:Efficient estimation of word representations in vector space【Word2Vec】

    文章目录 简要信息 重点内容概括 Efficient estimation of word representations in vector space 摘要 1 介绍 1.1 论文目标 1.2 以 ...

  4. nlp论文——《Efficient Estimation of Word Representations in Vector Space》(向量空间中词表示的有效估计)

    目录 <Efficient Estimation of Word Representations in Vector Space> 第一课时:论文导读 (1)语言模型 (2)词向量简介-- ...

  5. Paper:《ELMO:Deep contextualized word representations》翻译与解读

    Paper:<ELMO:Deep contextualized word representations>翻译与解读 目录 <ELMO:Deep contextualized wor ...

  6. 读论文《Efficient Estimation of Word Representations in Vector Space》

    读论文<Efficient Estimation of Word Representations in Vector Space> 原文地址:http://blog.csdn.net/qq ...

  7. 论文阅读:Efficient Estimation of Word Representations in Vector Space

    目录 前言 Abstract 1.Introduction 1.1 Goals of the Paper 1.2 Previous Work 2. Model Architectures 2.1 Fe ...

  8. 论文笔记--Efficient Estimation of Word Representations in Vector Space

    论文笔记--Efficient Estimation of Word Representations in Vector Space 1. 文章简介 2. 文章概括 3 文章重点技术 3.1 NNLM ...

  9. (30)[ICLR13] Efficient Estimation of Word Representations in Vector Space

    计划完成深度学习入门的126篇论文第三十篇,Google的Jeffrey Dean.Greg Corrado.Tomas Mikolov发表的第一排word2vec论文,引用高达10000次,同时也是 ...

最新文章

  1. 【每日一念经】算法岗面经,一万字面试经验你确定不看?
  2. 教你如何在面试中用「10分钟快速分析」一款产品
  3. VS2008文件操作出现问题
  4. RED5 安装及问题
  5. 清华大学《操作系统》(七):虚拟存储、覆盖、交换
  6. Signature字段
  7. java-将xlsx(excel)文件转换成json
  8. p44_IP数据包格式
  9. python与Labview进行数据通信(UDP)
  10. 可执行文件的 MD5 碰撞
  11. 关于ArcGIS的文件格式
  12. 408考研计算机网络视频,计算机408考研视频哪个好
  13. win10磁盘占用率过高解决办法
  14. 汇编语言aaa指令解析,aas指令解析
  15. Java 视频转码(转为MPEG-4格式)
  16. Android双屏异显另辟蹊径---minui的移植
  17. 【GNN应用】金融风控领域
  18. 【k8s权威指南】第三章 k8s核心原理
  19. 可供量、现有量、承诺量
  20. 小度机器人小胖机器人_小度机器人怎么升级?智能机器人百小度快速升级全攻略[多图]...

热门文章

  1. 已经30岁了,现在学编程还晚不晚
  2. 【Linux项目】 --P2P下载器的详细介绍
  3. 数据库常用命令,不积硅步无以至千里
  4. Unreal虚幻_蓝图入门学习
  5. 织梦网站巧用标签实现图片自动Alt功能,强化织梦seo效果
  6. CS5268/CS5265/CS5266 Type-C转HDMI设计方案|替代CS5268/CS5265/CS5266芯片|GSV2201可完全替代兼容CS5268/CS5265/CS5266
  7. 管家婆设置软件登录限制
  8. oracle导出报错04063,导出报错:ORA-04063:packagebody“DMSYS.DBMS_DM_MODEL_EXP”hase
  9. ansible一键部署高可用集群项目实战最细教程
  10. PFM与PWM的技术总结