Distribute Representations of Words and Phrases and their Compositionality

  • 摘要
  • 介绍
  • 模型介绍
    • The Skip-gram(未完待续)

摘要

连续Skip-gram模型,用来学习高质量的分布式词向量表示,可以抓住精确的语法和语义词关系。在本篇论文中,我们提出既可以提高词向量质量又可以提高训练速度的方法。通过对高频词的二次采样,我们获得了重大意义上的速度提升,并且也学到了更多规则的单词表示。
另外还描述了一种代替hierarchical softmax的方法,称为
下采样
词向量的固有限制是词与词之间没有关联并且无法表示出习惯性短语。例如,‘canada’和‘air’不能简单结合获得‘air canada’(加拿大航空)的意思。受到这个例子的激励,我们提出一个简单的方法来从文本中找到词组,并且表明从上百万个短语中学习词组的向量表示是可行的。

介绍

词的分布式表示,在一个向量空间,通过组织相似的词,可以帮助学习算法在自然语言处理任务中获得更好的性能。最早使用词表示可以追溯到1986年(略),这一想法被应用到统计语言模型中并取得相当的成功。后续的工作包括自动语音识别和机器翻译,还有大范围的NLP任务(都应用了词表示)。

最近,XX等介绍了the Skip-gram模型, 一个有效的方法,从大量非结构文本数据中学习高质量的词的向量表示。不像以前使用神经网络结构来学习词向量,训练Skip-gram模型不包含密集矩阵乘法。这使得训练非常有效。一个性能良好的单机一天就可以训练超过1亿的单词。

使用神经网络计算的单词表示非常有趣,因为这些向量还明显的编码了很多语言规则和模式。令人惊讶的是,很多这些模式可以看成是线性翻译。例如,向量计算的结果,vec(‘马德里’)-vec(‘西班牙’)+vec(‘法国’)结果比任何其他词向量都要更接近vec(‘巴黎’)

在本篇论文当中,我们对原始Skip-gram模型提出集中扩展。我们发现在训练过程中对频繁词进行二次采样可以导致显著的加速并且还提高了低频单词表示的准确性。另外还提出一个简单的噪声对比估计变体(NCE)来训练Skip-gram模型,跟之前工作中使用的层次softmax对比,取得了更快的训练和高频词有了更好的向量表示。

单词表示受限主要是它们无法表示习惯性短语,不是单个单词的组合。例如,‘Boston Globe’是一份报纸,确并不是“boston”和“Globe”两个单词意思的自然结合。因此,使用向量来表示整个词组使得Skip-gram更具有表达性。其他旨在通过词向量组合来表示句子意义的技术,比如递归自动编码器,也将从短语向量而非词向量中获益。

从基于词的模型到基于短语的模型的扩展是相对简单的。首先,我们使用数据驱动的方法来识别大量的短语(词组),然后在训练过程中,对短语进行单独标注。为了评估短语向量的质量,我们开发了一套同时包含单词和短语的类比推理任务的测试集。来自我们的测试集中的一个典型的类比对,“Montreal”:“Montreal Canadiens”::“Toronto”:“Toronto Maple Leafs”

如果最接近vec(“蒙特利尔加拿大人”)-vec(“蒙特利尔”)+vec(“多伦多”)是vec(“多伦多枫叶”),则被认为是正确的回答。

最后,我们还发现了Skip-gram另外一个有趣的特性,我们发现简单的向量相加可以获得有意义的结果。例如,vec(“俄罗斯”)+vec(“河”)靠近vec(“伏尔加河”),而vec(“德国”)+vec(“首都”)靠近vec(“柏林”)。这种组合性表明,通过使用对词向量表示的基本数学运算,可以获得不明显程度的语言理解。

模型介绍

The Skip-gram(未完待续)

(2013 Distribute Representations of Words and Phrases and their Compositionality)词和短语的分布式表示和组成相关推荐

  1. 论文翻译解读:Distributed Representations of Words and Phrases and their Compositionality【Word2Vec优化】

    文章目录 Distributed Representations of Words and Phrases and their Compositionality 简要信息 重点内容概括 摘要 1 介绍 ...

  2. 论文笔记之Distributed Representations of Words and Phrases and their Compositionality

    这篇文章是用于解决skip-gram和CBOW两种模型在计算softmax时因为语料库V太大导致计算复杂度偏高的问题.为了降低复杂度,提高运算效率,论文作者提出了层次softmax以及负采样的方式去解 ...

  3. Word2Vec 与《Distributed Representations of Words and Phrases and their Compositionality》学习笔记

    什么是Word2Vec 目录 词嵌入 ( w o r d (word (word e m b e d d i n g ) embedding) embedding) 词嵌入的特点 嵌入矩阵 S k i ...

  4. Graph Convolutional Neural Networks for Web-Scale Recommender Systems(用于Web级推荐系统的图形卷积神经网络)

    Graph Convolutional Neural Networks for Web-Scale Recommender Systems 用于Web级推荐系统的图形卷积神经网络 ABSTRACT R ...

  5. 《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》论文翻译--中英对照

    文章目录 1 Introduction(简介) 2 Related Work(相关工作) 2.1 Feature-based Approaches(基于特征的方法) 2.2 Fine-tuning A ...

  6. 论文解读 | 微信看一看实时Look-alike推荐算法

    作者丨gongyouliu 编辑丨lily 来源 | 授权转载自大数据与人工智能(ID:ai-big-data) 微信看一看的精选文章推荐(见下面图1)大家应该都用过,微信团队在今年发表了一篇文章来专 ...

  7. 漫谈词向量之基于Softmax与Sampling的方法

    from:http://www.dedns.cn/xueba/2315329.shtml 原文: On word embeddings 作者: Sebastian Ruder 译者: KK4SBB 审 ...

  8. [Embeding-3]综述:词嵌入以及与分布式语义模型的关联

    1. 前言 近年来,在许多NLP任务中,无监督学习单词嵌入已经取得了巨大的成功.他们的效果如此之好,以至于在许多NLP体系结构中,几乎完全取代了更传统的分布式表示,如LSA特征和Brown聚类. 可以 ...

  9. 如何通俗理解Word2Vec

    如何通俗理解Word2Vec 看本文之前,建议先看此文:<BERT通俗笔记:从Word2Vec/Transformer逐步理解到BERT> 前言 今年上半年,我在我的上一篇LSTM博客中写 ...

最新文章

  1. Create a restful app with AngularJS/Grails(4)
  2. python学习第四课
  3. 5008.工程师职场能力自测评估
  4. python适合做后端开发吗-想从事Python 后端开发?
  5. Node 之 模块加载原理与加载方式
  6. tomcat不能解析php,tomcat不支持php怎么办
  7. Flutter 登录页面Demo 复制可使用
  8. 表格金额千分位设置及时间控件默认为空及取两位小数、获取当前日期的年份和月份
  9. Linux替代Windows系统软件比拼
  10. 面试题--------8、mysql的几种锁
  11. unity3d让模型不受3dCamera FOV的影响
  12. 菜鸟的草缸 篇四:菜鸟的草缸:二氧化碳CO2
  13. 55.网页设计规则#3_图片和插图
  14. C#中判断空字符串的3种方法性能分析 1
  15. OA系统流程效率改进方案
  16. cisco 模拟器安装及交换机的基本配置实验心得_「分享」7个必看的Cisco实验
  17. 格兰杰因果检验如何分析?
  18. [16]质量控制工具 因果图-帕累托图-直方图-趋势图等
  19. 英语记忆软件测试大乐,6款优质育儿APP测评推荐:听故事、学外语,寓教于乐,带娃不再累!...
  20. 彩虹服务器列表文件,彩虹引擎服务器架构图最详细的讲解

热门文章

  1. 第三课:句子成分和五个基本句型
  2. map clear java_Java Map clear()用法及代码示例
  3. HJ-3D心理沙盘智能报告,更真实反映受测者心理状态
  4. Redis存储Java对象方案
  5. 【VSCode】Windows 下搭建 Fortran 环境
  6. linux centos网卡配置,Linux之Centos配置网卡信息
  7. mac怎么在关闭盖子后同时断开蓝牙连接,关闭蓝牙
  8. Cookie和Session、SessionID的那些事儿
  9. LODOP有选择性显示页眉页脚
  10. 企业拥抱Windows 8的十大理由