先上这篇paper链接:https://arxiv.org/pdf/1301.3781.pdf

摘要

这篇paper介绍了两种可从大规模数据集计算continuous vector representations of words的模型。(这边的continuous或可理解为上下文中心词是连在一起的;亦或相对于one-hot编码的非0即1,各维度上都是实数)。在单词相似性任务中衡量这些representations 的性能,并将结果与以前基于不同类型神经网络的优秀的模型进行比较。在更低的计算成本下,准确度有了很大的提高。这些vectors在测试集上能很好的捕捉到语意和句法的相似性(we show that these vectors provide state-of-the-art performance on our test set for measuring syntactic and semantic word similarities.)。

1 引言

当时很多的NLP算法,将words当作最小的原子用词典中的下标表示,缺点是没有words间相似性的概念,优点是简单(大训练集上的简单模型的表现优于小训练集上的复杂模型,在有限的计算资源和时间复杂度下,简单的模型能作用于更大的训练集)、鲁棒【simplicity, robustness and the observation that simple models trained on huge amounts of data outperform complex systems trained on less data】。例如N-gram模型能作用于万亿级别单词的数据集。

但是在很多任务中简单模型表现不佳。例如自动语音识别领域的数据比较少,模型表现与高质量的转录语音数据的量相关,通常只有百万级别。机器翻译领域,某些语言的语料也只有数十亿级别乃至更少。在这些情况下,对简单模型的一般改进并不能拿到优异的表现。

现在的技术使得在更大的数据上训练更复杂的模型成为可能,复杂模型的表现通常也优于简单模型。最成功的案例是use distributed representations of words。例如基于神经网络的语言模型明显优于N-gram。

1.1 文章的主旨

文章旨在从具有百万级别的单词、规模在数十亿级别的语料中学习高质量的单词的向量表示【learning high-quality word vectors from huge data sets with billions of words, and with millions of words in the vocabulary】。作者表示,当单词向量的维度在50-100之间的时候,以往的模型很难支撑起在数亿级别的语料上进行训练。

文章利用已有的评价单词向量质量的方法,不仅期待相似的单词向量彼此临近,还期待单词能拥有多种维度的相似性【multiple degrees of similarity】。现实也确实如此,例如名词有多种后缀,在词向量的子空间搜索相似的词,通常也能发现这些词有相同的结尾【This has been observed earlier in the context of inflectional languages - for example, nouns can have multiple word endings, and if we search for similar words in a subspace of the original vector space, it is possible to find words that have similar endings.】。

这种相似性已经超越了简单的句法规则。将代数运算用在词向量上,例如vector(“King”)- vector("Man") + vector("Woman"),我们会发现得到的向量与单词Queen的向量表示很临近。

文章通过新的模型结构来最大限度地提高这些向量运算的准确性,以保持单词之间的线性规律。文章设计新的综合的测试集来衡量句法和语法规律【syntactic and semantic】,并表明可以以高的准确率学习到很多类似的规律。文章还在各种训练集上,讨论了词向量的维度对训练时间和准确率的影响。

2. 模型结构

之前有用LDA和LSA来得到词的continuous representations。相对于LSA,神经网络模型能很好的提供保持单词之间的线性规律,而LSA在训练大规模数据集的时候代价高昂。

文章用模型可学习的参数来表示模型的复杂度【define first the computational complexity of a model as the number of parameters that need to be accessed to fully train the model】。比较不同模型的复杂度公式如下:

其中,E是训练的轮数,T是训练集的单词数,Q是每个模型的复杂度。

2.1 Feedforward Neural Net Language Model (NNLM)前馈神经网络语言模型

附这篇文章地址:https://jmlr.csail.mit.edu/papers/volume3/bengio03a/bengio03a.pdf

Efficient Estimation of Word Representations in Vector Space 笔记相关推荐

  1. nlp论文——《Efficient Estimation of Word Representations in Vector Space》(向量空间中词表示的有效估计)

    目录 <Efficient Estimation of Word Representations in Vector Space> 第一课时:论文导读 (1)语言模型 (2)词向量简介-- ...

  2. 论文翻译解读:Efficient estimation of word representations in vector space【Word2Vec】

    文章目录 简要信息 重点内容概括 Efficient estimation of word representations in vector space 摘要 1 介绍 1.1 论文目标 1.2 以 ...

  3. 读论文《Efficient Estimation of Word Representations in Vector Space》

    读论文<Efficient Estimation of Word Representations in Vector Space> 原文地址:http://blog.csdn.net/qq ...

  4. 论文阅读:Efficient Estimation of Word Representations in Vector Space

    目录 前言 Abstract 1.Introduction 1.1 Goals of the Paper 1.2 Previous Work 2. Model Architectures 2.1 Fe ...

  5. 论文笔记--Efficient Estimation of Word Representations in Vector Space

    论文笔记--Efficient Estimation of Word Representations in Vector Space 1. 文章简介 2. 文章概括 3 文章重点技术 3.1 NNLM ...

  6. [Embeding-1]Efficient Estimation of Word Representations in Vector Space 译文

    1. abstract 我们提出了两种新的模型结构,用于计算非常大数据集中单词的连续矢量表示.这些表示的质量是在一个词相似性任务中测量的,并将结果与以前基于不同类型神经网络的最佳表现技术进行比较.我们 ...

  7. NLP系列:Word2Vec原始论文:Efficient Estimation of Word Representations in Vector Space

    译者按: 2013年,Google开源了一款用于词向量计算的工具--word2vec,引起了工业界和学术界的关注.首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练:其次,该工 ...

  8. (30)[ICLR13] Efficient Estimation of Word Representations in Vector Space

    计划完成深度学习入门的126篇论文第三十篇,Google的Jeffrey Dean.Greg Corrado.Tomas Mikolov发表的第一排word2vec论文,引用高达10000次,同时也是 ...

  9. Efficient Estimation of Word Representations in Vector Space

    提出两个新颖的模型来计算词的连续向量表示,这些表示的质量用词的相似度来计算,结果和其他表现最好的技术进行比较.我们发现有很大的提高而且计算量低,比如1.6百万的词只需要不到一天的计算,而且这些向量对于 ...

最新文章

  1. NGLView 安装与配置-交互式分子结构和轨迹查看
  2. Box-Cox(python实现)
  3. Android多媒体开发
  4. 一、烧写最小linux系统
  5. 【机器学习应用】还没期末考试,算法却说我的物理一定挂科
  6. MyCat好的博文收集
  7. python文件输出中文_【python】中文的输出,打印,文件编码问题解决方法
  8. 媒体声音 | 憋了这么久,阿里云数据库再放大招
  9. 某公司有一台打印、复印一体机,需要将购买成本分年均摊到隔年的费用中。请编写一个程序,根据用户输入的购买金额和预计使用年限计算每年的分摊费用。要求对输入异常进行适当的处理。
  10. LoadRunner中进程运行和线程运行区别
  11. Node 环境变量 process.env.NODE_ENV 之webpack应用
  12. 代替oracle dblink,oracle dblink
  13. Verdi的使用技巧总结
  14. 在字节,校招刚入职就得到业界大会talk机会是一种怎样的体验?
  15. 全新 ENVI Modeler 遥感建模工具
  16. linux set 39 date 39,Linux date命令
  17. 计算机二级第24套Excel解析,Excel | 操作题第 24 套
  18. ubuntu如何打拼音
  19. Python-分类问题示例-OneR-学习笔记
  20. CPU乱序发射与内存屏障

热门文章

  1. 【听】自律力,关于如何提高自律能力的方法
  2. 陈百强原来这么帅_陈百强:如此美好温柔的一个男孩
  3. 电脑文件夹剪切后如何找回来?分享三种方法
  4. Substance Painter:如何去除启动时的TDR延迟低警告
  5. 基于深度学习的高精度苹果检测识别系统(Python+Pyside6)
  6. 【前端】【H5 API】地理定位(获取经纬度)
  7. 【DG】DG概念原理详解
  8. ofo怎么了?——全面复盘ofo营销之路
  9. cocos2d-x游戏开发编程入门到实战视频教程
  10. (附源码)springboot旅游公司网站设计 毕业设计110929