继分享了一系列词向量相关的paper之后,今天分享一篇句子向量的文章,Distributed Representations of Sentences and Documents,作者是来自Google的Quoc Le和Tomas Mikolov,后者也是Word2Vec的作者。

用低维向量表示了word之后,接下来要挑战地就是表示句子和段落了。传统的表示句子的方式是用词袋模型,每个句子都可以写成一个特别大维度的向量,绝大多数是0,不仅没有考虑词序的影响,而且还无法表达语义信息。本文沿用了Word2Vec的思想,提出了一种无监督模型,将变长的句子或段落表示成固定长度的向量。不仅在一定上下文范围内考虑了词序,而且非常好地表征了语义信息。

首先简单回顾下word2vec的cbow模型架构图:

给定上下文the cat sat三个词来预测单词on。

与cbow模型类似,本文提出了PV-DM(Distributed Memory Model of Paragraph Vectors),如下图:

不同的地方在于,输入中多了一个paragraph vector,可以看做是一个word vector,作用是用来记忆当前上下文所缺失的信息,或者说表征了该段落的主题。这里,所有的词向量在所有段落中都是共用的,而paragraph vector只在当前paragraph中做训练时才相同。后面的过程与word2vec无异。

topic也好,memory也罢,感觉更像是一种刻意的说辞,本质上就是一个word,只是这个word唯一代表了这个paragraph,丰富了context vector。

另外一种模型,叫做PV-DBOW(Distributed Bag of Words version of Paragraph Vector),如下图:

看起来和word2vec的skip-gram模型很像。

用PV-DM训练出的向量有不错的效果,但在实验中采用了两种模型分别计算出的向量组合作为最终的paragraph vector,效果会更佳。在一些情感分类的问题上进行了测试,得到了不错的效果。

本文的意义在于提出了一个无监督的paragraph向量表示模型,无监督的意义非常重大。有了paragraph级别的高效表示模型之后,解决类似于句子分类,检索,问答系统,文本摘要等各种问题都会带来极大地帮助。

来源:paperweekly

原文链接

Distributed Representations of Sentences and Documents相关推荐

  1. NLP论文 -《Distributed Representations of Sentences and Documents》-句子和文档的分布式表示学习(二)

    Distributed Representations of Sentences and Documents(句子和文档的分布式表示学习) 作者:Quoc Le and Tomas Mikolov 单 ...

  2. NLP论文 -《Distributed Representations of Sentences and Documents》-句子和文档的分布式表示学习

    Distributed Representations of Sentences and Documents(句子和文档的分布式表示学习) 作者:Quoc Le and Tomas Mikolov 单 ...

  3. 文本相似度:Distributed Representations of Sentences and Documents

    文章地址:https://arxiv.org/pdf/1405.4053.pdf 文章标题:Distributed Representations of Sentences and Documents ...

  4. 指代消解_论文理解《Improving Coreference Resolution by Learning Entity-Level Distributed Representations》

    论文<Improving Coreference Resolution by Learning Entity-Level Distributed Representations> 段落: ...

  5. Question Retrieval with Distributed Representations and Participant Reputation in Community QA论文笔记

    原文下载地址 摘要 社区问题的难点在于:重复性问题 解决上述问题要采用Query retrieval(QR),QR的难点在于:同义词汇 本文算法:1)采用continuous bag-of-words ...

  6. NLP论文解读《Distributed Representations of Words and Phrasesand their Compositionality》

    目录 词和短语的分布式表示以及他们的表示 1.介绍 2  Skip - gram模型 2.1 分层的Softmax(Hierarchical Softmax) 2.2 负样本(Negative Sam ...

  7. 论文翻译解读:Distributed Representations of Words and Phrases and their Compositionality【Word2Vec优化】

    文章目录 Distributed Representations of Words and Phrases and their Compositionality 简要信息 重点内容概括 摘要 1 介绍 ...

  8. 论文笔记之Distributed Representations of Words and Phrases and their Compositionality

    这篇文章是用于解决skip-gram和CBOW两种模型在计算softmax时因为语料库V太大导致计算复杂度偏高的问题.为了降低复杂度,提高运算效率,论文作者提出了层次softmax以及负采样的方式去解 ...

  9. Word2Vec 与《Distributed Representations of Words and Phrases and their Compositionality》学习笔记

    什么是Word2Vec 目录 词嵌入 ( w o r d (word (word e m b e d d i n g ) embedding) embedding) 词嵌入的特点 嵌入矩阵 S k i ...

最新文章

  1. mysql 轨迹数据存储_python爬虫26 | 把数据爬取下来之后就存储到你的MySQL数据库...
  2. dos进入mysql不记得密码_windos mysql 忘记密码,无密码登录,重新登录
  3. c语言中static使用方法
  4. 深度学习主流框架介绍(PyTorch、TensorFlow、Keras、Caffe、Theano、MXNET)
  5. C#网络编程之 UDP编程
  6. android 开源项目介绍
  7. 数据库基础(常用SQL语句)
  8. cad插件_CAD素材与插件合集
  9. JS获取屏幕的宽度、高度
  10. 无猿无故!程序员成语大全
  11. 使用3g模块SIM5360E收发短信
  12. 推荐几款牛逼Chrome网页翻译插件,功能强大内容惊艳,务必低调使用
  13. SAP中如何对预制凭证,增加开户行和账户标识
  14. andoird 设置锁屏上不显示通知
  15. C++ windy数
  16. imageJ执行宏脚本出现了灰蒙蒙的图片。
  17. H5/C3基础(1)
  18. 为何老人与年轻人都更愿意选择OPPO?这些用户需求值得关注
  19. 删除域中的Exchange服务器
  20. 搜索引擎site关键字的站内搜索

热门文章

  1. kubernetes k8s一文入门
  2. Shiro系列-Shiro中Realm如何使用
  3. java堆缓冲区,Java NIO之Buffer(缓冲区)
  4. java 正序排序_java排序之冒泡排序
  5. QEMU/KVM原理概述
  6. linux C下的setjmp与longjmp介绍
  7. Mutex和上厕所居然有这么多异曲同工之妙
  8. 变形 圆形_中山125T圆形玻璃钢冷却塔现场安装
  9. elasticsearch工具类_Django + Elasticsearch——搜索精彩的TED演讲
  10. AuthenticationManager验证原理分析