来源:Deephub Imba
本文约800字,建议阅读5分钟
本文主要介绍了Word2Vec和Doc2Vec。

Doc2Vec 是一种无监督算法,可从可变长度的文本片段(例如句子、段落和文档)中学习嵌入。它最初出现在 Distributed Representations of Sentences and Documents 一文中。

Word2Vec

让我们先回顾一下 Word2Vec,因为它为 Doc2Vec 算法提供了灵感。

Word2Vec 的连续词袋架构。图片来自论文 Distributed Representations of Sentences and Documents。

Word2Vec 通过使用上下文中的其他单词预测句子中的单词来学习单词向量。在这个框架中,每个词都映射到一个唯一的向量,由矩阵 W 中的一列表示。向量的串联或总和被用作预测句子中下一个词的特征。

使用随机梯度下降训练词向量。训练收敛后,将意思相近的词映射到向量空间中相近的位置。

所呈现的架构称为连续词袋 (CBOW) Word2Vec。还有一种称为 Skip-gram Word2Vec 的架构,其中通过从单个单词预测上下文来学习单词向量。

Doc2Vec

来自论文 Distributed Representations of Sentences and Documents 的 Doc2Vec 的分布式内存模型。

我们现在将看到如何学习段落的嵌入,但同样的方法也可用于学习整个文档的嵌入。

在Doc2Vec中,训练集中的每个段落都映射到一个唯一的向量,用矩阵D中的一列表示,每个词也映射到一个唯一的向量,用矩阵W中的一列表示。段落向量和词向量分别为平均或连接以预测上下文中的下一个单词。

段落向量在从同一段落生成的所有上下文中共享,但不会跨段落共享。词向量矩阵 W 是跨段落共享的。

段落标记可以被认为是另一个词。它充当记忆,记住当前上下文中缺少的内容。所以这个模型被称为分布式内存 (DM) Doc2Vec。还有第二种架构称为分布式词袋 (DBOW) Doc2Vec,其灵感来自 Skip-gram Word2Vec。

段落向量和词向量使用随机梯度下降进行训练。

在预测时,需要通过梯度下降获得新段落的段落向量,保持模型其余部分的参数固定。

编辑:王菁

5分钟 NLP 系列: Word2Vec和Doc2Vec相关推荐

  1. 5分钟 NLP系列—— 11 个词嵌入模型总结

    来源:DeepHub IMBA 本文约1000字,建议阅读5分钟 本片文章将对词嵌入的模型做一个完整的总结. TF-IDF, Word2Vec, GloVe, FastText, ELMO, CoVe ...

  2. [论文阅读] (24) 向量表征:从Word2vec和Doc2vec到Deepwalk和Graph2vec,再到Asm2vec和Log2vec(一)

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  3. 基于word2vec或doc2vec的情感分析

    转载自:http://datartisan.com/article/detail/48.html 情感分析是一种常见的自然语言处理(NLP)方法的应用,特别是在以提取文本的情感内容为目标的分类方法中. ...

  4. 中文分词word2vec和doc2vec句向量的理解

    ** Doc2vec ** 1.Word2vec和Doc2vec做Word Embedding和Sentence/Document EMbedding. 2.NLP中最直观常用的一种词表示方法是one ...

  5. word2vec 和doc2vec

    目录 目录 word2vec 和doc2vec的区别 例子加载google训练的模型并输出单词good的向量 参考文献 word2vec 和doc2vec的区别 不管是词向量还是句向量都是一个训练模型 ...

  6. 软考上午题难点5分钟攻克系列(十)

    软考上午题难点5分钟攻克系列(十) 由于微博暂时不支持直播视频,可以单击下面链接学习 http://edu.51cto.com/center/course/lesson/index?id=184768 ...

  7. NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量

    NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量 目录 输出结果 设计思路 1.Wikipedia Text语料来源 2.维基 ...

  8. STM32F103五分钟入门系列(十三)独立看门狗IWDG

    参考:STM32F103五分钟入门系列(十三)独立看门狗IWDG 作者:自信且爱笑' 发布时间:2021-07-31 19:50:28 网址:https://blog.csdn.net/Curnane ...

  9. STM32F103五分钟入门系列(二)GPIO的七大寄存器+GPIOx_LCKR作用和配置

    摘自:STM32F103五分钟入门系列(二)GPIO的七大寄存器+GPIOx_LCKR作用和配置 作者:自信且爱笑' 发布时间: 2021-05-01 12:08:32 网址:https://blog ...

最新文章

  1. 年后准备跳槽可以看看
  2. 【SVM】通过SVM对数据进行训练和分类测试,matlab仿真
  3. mpvue生命周期初探
  4. 高级C语言教程-作用域
  5. 用Socket 打造跨语言跨操作系统的网络MORPG游戏(二)
  6. 如何设计通用的网站模板
  7. tarjan对有向图的缩点(求强连通分量)
  8. 印度不只有开挂火车,还有一开挂的数学家,凭一己之力单刷数学界
  9. element-ui省市区三级联动:选择即改变
  10. Task/Parallel实现异步多线程
  11. ELF文件详解—初步认识
  12. php培训周期,合肥PHP培训周期为什么往往比2个月要长?
  13. excel 组合框控件使用方法
  14. 电脑声卡维修经验和实例完全分析
  15. ubuntu找不到拼音输入,找不到中文拼音输入源
  16. c语言使用easyX图形库制作打气球小游戏
  17. 计算机的发明还不到一百年 英语,考研英语作文万能句子25个.doc
  18. sqli-labs11-22关闯关心得与思路
  19. php面试题中笔试题目的汇总,php面试题中笔试题目的汇总
  20. 贴片电容的X5R X7R是什么意思

热门文章

  1. SAP R/3系统的R和3分别代表什么含义,负载均衡的实现原理
  2. 英语写作学习笔录 task1 body
  3. Referenced file contains errors (http://java.sun.com/xml/ns/j2ee/web-jsptaglibrary_2_4.xsd).
  4. Windows 8 图标前面的勾选
  5. nodejs的安装for mac
  6. Magento — B2C与B2B平台
  7. python算法题_Python算法题
  8. android地址格式转换,Android(安卓)时间戳和日期之间的转化
  9. python字典遍历的几种方法(for in 用法)
  10. java与SPARK的使用的一个类似文章