词袋模型是将文档中所有词混在一起进行统计。

词向量是指对词语语义或含义的数值向量表示,包括字面意义和隐含意义,将所有这些含义结合起来构成一个稠密向量,这个稠密向量支持查询和逻辑推理。

正是这种无监督的特性使它无比强大,因为世界上充满了未标记、未分类、非结构化的自然语言文本。

无监督学习:

聚类算法,如k均值或DBSCAN就属于无监督学习,像主成分分析(pca)和t -分布领域嵌入算法这样的降维算法也属于无监督机器学习技术。在无监督学习中,模型从数据点自身的关系中发现模式。

通过使用低维内部表示来重新预输入的模型称为自编码器。就像是机器把大家的提问重新传回来,而且在提问时他还不能记录,机器必须把提问压缩成简写形式。

词向量看作是一个权重或分数的列表,列表中的每个权重或分数都对应于这个词在某个特定维度的含义。

面向向量的推理:

word2vec(连续空间词表示中的语言规律)

word2vec可以将表示词条的出现次数和频率的自然语言向量转换为更低维的word2vec向量空间。在这个低维空间中,我们可进行数学运算,并将结果转换回自然语言空间。

推理问题、类比、模式匹配、建模、可视化、关键词匹配

词向量将词的语义表示为训练语料库中上下文中的向量。

训练word2vec有两种方法:skip-gram:基于目标词(输入词)预测上下文(输出词)、连续词袋(CBOW)方法:基于邻近词(输入词)预测目标词(输出词)

预训练好的词模型:Glo Ve、fastText(facebook)、word2vec(google)

对于依赖专业词汇表或语义关系的领域,通用的词向量模型就不够了。

skip-gram:一种包含间隙的跳跃式n-gram语法,因为我们跳过了中间词条。

当神经网络的目标是学习分类问题时,经常用softmax函数作为神经网络输出层的激活函数。softmax可以将输出结果压缩为0到1之间的值,所有的输出的和加起来等于1,这样softmax函数的输出层结果就可以当作概率。softmax输出值通过归一化指数函数计算。

每个词在进入网络前被表示为一个独热向量,神经网络做词嵌入的输出向量也类似于一个独热向量,输出层节点概率最大的词转换为1,其余所有词转换为0.

当完成神经网络训练后,经过训练后的网络权重可以用来表示语义。经过词条独热向量的转换,权重矩阵的一行表示语料库词汇表中的一个词。

神经网络中隐藏层的权重矩阵:每列表示一个输入层神经元,每行表示一个输出层神经元。

词向量模型训练结束后便不再进行额外的训练,因此可以忽略网络的输出层,只用隐藏层的输入权重来作为词嵌入表示。一个6词的独热向量与3个神经元的权重矩阵(6*3)点积运算得到3维结果词向量。

输入层、输出层都包含M个神经元,其中M是模型的词汇表中词的总数。隐藏层由n个神经元组成,其中n表示词的向量维数。

skip-gram 方法对于小型语料库和一些罕见的词项比较适用,由于网络结构的原因,将会产生更多的训练样本。CBOW方法在常用词上有更高的精确性,并且训练速度快很多。

连续词袋方法:根据周围词预测中心词。可以创建一个多热向量作为输入词,多热向量是围绕中心词的所有周围词的独热向量的和。

以多热向量输入,目标词作为输出构建训练样本对。

2-gram:

如果wi和wj经计算得到的分数高于阈值,则这两个词应当作为词项对被包含在word2vec词汇表中。

高频词条降采样:

为了减少像停用词这样的高频词的影响,可以在训练过程中对词进行与其出现频率成反比的采样。其效果类似于IDF对TF-IDF向量的影响。相比于罕见词,高频词被赋以向量更小的影响力。

负采样:

选取n个负样本词对(目标词输出之外的词),根据其对输出的贡献来更新对应的权重。

word2vec的高维和每个维度的连续值特性使其能够捕捉到给定词的全部含义,这也是他能用于做类比、连接以及多义并排的原因。 300万个词,每个词有300个向量维数

word2vec是一个巨大的突破,但它依赖于必须经反向传播来训练的神经网络模型,反向传播在效率上通常不如使用梯度下降法直接优化的代价函数。

计算词的共现次数并记录在一个正方形矩阵中。SVD方法:对词贡献的全局向量(在整个语料库中的共现)直接进行优化,因此命名为GloVe。优点:训练过程更快;更有效地利用CPU、内存(可以处理更大规模的文档);更有效利用数据(对小型语料库有帮助 );在相同的训练次数的情况下精确率更高。

fastText:该算法预测周围的n个字符,fastText为每个字符的gram训练一个向量表示,其中包括词、拼错的词、词片段,甚至单个字符,能够更好的处理罕见词。

LSA主题-词向量  ...

主成分分析PCA工具:将向量维数从原来的300维压缩到人们可理解的二维表示。降维

利用Doc2vec计算文档相似度:通过在词预测中加入额外的文档或段落向量,扩展了word2vec的概念。

使用tensorBoard理解模型,使用它来跟踪模型训练指标,绘制网络权重分布,可视化词嵌入以及完成其他任务。租用GPU 使用GPU实例的公共IP地址,端口6006

笔记 word2vec相关推荐

  1. Tensorflow学习笔记——word2vec

    本笔记记录一下鄙人在使用tf的心得,好让自己日后可以回忆一下.其代码内容都源于tf的tutorial里面的Vector Representations of Words. 现在我们一起来实现通过tf实 ...

  2. 【NLP】CS224N课程笔记|词向量I: 简介, SVD和Word2Vec

    NewBeeNLP原创出品 公众号专栏作者@Ryan 知乎 | 机器学习课程笔记 CS224N课程笔记系列,持续更新中 课程主页:  http://web.stanford.edu/class/cs2 ...

  3. word2vec原理_word2vec论文阅读笔记

    word2vec算是NLP中的经典算法,之前在课程中简单的学过,但面试时经不起深问.痛定思痛,参考Jack(@没搜出来)的总结,笔者重点阅读了Mikolov的原始论文[1]和Xin Rong的详细推导 ...

  4. 深度学习(四十二)word2vec词向量学习笔记

    word2vec词向量学习笔记 原文地址:http://blog.csdn.net/hjimce/article/details/51564783 个人微博:黄锦池-hjimce 一.使用原版word ...

  5. BERT通俗笔记:从Word2Vec/Transformer逐步理解到BERT

    前言 我在写上一篇博客<22下半年>时,有读者在文章下面评论道:"july大神,请问BERT的通俗理解还做吗?",我当时给他发了张俊林老师的BERT文章,所以没太在意. ...

  6. 深度学习word2vec笔记之算法篇

    本文转载自<深度学习word2vec笔记之算法篇>对排版和内容作了部分调整,感谢大佬分享. PDF版本关注微信公众号:[终南樵],回复:[word2vec基础]获取 1. 声明 该博文是G ...

  7. 深度学习word2vec笔记之基础篇

    深度学习word2vec笔记之基础篇 声明: 1)该博文是多位博主以及多位文档资料的主人所无私奉献的论文资料整理的.具体引用的资料请看参考文献.具体的版本声明也参考原文献 2)本文仅供学术交流,非商用 ...

  8. Word2vec原理+实战学习笔记(二)

    来源:投稿 作者:阿克西 编辑:学姐 前篇:Word2vec原理+实战学习笔记(一)​​​​​​​ 视频链接:https://ai.deepshare.net/detail/p_5ee62f90022 ...

  9. 自然语言处理自学笔记-02 Word2vec——基于神经网络学习单词表示

    自然语言处理自学笔记-02 Word2vec--基于神经网络学习单词表示 Word2vec 定义损失函数 skip-gram算法 从原始文本到结构化数据 制定实际的损失函数 近似损失函数 连续词带模型 ...

最新文章

  1. C语言数组,这个输出模式感觉自己很厉害!_只愿与一人十指紧扣_新浪博客
  2. 数学之美 系列一 -- 统计语言模型
  3. 正则表达式中模式修正符作用详解(i、g、m、s、x、e)
  4. Apache kafka 工作原理介绍
  5. mysql-connector-mysql 8.0 (spring-boot-starter-parent 管理的版本) + Activiti 6.x 自动建表失败
  6. 设计模式入门-单例模式
  7. python求解LeetCode习题Fraction to Recurring Decimal
  8. Python学习中的知识点小记录(廖雪峰)
  9. java 使用poi导出excel柱状图
  10. 移动硬盘插入提示需要格式化RAW_当正常驱动器变成RAW驱动器时怎么修复
  11. 太阳高度角计算题_【高考地理】地理计算题型汇总(附太阳高度角专题设计)...
  12. CMD查看局域网在线IP
  13. JavaScript数组方法大全(分为会不会改变原数组)
  14. jquery和vue分别对input输入框手机号码格式化(344)
  15. 每天一个俯卧撑的健身法 - 微习惯实践
  16. 福大携手移动云,共启数字教育新篇章!
  17. 公司邮箱登录,邮件多长时间能撤回,有时间限制吗?
  18. sass入门_Sass入门
  19. 【MarkDown使用技巧】轻松搞定MarkDown
  20. 微信小程序与web页面制作的区别

热门文章

  1. STM32F4步进电机速度和位移与定时器输出PWM频率计算
  2. 队列的两种存储方式的介绍与实现
  3. android x86怎么样,Android x86 4.4安装体验(转载)
  4. 直方图,概率质量函数和概率密度函数
  5. 政务服务中心工作人员是公务员吗?
  6. android errcode 1,android 唤起支付失败。一直返回errCode=-1
  7. Unity3D Shader编程】之四 热带雨林篇: 剔除、深度测试、Alpha测试以及基本雾效合辑
  8. 可变量程的直流电压表
  9. 在线生成IntelliJ IDEA 注册码
  10. sony公司关于什么是逐行扫描的解释