作者:JUDGE_MENT
邮箱:gao19920804@126.com
CSDN博客:http://blog.csdn.net/sinat_23137713
最后编辑时间:2016.12.5  V1.1
声明:
1)该资料结合官方文档及网上大牛的博客进行撰写,如有参考会在最后列出引用列表。
2)本文仅供学术交流,非商用。如果不小心侵犯了大家的利益,还望海涵,并联系博主删除。
3)转载请注明出处。
4)本文主要是用来记录本人初学Tensorflow时遇到的问题,特此记录下来,因此并不是所有的方法(如安装方法)都会全面介绍。希望后人看到可以引以为鉴,避免走弯路。同时毕竟水平有限,希望有饱含学识之士看到其中的问题之后,可以悉心指出,本人感激不尽。
一. 为什么要有词向量?
对于物体或语音识别这一类的任务,我们所需的全部信息已经都存储在原始数据(图片中所有单个原始像素点强度值或者音频中功率谱密度的强度值)中(显然人类本身就是依赖原始数据进行日常的物体或语音识别的)。
然而,自然语言处理系统通常将词汇作为离散的单一符号,例如 "cat" 一词或可表示为 Id537 ,而 "dog" 一词或可表示为 Id143。这些符号编码毫无规律,无法提供不同词汇之间可能存在的关联信息。
可见,将词汇表达为上述的独立离散符号将进一步导致数据稀疏,使我们在训练统计模型时不得不寻求更多的数据。而词汇的向量表示将克服上述的难题。
二. vord2vec
Word2vec是一种可以进行高效率词嵌套学习的预测模型。
其两种变体分别为:连续词袋模型(CBOW)及Skip-Gram模型。
从算法角度看,这两种方法非常相似,其区别为CBOW根据源词上下文词汇('the cat sits on the')来预测目标词汇(例如,‘mat’),而Skip-Gram模型做法相反,它通过目标词汇来预测源词汇。
Skip-Gram模型采取CBOW的逆过程的动机在于:CBOW算法对于很多分布式信息进行了平滑处理(这里说的平滑是指将输入向量全部累加起来)(例如将一整段上下文信息视为一个单一观察量)。
很多情况下,对于小型的数据集,这一处理是有帮助的。
相形之下,Skip-Gram模型将每个“上下文-目标词汇”的组合视为一个新观察量,这种做法在大型数据集中会更为有效。本教程余下部分将着重讲解Skip-Gram模型
三.神经网络模型
终于这个模型使用softmax之后就可以不用考虑负样本了,本身就是归一化

汐月教育之理解TensorFlow(四)词向量相关推荐

  1. 如何用TensorFlow训练词向量

    前言 前面在<谈谈谷歌word2vec的原理>文章中已经把word2vec的来龙去脉说得很清楚了,接下去这篇文章将尝试根据word2vec的原理并使用TensorFlow来训练词向量,这里 ...

  2. (译)对词向量化的直观理解:从计数向量到Word2Vec

    本文翻译自 An Intuitive Understanding of Word Embeddings: From Count Vectors to Word2Vec 能力所限,部分翻译可能会不尽准确 ...

  3. NLP(词向量、word2vec和word embedding)

    最近在做一些文本处理相关的任务,虽然对于相关知识有所了解,而且根据相关开源代码也可以完成相应任务:但是具有有些细节,尤其是细节之间的相互关系,感觉有些模糊而似懂非懂,所以找到相关知识整理介绍,分享如下 ...

  4. 【NLP-词向量】词向量的由来及本质

    词嵌入是所有自然语言处理任务所必须要经历的步骤,非常的重要.词向量在网络上已经有了大量的文章,但是,出于我们专栏的完整性系统性的考虑,笔者还是决定加上这样一个专题. 计划用3-4次,彻底说清楚在自然语 ...

  5. 词向量与词向量拼接_「NLP-词向量」一文详述词向量的由来及本质

    词嵌入是所有自然语言处理任务所必须要经历的步骤,非常的重要.词向量在网络上已经有了大量的文章,但是,出于我们专栏的完整性系统性的考虑,笔者还是决定加上这样一个专题. 计划用3-4次,彻底说清楚在自然语 ...

  6. 到底该如何理解DevOps这个词

    炒了8年的概念,到底该如何理解DevOps这个词? 转载本文需注明出处:EAII企业架构创新研究院,违者必究.如需加入微信群参与微课堂.架构设计与讨论直播请直接回复公众号:"EAII企业架构 ...

  7. word2vec词向量 文本分类实现(TensorFlow版,算法TextCNN)

    之前也写过word2vec词向量文本分类实现,不过那是基于Keras. 今天来写下tensoflow版的代码. 再来感受下它的魅力. tensorflow比Keras更接近底层,可以更方便让我们理解W ...

  8. 2021年2月教育行业网络关注度分析报告

    2021年2月,教育行业相关的全网信息量较上月有所下降,微博成为相关信息传播的主要平台.本月教育行业敏感信息占比为6.42%,比上月下降2.09个百分点.敏感信息的主要类型有师德师风问题.教学管理不当 ...

  9. 【历史上的今天】11 月 9 日:TensorFlow 问世;Mozilla Firefox 发布标准版;Intel 和微软分道扬镳

    整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来. 今天是 2021 年 11 月 9 日,在 6 年前的今天,中国科学家王贻芳首获"基础物理学突破奖", ...

最新文章

  1. Redis中有序集合zset数据类型(增加(添加元素)、获取(获取指定范围元素、返回权值在min和max之间的成员、返回成员member的score值)、删除(删除指定元素和指定权值范围的元素))
  2. 为 protocol 中属性添加默认值
  3. springboot shiro和freemarker集成之权限控制完全参考手册(跳过认证,登录由三方验证,全网首发)...
  4. 语义分割损失函数系列(2):IoU损失
  5. go出现missing go.sum entry for module providing package 错误
  6. HTML-CSS-JS Prettify报错Node.js was not found 解决方法
  7. TimedRotatingFileHandler函数用法
  8. 4.2 set和multiset
  9. Jupyter notebook:如何切换Python环境
  10. 等价类划分法写测试用例练习
  11. 基于vlan 无线用户隔离
  12. 教育部要求“强保障、上水平”,课后服务该如何提质增效?
  13. Silverlight加载xap后通过反射相互调用方法及元素
  14. 浏览器引擎 Chromium
  15. 最新Mac Pro详解
  16. LAS语音识别框架发展简述
  17. 键盘修改改器绿化版免安装
  18. 『Linux』Ubuntu Beaver(18.04) 配置 美化流程
  19. 信息学奥赛一本通 1375:骑马修栅栏(fence) | 洛谷 P2731 [USACO3.3]骑马修栅栏 Riding the Fences
  20. iMeta | 华南农大曾振灵/熊文广等-家庭中宠物犬与主人耐药基因的共存研究

热门文章

  1. android 蒙版图片带拖动_snapseed安卓蒙版(snapseed拼接两张图片)V1.6.8 手机版
  2. vue项目技术知识点
  3. “人不知而不愠”-当别人不理解我们时,怎样保持好心情?
  4. 运筹说 第10期|敲黑板!学习运筹学,怎么能不知道相关的运筹学组织呢?
  5. 【例题】已知二叉树的先序序列和中序序列构造二叉树
  6. 杨振宁的宇称不守恒造就了诺贝尔
  7. 在程序大奖赛中,有10个评委为参赛的选手打分,分数为1~100分。选手最后得分为:去掉一个最高分和一个最低分后其余8个分数的平均值。
  8. 一种实现个人微信二维码收款接口的方法
  9. VC++电脑锁屏(附源码)
  10. Github无法访问的解决方法