假设我们现在的Corpus是这一个简单的只有四个单词的document:
{I drink coffee everyday}
我们选coffee作为中心词,window size设为2
也就是说,我们要根据单词"I","drink"和"everyday"来预测一个单词,并且我们希望这个单词是coffee。

<img src="https://pic4.zhimg.com/50/v2-3e75211b3b675f17a232f29fae0982bc_hd.jpg" data-caption="" data-size="normal" data-rawwidth="1429" data-rawheight="736" class="origin_image zh-lightbox-thumb" width="1429" data-original="https://pic4.zhimg.com/v2-3e75211b3b675f17a232f29fae0982bc_r.jpg"><img src="https://pic4.zhimg.com/50/v2-abd3c7d6bc76c01266e8ddd32acfe31a_hd.jpg" data-caption="" data-size="normal" data-rawwidth="1514" data-rawheight="844" class="origin_image zh-lightbox-thumb" width="1514" data-original="https://pic4.zhimg.com/v2-abd3c7d6bc76c01266e8ddd32acfe31a_r.jpg"><img src="https://pic1.zhimg.com/50/v2-66655880a87789eaba5dd6f5c5033e94_hd.jpg" data-caption="" data-size="normal" data-rawwidth="1305" data-rawheight="755" class="origin_image zh-lightbox-thumb" width="1305" data-original="https://pic1.zhimg.com/v2-66655880a87789eaba5dd6f5c5033e94_r.jpg"><img src="https://pic2.zhimg.com/50/v2-5325f4a5d1fbacefd93ccb138b706a69_hd.jpg" data-caption="" data-size="normal" data-rawwidth="1304" data-rawheight="798" class="origin_image zh-lightbox-thumb" width="1304" data-original="https://pic2.zhimg.com/v2-5325f4a5d1fbacefd93ccb138b706a69_r.jpg"><img src="https://pic4.zhimg.com/50/v2-1713450fa2a0f37c8cbcce4ffef04baa_hd.jpg" data-caption="" data-size="normal" data-rawwidth="1319" data-rawheight="736" class="origin_image zh-lightbox-thumb" width="1319" data-original="https://pic4.zhimg.com/v2-1713450fa2a0f37c8cbcce4ffef04baa_r.jpg">

假设我们此时得到的概率分布已经达到了设定的迭代次数,那么现在我们训练出来的look up table应该为矩阵W。即,任何一个单词的one-hot表示乘以这个矩阵都将得到自己的word embedding。

转载于:https://www.cnblogs.com/mimandehuanxue/p/8981506.html

word2vec----CBOW相关推荐

  1. Pytorch:jieba分词、hanlp分词、词性标注、命名实体识别、one-hot、Word2vec(CBOW、skipgram)、Word Embedding词嵌入、fasttext

    日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 文本预处理及其作用: 文本语料在输送给模型前一般需要一系列的预 ...

  2. cbow word2vec 损失_Word2vec之CBOW

    一.Word2vec word2vec是Google与2013年开源推出的一个用于获取word vecter的工具包,利用神经网络为单词寻找一个连续向量看空间中的表示.word2vec是将单词转换为向 ...

  3. 学习笔记CB009:人工神经网络模型、手写数字识别、多层卷积网络、词向量、word2vec...

    人工神经网络,借鉴生物神经网络工作原理数学模型. 由n个输入特征得出与输入特征几乎相同的n个结果,训练隐藏层得到意想不到信息.信息检索领域,模型训练合理排序模型,输入特征,文档质量.文档点击历史.文档 ...

  4. word2vec损失函数的数学推导和近似训练以及doc2vec的实战掉包应用

    更新: 9/4/20 做了关于SG模型最后计算loss的一些补充.对doc2vec损失计算部分出现的错误进行了订正. 11/17/20 补充了部分近似训练的内容. 词义表示 在NLP中,最基础的问题就 ...

  5. 文本挖掘(part7)--Word2vec

    学习笔记,仅供参考,有错必纠 文章目录 文档信息的向量化 word2vec: CBOW(连续词袋) word2vec降低运算量的方式(分层softmax.负例采样) 分层softmax 负例采样 wo ...

  6. 【词向量】从Word2Vec到Bert,聊聊词向量的前世今生(一)

     机器学习算法与自然语言处理推荐  来源:https://zhuanlan.zhihu.com/p/58425003 作者:小川Ryan [机器学习算法与自然语言处理导读]BERT并不是凭空而来,如何 ...

  7. 深度之眼Paper带读笔记NLP.2:word2vec.baseline.1

    文章目录 前言 论文储备知识 语言模型 基于专家语法规则的语言模型 统计语言模型 统计语言模型中的平滑操作 基于马尔科夫假设 语言模型评价指标:困惑度(Perplexity) 论文背景知识 词的表示方 ...

  8. CS224n 2019 Winter 笔记(一):Word Embedding:Word2vec and Glove

    CS224n笔记:Word2Vec:CBOW and Skip-Gram 摘要 一.语言模型(Language Model) (一)一元模型(Unary Language Model) (二)二元模型 ...

  9. 2.文本预处理(分词,命名实体识别和词性标注,one-hot,word2vec,word embedding,文本数据分析,文本特征处理,文本数据增强)

    文章目录 1.1 认识文本预处理 文本预处理及其作用 文本预处理中包含的主要环节 文本处理的基本方法 文本张量表示方法 文本语料的数据分析 文本特征处理 数据增强方法 重要说明 1.2 文本处理的基本 ...

  10. NLP (二): word2vec

    目录 基于推理的方法和神经网络 基于计数的方法的问题 基于推理的方法的概要 基于推理 v.s. 基于计数 神经网络中单词的处理方法 简单的 word2vec CBOW (continuous bag- ...

最新文章

  1. AlphaGo Zero,一次成功的炒作而已?
  2. Tomcat SVN
  3. mybatis里的log适配器模式
  4. AlphaGo之父亲授深度强化学习十大法则
  5. word里双横线怎么打_美人计 | 精致打工人秀智,教你内双怎么化
  6. 中国庭院刮板市场趋势报告、技术动态创新及市场预测
  7. 审车按月还是日期_大额存单,应该选择按月付息还是到期一次性还本付息?
  8. 设置层级为2html,前端知识(Css)汇总2
  9. Blocks in Objective-C
  10. #include stdafx.h
  11. 【运维】安装Ghost镜像系统步骤
  12. java api接口签名验证失败_简单API接口签名验证
  13. 运维工程师主要工作是做什么?
  14. matlab获取地图边界,科学网—提取百度地图县域的矢量边界 - 张乐乐的博文
  15. js动态加载table,打印table里的内容以及解决打印后的问题
  16. JAVA EXE和zip版本_如何将最新的JRE / JDK作为zip文件而不是EXE或MSI安装程序? [关闭]...
  17. 在线文本替换工具 、支持正则表达式(博客园文章里添加Javascript或<script>语句)
  18. neuq oj 1034: C基础-求同存异 C++
  19. 学会使用debug模式调试代码
  20. MySQL 爱生活群开放加入喽

热门文章

  1. php floatval_php floatval()函数的用法详解
  2. 如何用python做一个时钟_Python使用turtle库制作一个时钟
  3. python 随机数_python项目实战:实现蒙特卡罗方法,求物体阴影面积
  4. python链接器编译器实现_一个链接器的实现「一」
  5. java主线程和子线程区别_主线程异常– Java
  6. 如何在C ++中使用String compare()?
  7. c运算符优先级_C运算符
  8. apple_Apple WWDC 2018主题总结
  9. android数据绑定_Android数据绑定高级概念
  10. elasticsearch的javaAPI之index