博文: 秒懂词向量Word2Vec的本质

什么是Word2Vec?

词性标注:是动词还是名词,样本(x,y)中,x是词语,y是它们的词性

f(x)->y

中的f(神经网络、SVM)只接受数值型输入,而NLP里的词语,必须转换为数值型形式

语言模型: 把 x 看做一个句子里的一个词语,y 是这个词语的上下文词语,那么这里的 f,便是 NLP 中经常出现的『语言模型』(language model),这个模型的目的,就是判断 (x,y) 这个样本,是否符合自然语言的法则,更通俗点说就是:词语x和词语y放在一起,是不是人话

而Word2Vec就是集结了上面两个特征,既要将词语向量化,又能很好的保证上下文信息。 这里的f则是上面两个的集合。 但是我们的结果不是为了得到它是什么词性,它们符不符合语法,而是得到这之间的中间产物——模型参数,并用这些来得到输入x的向量化表示!

Skip-gram 和 CBOW 模型

上面我们提到了语言模型

  • 如果是用一个词语作为输入,来预测它周围的上下文,那这个模型叫做『Skip-gram 模型』
  • 而如果是拿一个词语的上下文作为输入,来预测这个词语本身,则是 『CBOW 模型』

但是作为输入的词语该怎么表示呢? 肯定不是Word2Vec,而是one-hot encoder。

这个词向量的维度(与隐含层节点数一致)一般情况下要远远小于词语总数 V 的大小,所以 Word2vec 本质上是一种降维操作——把词语从 one-hot encoder 形式的表示降维到 Word2vec 形式的表示。

再具体的内容请看原博文,写的很细

知识图谱入门知识(五)【转】秒懂词向量Word2Vec的本质相关推荐

  1. 秒懂词向量Word2vec的本质

    [NLP] 秒懂词向量Word2vec的本质 穆文 4 个月前 转自我的公众号: 『数据挖掘机养成记』 1. 引子 大家好 我叫数据挖掘机 皇家布鲁斯特大学肄业 我喝最烈的果粒橙,钻最深的牛角尖 -- ...

  2. [NLP] 秒懂词向量Word2vec的本质+word2vec资源总结

    转自作者的公众号: 『数据挖掘机养成记』 1. 引子 大家好 我叫数据挖掘机 皇家布鲁斯特大学肄业 我喝最烈的果粒橙,钻最深的牛角尖 --执着如我 今天我要揭开Word2vec的神秘面纱 直窥其本质 ...

  3. 知识图谱入门——知识融合

    文章首发于博客du_ok's Notes,本文链接为知识图谱入门--知识融合 本文介绍了知识融合相关的技术和典型的知识融合工具. 知识融合相关概念 相关的术语: 知识融合 (Knowledge Fus ...

  4. 知识图谱入门知识(一)知识图谱应用以及常用方法概述

    学习内容 搜集各种博客,理解实体识别.关系分类.关系抽取.实体链指.知识推理等,并且总结各种分类中最常用的方法.思路. 由于自己刚刚接触知识图谱,对该领域的概念和方法的描述还不是很清楚,所以只是简单的 ...

  5. 知识图谱入门知识(二)事件抽取(EE)详细介绍

    学习内容 本文主要详细介绍事件抽取EE的概念: 装载自:李景鹏 啥是事件抽取(Event Extraction)? 同时这里关于事件抽取的介绍也可以作为补充: 分层网络用于事件参数抽取 事件抽取 = ...

  6. 知识图谱入门知识(三)词性标注

    学习内容 基本大多数的问题都可以转为词性标注问题! 这里只做记录,都是别人的回答! 常用的概念 什么是token tokenization就是通常所说的分词,分出的每一个词语我们把它称为token. ...

  7. 知识图谱入门 【九】- 知识问答

    知识图谱入门 [一]- 认识图谱技术 知识图谱入门 [二]- 知识表示与知识建模 知识图谱入门 [三]- 知识抽取 知识图谱入门 [四]- 知识挖掘 知识图谱入门 [五]- 知识存储 知识图谱入门 [ ...

  8. 知识图谱入门 【八】- 语义搜索

    知识图谱入门 [一]- 认识图谱技术 知识图谱入门 [二]- 知识表示与知识建模 知识图谱入门 [三]- 知识抽取 知识图谱入门 [四]- 知识挖掘 知识图谱入门 [五]- 知识存储 知识图谱入门 [ ...

  9. 知识图谱入门 【一】- 认识图谱技术

    知识图谱入门 [一]- 认识图谱技术 知识图谱入门 [二]- 知识表示与知识建模 知识图谱入门 [三]- 知识抽取 知识图谱入门 [四]- 知识挖掘 知识图谱入门 [五]- 知识存储 知识图谱入门 [ ...

最新文章

  1. java版电子商务spring cloud分布式微服务b2b2c社交电商-spring cloud gateway之filter篇
  2. sublime text 使用笔记
  3. 这台计算机怎么磁盘清理,电脑硬盘满了怎么清理(教你3招彻底清理内存,瞬间多出几十个G)...
  4. SpringCloud Openfeign
  5. MATLAB求图片两圆圆心,求助:如何求此图中两圆的圆心距?
  6. python树莓派串口通信实例_树莓派通过串口发送数据
  7. android+残留软件包名,关于使用pm hide伪卸载系统软件的一些包名
  8. kubernetes kubelet参数
  9. 利用java反射原理写了一个简单赋值和取值通用类【改】
  10. ArrayList转换类型为DataTable类型
  11. python怎么爬取新浪微博数据_新浪微博爬虫,用python爬取新浪微博数据
  12. 我从零开始学黑莓开发的过程
  13. PHP环境配置遇到的问题与解决
  14. Hold住通话有三种方式
  15. Xenu简单使用说明
  16. unity开发_Unity开发人员在Ludum Dare 30上大放异彩
  17. 20行Python代码爬取王者荣耀全英雄皮肤改进版
  18. 使用git拉取项目、创建分支、提交代码教程
  19. Javascript屏蔽右键的方法
  20. 潭州课堂25班:Ph201805201 django 项目 第三十六课 后台文章管理(课堂笔记)

热门文章

  1. Web前端学习笔记:Bootstrap
  2. 5 Django系列之通过list_display展示多对多与外键内容在admin-web界面下
  3. 克隆虚拟机 virtualbox 修改 uuid
  4. devexpress gridcontrol 内置导航栏,双击后才修改数据
  5. UVa 11636 Hello World!
  6. Asp.net中的时区
  7. RocksDB事务实现TransactionDB分析
  8. Koa框架——coderhub实战
  9. LeetCode 1660. 纠正二叉树(BFS)
  10. 天池 在线编程 到达终点