知识图谱入门知识(五)【转】秒懂词向量Word2Vec的本质
博文: 秒懂词向量Word2Vec的本质
什么是Word2Vec?
词性标注:是动词还是名词,样本(x,y)中,x是词语,y是它们的词性
f(x)->y
中的f(神经网络、SVM)只接受数值型输入,而NLP里的词语,必须转换为数值型形式
语言模型: 把 x 看做一个句子里的一个词语,y 是这个词语的上下文词语,那么这里的 f,便是 NLP 中经常出现的『语言模型』(language model),这个模型的目的,就是判断 (x,y) 这个样本,是否符合自然语言的法则,更通俗点说就是:词语x和词语y放在一起,是不是人话。
而Word2Vec就是集结了上面两个特征,既要将词语向量化,又能很好的保证上下文信息。 这里的f则是上面两个的集合。 但是我们的结果不是为了得到它是什么词性,它们符不符合语法,而是得到这之间的中间产物——模型参数,并用这些来得到输入x的向量化表示!
Skip-gram 和 CBOW 模型
上面我们提到了语言模型
- 如果是用一个词语作为输入,来预测它周围的上下文,那这个模型叫做『Skip-gram 模型』
- 而如果是拿一个词语的上下文作为输入,来预测这个词语本身,则是 『CBOW 模型』
但是作为输入的词语该怎么表示呢? 肯定不是Word2Vec,而是one-hot encoder。
这个词向量的维度(与隐含层节点数一致)一般情况下要远远小于词语总数 V 的大小,所以 Word2vec 本质上是一种降维操作——把词语从 one-hot encoder 形式的表示降维到 Word2vec 形式的表示。
再具体的内容请看原博文,写的很细
知识图谱入门知识(五)【转】秒懂词向量Word2Vec的本质相关推荐
- 秒懂词向量Word2vec的本质
[NLP] 秒懂词向量Word2vec的本质 穆文 4 个月前 转自我的公众号: 『数据挖掘机养成记』 1. 引子 大家好 我叫数据挖掘机 皇家布鲁斯特大学肄业 我喝最烈的果粒橙,钻最深的牛角尖 -- ...
- [NLP] 秒懂词向量Word2vec的本质+word2vec资源总结
转自作者的公众号: 『数据挖掘机养成记』 1. 引子 大家好 我叫数据挖掘机 皇家布鲁斯特大学肄业 我喝最烈的果粒橙,钻最深的牛角尖 --执着如我 今天我要揭开Word2vec的神秘面纱 直窥其本质 ...
- 知识图谱入门——知识融合
文章首发于博客du_ok's Notes,本文链接为知识图谱入门--知识融合 本文介绍了知识融合相关的技术和典型的知识融合工具. 知识融合相关概念 相关的术语: 知识融合 (Knowledge Fus ...
- 知识图谱入门知识(一)知识图谱应用以及常用方法概述
学习内容 搜集各种博客,理解实体识别.关系分类.关系抽取.实体链指.知识推理等,并且总结各种分类中最常用的方法.思路. 由于自己刚刚接触知识图谱,对该领域的概念和方法的描述还不是很清楚,所以只是简单的 ...
- 知识图谱入门知识(二)事件抽取(EE)详细介绍
学习内容 本文主要详细介绍事件抽取EE的概念: 装载自:李景鹏 啥是事件抽取(Event Extraction)? 同时这里关于事件抽取的介绍也可以作为补充: 分层网络用于事件参数抽取 事件抽取 = ...
- 知识图谱入门知识(三)词性标注
学习内容 基本大多数的问题都可以转为词性标注问题! 这里只做记录,都是别人的回答! 常用的概念 什么是token tokenization就是通常所说的分词,分出的每一个词语我们把它称为token. ...
- 知识图谱入门 【九】- 知识问答
知识图谱入门 [一]- 认识图谱技术 知识图谱入门 [二]- 知识表示与知识建模 知识图谱入门 [三]- 知识抽取 知识图谱入门 [四]- 知识挖掘 知识图谱入门 [五]- 知识存储 知识图谱入门 [ ...
- 知识图谱入门 【八】- 语义搜索
知识图谱入门 [一]- 认识图谱技术 知识图谱入门 [二]- 知识表示与知识建模 知识图谱入门 [三]- 知识抽取 知识图谱入门 [四]- 知识挖掘 知识图谱入门 [五]- 知识存储 知识图谱入门 [ ...
- 知识图谱入门 【一】- 认识图谱技术
知识图谱入门 [一]- 认识图谱技术 知识图谱入门 [二]- 知识表示与知识建模 知识图谱入门 [三]- 知识抽取 知识图谱入门 [四]- 知识挖掘 知识图谱入门 [五]- 知识存储 知识图谱入门 [ ...
最新文章
- java版电子商务spring cloud分布式微服务b2b2c社交电商-spring cloud gateway之filter篇
- sublime text 使用笔记
- 这台计算机怎么磁盘清理,电脑硬盘满了怎么清理(教你3招彻底清理内存,瞬间多出几十个G)...
- SpringCloud Openfeign
- MATLAB求图片两圆圆心,求助:如何求此图中两圆的圆心距?
- python树莓派串口通信实例_树莓派通过串口发送数据
- android+残留软件包名,关于使用pm hide伪卸载系统软件的一些包名
- kubernetes kubelet参数
- 利用java反射原理写了一个简单赋值和取值通用类【改】
- ArrayList转换类型为DataTable类型
- python怎么爬取新浪微博数据_新浪微博爬虫,用python爬取新浪微博数据
- 我从零开始学黑莓开发的过程
- PHP环境配置遇到的问题与解决
- Hold住通话有三种方式
- Xenu简单使用说明
- unity开发_Unity开发人员在Ludum Dare 30上大放异彩
- 20行Python代码爬取王者荣耀全英雄皮肤改进版
- 使用git拉取项目、创建分支、提交代码教程
- Javascript屏蔽右键的方法
- 潭州课堂25班:Ph201805201 django 项目 第三十六课 后台文章管理(课堂笔记)