word2vec应用场景_介绍Word2Vec和Glove这两种最流行的词嵌入方法背后的直觉
NLP
的首要问题就是寻求恰当的文本表示方法。
因为,
良好的文本表示形式,
是后续进一步处理的基础。近年来,词嵌入方法越来越流行,在各种各样的
NLP
任务中
得到了广泛的应用。简单而言,词嵌入是通过无监督方式学习单词的向量表示。本文将首
先回顾用向量表示文本的早期模型,并通过分析其缺陷揭示词嵌入提出的动机,
然后介绍
Word2Vec
和
Glove
这两种最流行的词嵌入方法背后的直觉。
向量空间模型
用向量来表示文本这一想法由来已久。早在
1975
年,
Salton
等就提出用向量空间模型来
表示文本,以更好地索引、搜索文档。
由于向量空间模型最初的应用场景是索引、搜索,因此更关注词和权重。由词的权重组成
向量,并使用这一向量表示整篇文档。
具体而言,假设文档由
n
个单词组成,
那么这篇文档就可以表示为由每个单词的权重组成
的
n
维向量(长度为
n
的数组)
,
[w1, w2, ..., wn]
。当然,为了降低维度,事先会移除一些
无关紧要的词(例如
the
、
is
)
。在实践中,使用一份停止词(
stop words
)列表移除常见的
无关紧要的单词。
权重的计算有很多方法,最常用的是基于词频的方法。具体而言,单词的权重由三个因素
决定:
词频(
Term Frequency
,
TF
)
。词频的计算公式为
TF = t / m
,其中,
t
为单词在文档出现的
次数,
m
为文档的长度(总词数)
。例如,假设文档由
1000
个单词组成,其中某个单词总
共出现了
3
次,那么这个单词的词频就等于
3/1000.
逆向文档频率
(
Inverse Document Frequency
,
IDF
)
。
IDF
衡量单词提供的信息量,换句话
说,某个单词是否在所有文档中都很常见
/
罕见。这背后的直觉很简单。假设
100
篇文档
中,有
80
篇都包含“手机”这个单词,而只有
5
篇文档包含“足球”这个单词。那么,
对某篇特定文档而言,如果它同时包含“足球”和“手机”这两个单词,这篇文档更可能
word2vec应用场景_介绍Word2Vec和Glove这两种最流行的词嵌入方法背后的直觉相关推荐
- mysql 时间查询_两种常用MySql查询时间段的方法
MySql查询时间段的方法很多,下面就为您介绍几种最常用的MySql查询时间段方法,如果您在MySql查询时间段方面遇到过问题,不妨一看. MySql的时间字段有date.time.datetime. ...
- redis提高查询速度_面试小点-MySQL 的两种索引方法如何提高查询速度
MySQL索引的建立对于MySQL的高效运行是很重要的,索引可以大大提高MySQL的检索速度. 索引方法 Mysql的索引方法有两种,BTERR和HASH. 散列表(Hash Table)和B+Tre ...
- mysql索引级别快慢_面试小点-MySQL 的两种索引方法如何提高查询速度
MySQL 索引的建立对于 MySQL 的高效运行是很重要的,索引可以大大提高 MySQL 的检索速度. 索引方法 Mysql 的索引方法有两种,BTERR 和 HASH. 散列表(Hash Tabl ...
- win10录屏_一分钟教你学会两种电脑录屏方法,以后别再说不知道了
Win10系统是目前大家常用的电脑系统. 不过,有一些人在使用Win10电脑的过程中经常会需要用到录屏功能. 比如:你是一个主播,需要介绍自己的上新的产品:或者你是个视频UP主,需要录制一些影视剧情的 ...
- 简单介绍MySQL开启事务的两种方式
本篇文章给大家分享MySQL 是如何开启一个事务的,原文通过两种方式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧 方式 1 START TRANSACTION 或 ...
- 介绍两种Revit绘制斜墙的方法及快速【梁随斜板】
在revit系统墙中,我们只能接触到垂直于地面的墙,下面介绍两种绘制斜墙的方法及快速[梁随斜板]. 一.两种绘制斜墙的方法 创建斜墙之前,为了方便比较和做方法的整理,可在任意楼层绘制一面系统墙,下面介 ...
- graphpad prism怎么添加图例_如何用Graphpad Prism绘制两种堆叠图?
打开软件后,通过双击窗口灰色区域或点Prism(棱镜)的小三角,新建工程文件.在弹出的向导窗口选择表格类型为Grouped,如下图. 将数据复制粘贴到Prism的表格中,接下来需要对数据矩阵做转置,点 ...
- python一个函数调用另一个函数中的变量_在Python 中同一个类两个函数间变量的调用方法...
在Python 中同一个类两个函数间变量的调用方法 更新时间:2019年01月31日 15:44:54 作者:wxy_summer 今天小编就为大家分享一篇在Python 中同一个类两个函数间变量的调 ...
- vue+vite项目当中:介绍一种生成助记词新方法,兼容以太坊
在上一篇文章 当中我介绍了使用bip39生成助记词,在vue3不同的框架vite.vue-cli当中引入配置的方法.虽然可以生成助记词但是,需要进行大量的配置,尤其是在vite+ES6+vue3项目当 ...
最新文章
- 有关java的读书软件吗_我手机没JAVA,能用什么读书软件、
- css3.0动画,CSS3.0实现霓虹灯按钮动画特效的示例代码
- android 程序闪退 log,写了一个android小程序,测试的时候闪退,然鹅log并没有报错...
- 剑指offer java 博客_Java--剑指offer(10)
- python英文字典小程序_python 字典所有操作
- 浏览器记住密码的自动填充Input问题完美解决方案
- 奥特曼传奇英雄存档丢了怎么找回_热血传奇:道士最帅武器—玄天
- 如何用notepad写php,notepad新手怎么使用
- md5 php 加密后乱码_PHP md5函数 的16位字符乱码问题解决-阿里云开发者社区
- 上一次系统的关闭是意外的_教你如何一键极速重装系统
- 在JavaScript中实现命名空间
- postfix和dovecot架设邮件服务器的一些记录1
- c语言包含数学库函数的头文件为,Cmath——C语言数学函数库
- 木讷的程序员需要知道的事情 (三)
- 关系型数据库设计之从E-R图绘制到数据库表设计
- vue-pdf打印出现方字块乱码问题
- Python OpenCV 图片滑块验证码自动识别方案分析与自动化识别方案实现 图片相似度对比 OpenCV如何找到图片中的正方形并进行标记?
- 华为 、锐捷、新华三、睿易网络设备怎么选
- 两化融合是从工业大国向工业强国转变必由之路
- Matlab学习手记——非线性方程组求解:牛顿下山法
热门文章
- 关于显示和隐藏DIV标签
- SimpleITK使用深度学习识别肺癌CT DICOM数据集
- html打开自动点击,如何把一段JS点击触发改为页面打开后就自动触发?
- 华为手机鸿蒙系统怎么样_华为自研操作系统“鸿蒙”已用于华为手机
- python zip函数转制_Python zip函数及用法
- 安卓手机备份_安卓手机数据备份与恢复方法汇总和操作详解
- 设置MySQL排序方式_设置MySQL设置字符集和排序方式
- 制作 mysql的rpm文件_自制mysql.rpm安装包
- mysql vs2008,vs2008 使用mysql
- Outlook2016未读邮件怎么设置字体颜色