NLP

的首要问题就是寻求恰当的文本表示方法。

因为,

良好的文本表示形式,

是后续进一步处理的基础。近年来,词嵌入方法越来越流行,在各种各样的

NLP

任务中

得到了广泛的应用。简单而言,词嵌入是通过无监督方式学习单词的向量表示。本文将首

先回顾用向量表示文本的早期模型,并通过分析其缺陷揭示词嵌入提出的动机,

然后介绍

Word2Vec

Glove

这两种最流行的词嵌入方法背后的直觉。

向量空间模型

用向量来表示文本这一想法由来已久。早在

1975

年,

Salton

等就提出用向量空间模型来

表示文本,以更好地索引、搜索文档。

由于向量空间模型最初的应用场景是索引、搜索,因此更关注词和权重。由词的权重组成

向量,并使用这一向量表示整篇文档。

具体而言,假设文档由

n

个单词组成,

那么这篇文档就可以表示为由每个单词的权重组成

n

维向量(长度为

n

的数组)

[w1, w2, ..., wn]

。当然,为了降低维度,事先会移除一些

无关紧要的词(例如

the

is

)

。在实践中,使用一份停止词(

stop words

)列表移除常见的

无关紧要的单词。

权重的计算有很多方法,最常用的是基于词频的方法。具体而言,单词的权重由三个因素

决定:

词频(

Term Frequency

TF

)

。词频的计算公式为

TF = t / m

,其中,

t

为单词在文档出现的

次数,

m

为文档的长度(总词数)

。例如,假设文档由

1000

个单词组成,其中某个单词总

共出现了

3

次,那么这个单词的词频就等于

3/1000.

逆向文档频率

(

Inverse Document Frequency

IDF

)

IDF

衡量单词提供的信息量,换句话

说,某个单词是否在所有文档中都很常见

/

罕见。这背后的直觉很简单。假设

100

篇文档

中,有

80

篇都包含“手机”这个单词,而只有

5

篇文档包含“足球”这个单词。那么,

对某篇特定文档而言,如果它同时包含“足球”和“手机”这两个单词,这篇文档更可能

word2vec应用场景_介绍Word2Vec和Glove这两种最流行的词嵌入方法背后的直觉相关推荐

  1. mysql 时间查询_两种常用MySql查询时间段的方法

    MySql查询时间段的方法很多,下面就为您介绍几种最常用的MySql查询时间段方法,如果您在MySql查询时间段方面遇到过问题,不妨一看. MySql的时间字段有date.time.datetime. ...

  2. redis提高查询速度_面试小点-MySQL 的两种索引方法如何提高查询速度

    MySQL索引的建立对于MySQL的高效运行是很重要的,索引可以大大提高MySQL的检索速度. 索引方法 Mysql的索引方法有两种,BTERR和HASH. 散列表(Hash Table)和B+Tre ...

  3. mysql索引级别快慢_面试小点-MySQL 的两种索引方法如何提高查询速度

    MySQL 索引的建立对于 MySQL 的高效运行是很重要的,索引可以大大提高 MySQL 的检索速度. 索引方法 Mysql 的索引方法有两种,BTERR 和 HASH. 散列表(Hash Tabl ...

  4. win10录屏_一分钟教你学会两种电脑录屏方法,以后别再说不知道了

    Win10系统是目前大家常用的电脑系统. 不过,有一些人在使用Win10电脑的过程中经常会需要用到录屏功能. 比如:你是一个主播,需要介绍自己的上新的产品:或者你是个视频UP主,需要录制一些影视剧情的 ...

  5. 简单介绍MySQL开启事务的两种方式

    本篇文章给大家分享MySQL 是如何开启一个事务的,原文通过两种方式给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友参考下吧 方式 1 START TRANSACTION 或 ...

  6. 介绍两种Revit绘制斜墙的方法及快速【梁随斜板】

    在revit系统墙中,我们只能接触到垂直于地面的墙,下面介绍两种绘制斜墙的方法及快速[梁随斜板]. 一.两种绘制斜墙的方法 创建斜墙之前,为了方便比较和做方法的整理,可在任意楼层绘制一面系统墙,下面介 ...

  7. graphpad prism怎么添加图例_如何用Graphpad Prism绘制两种堆叠图?

    打开软件后,通过双击窗口灰色区域或点Prism(棱镜)的小三角,新建工程文件.在弹出的向导窗口选择表格类型为Grouped,如下图. 将数据复制粘贴到Prism的表格中,接下来需要对数据矩阵做转置,点 ...

  8. python一个函数调用另一个函数中的变量_在Python 中同一个类两个函数间变量的调用方法...

    在Python 中同一个类两个函数间变量的调用方法 更新时间:2019年01月31日 15:44:54 作者:wxy_summer 今天小编就为大家分享一篇在Python 中同一个类两个函数间变量的调 ...

  9. vue+vite项目当中:介绍一种生成助记词新方法,兼容以太坊

    在上一篇文章 当中我介绍了使用bip39生成助记词,在vue3不同的框架vite.vue-cli当中引入配置的方法.虽然可以生成助记词但是,需要进行大量的配置,尤其是在vite+ES6+vue3项目当 ...

最新文章

  1. 有关java的读书软件吗_我手机没JAVA,能用什么读书软件、
  2. css3.0动画,CSS3.0实现霓虹灯按钮动画特效的示例代码
  3. android 程序闪退 log,写了一个android小程序,测试的时候闪退,然鹅log并没有报错...
  4. 剑指offer java 博客_Java--剑指offer(10)
  5. python英文字典小程序_python 字典所有操作
  6. 浏览器记住密码的自动填充Input问题完美解决方案
  7. 奥特曼传奇英雄存档丢了怎么找回_热血传奇:道士最帅武器—玄天
  8. 如何用notepad写php,notepad新手怎么使用
  9. md5 php 加密后乱码_PHP md5函数 的16位字符乱码问题解决-阿里云开发者社区
  10. 上一次系统的关闭是意外的_教你如何一键极速重装系统
  11. 在JavaScript中实现命名空间
  12. postfix和dovecot架设邮件服务器的一些记录1
  13. c语言包含数学库函数的头文件为,Cmath——C语言数学函数库
  14. 木讷的程序员需要知道的事情 (三)
  15. 关系型数据库设计之从E-R图绘制到数据库表设计
  16. vue-pdf打印出现方字块乱码问题
  17. Python OpenCV 图片滑块验证码自动识别方案分析与自动化识别方案实现 图片相似度对比 OpenCV如何找到图片中的正方形并进行标记?
  18. 华为 、锐捷、新华三、睿易网络设备怎么选
  19. 两化融合是从工业大国向工业强国转变必由之路
  20. Matlab学习手记——非线性方程组求解:牛顿下山法

热门文章

  1. 关于显示和隐藏DIV标签
  2. SimpleITK使用深度学习识别肺癌CT DICOM数据集
  3. html打开自动点击,如何把一段JS点击触发改为页面打开后就自动触发?
  4. 华为手机鸿蒙系统怎么样_华为自研操作系统“鸿蒙”已用于华为手机
  5. python zip函数转制_Python zip函数及用法
  6. 安卓手机备份_安卓手机数据备份与恢复方法汇总和操作详解
  7. 设置MySQL排序方式_设置MySQL设置字符集和排序方式
  8. 制作 mysql的rpm文件_自制mysql.rpm安装包
  9. mysql vs2008,vs2008 使用mysql
  10. Outlook2016未读邮件怎么设置字体颜色