词向量与词意检测

  • 1.词嵌入
    • 1.1 局部信息与全局信息
    • 1.2 Glo Ve与W2V
  • 2.内部评价
    • 2.1 词类比
    • 2.2 相关性评价
  • 3.外部评价
  • 4.预训练与再次训练

1.词嵌入

1.1 局部信息与全局信息

上一篇打卡中,提到W2V是利用了上下文信息,来推测中心词,或者通过中心词,推测上下文。这种方法可以找出词之间的相似性,也可以捕捉到语言中的复杂模式,但却不能利用到词汇库中的全局信息,这导致其在如类比评价上表现较差。
全局上下文信息,使用共现矩阵表示,例如:

统计一个单词,出现在另一个词上下文的次数,构成了共现矩阵,而Glo Vec,就是基于该统计量进行加权。

1.2 Glo Ve与W2V

Glo Ve对W2V的loss进行了改进,加入了全局信息中共现矩阵信息,有更好的类比于度量性能。

W2V中使用Softmax计算最大概率,公式如下:

这里其实隐含了loss函数:

使用共现次数,对loss进行加权:

这里的Xij,是j词出现在i词上下文的次数。也可以理解为将同类项合并。
但一般计算Q,需要归一化,这样计算很费时,所以将其转化了求最小平方和的形式,这样归一化因子就可以丢弃。


由于P值很大时,loss会很难优化,因此转为对数。

另一方面,加权因子Xi不能保证是最优的。 相反,我们引入了一个更一般的加权函数,我们可以自由地依赖于上下文词:

2.内部评价

2.1 词类比

词类比就是男人相比于国王,就如同女人相比于王后这种关系。

这代表了一种词运算的关系。man-woman的余弦值,与king-queen余弦值相同。

运用类比评价,可以分析该词嵌入方法在词意及语法上的规律是否被很好的表示出来了。

2.2 相关性评价

相关性评价是检测词嵌入,词间关系衡量的准确程度,其与人类评价结果对比,计算两者相关性,进而衡量词嵌入的效果。

可以看到Glo ve表现最为出色。

3.外部评价

外部评价是将词嵌入结果,运用到实际任务的表现。
大多数NLP外部任务可以表示为分类任务。 例如,给定一个句子,我们可以将句子分类为的、消极的或中立的情绪。 类似地,在实体识别(NER),给定上下文和中心词,我们希望将中心词分类为许多类之一。 对于投入,“吉姆在2006年购买了300股Acme公司”,我们希望 分类产出“[吉姆]人在[2006]时间购买了[Acme公司]组织的300股股票。 “
形如如下任务:
其中x(i)是由某种词嵌入技术生成的d维词向量,y(i)是一个C维单热向量,它表示我们最终希望预测的标签(情绪,o 这些词,命名实体,买卖决定等。)

4.预训练与再次训练

将训练好的词,可以直接运用到模型中,此时词嵌入称为预训练过的,但也可以根据任务再次训练。
再次训练时,需要注意数据集需要尽量覆盖到所有词,否则只改变部分词向量位置,反而会造成词空间的错位,模型效果下降。

词向量与词意-Glo Ve相关推荐

  1. 自然语言处理入门学习笔记3:词向量

    词向量 为什么需要词向量 1.词向量可以大量的预料中拿到一些对知识表达的方式 2.无法直接对文本进行计算,文本是标记性语言,计算机对数字比较敏感,词向量吧文字转成了数值向量 词编码方式 从onehot ...

  2. 线性判别用于提取词向量_资源 | 你是合格的数据科学家吗?30道题测试你的NLP水平...

    原标题:资源 | 你是合格的数据科学家吗?30道题测试你的NLP水平 选自Analyticsvidhya 作者:Shivam Bansal 机器之心编译 参与:黄小天.李亚洲.Smith 近日,ana ...

  3. 【NLP模型笔记】Intro || Word2vec词向量模型

    INTRO 自然语言处理(Natural Language Processing),简称NLP.这个领域是通过统计学.数学模型.机器学习等相关技术研究人类语言的特征,对其进行数学的表示,并基于这种表示 ...

  4. 线性判别用于提取词向量_干货 :你是合格的数据科学家吗?30道题测试你的NLP水平...

    选自Analyticsvidhya作者:Shivam Bansal 转自:机器之心 微信公众号 本文由:机器之心 编译 参与:黄小天.李亚洲.Smith 近日,analyticsvidhya 上出现了 ...

  5. 线性判别用于提取词向量_你是合格的数据科学家吗?30道题测试你的NLP水平

    近日,analyticsvidhya 上出现了一篇题为<30 Questions to test a data scientist on Natural Language Processing ...

  6. gensim的word2vec如何得出词向量(python)

    首先需要具备gensim包,然后需要一个语料库用来训练,这里用到的是skip-gram或CBOW方法,具体细节可以去查查相关资料,这两种方法大致上就是把意思相近的词映射到词空间中相近的位置. 语料库t ...

  7. PyTorch在NLP任务中使用预训练词向量

    在使用pytorch或tensorflow等神经网络框架进行nlp任务的处理时,可以通过对应的Embedding层做词向量的处理,更多的时候,使用预训练好的词向量会带来更优的性能.下面分别介绍使用ge ...

  8. 清华 词向量库_word2vec 构建中文词向量

    词向量作为文本的基本结构--词的模型,以其优越的性能,受到自然语言处理领域研究人员的青睐.良好的词向量可以达到语义相近的词在词向量空间里聚集在一起,这对后续的文本分类,文本聚类等等操作提供了便利,本文 ...

  9. ELMo:最好用的词向量(Deep contextualized word representations)论文 pdf

    下载地址:https://u20150046.ctfile.com/fs/20150046-376633397 作者:Matthew E. Peters, Mark Neumann, Mohit Iy ...

  10. 一文总结词向量的计算、评估与优化

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:芙蕖,Datawhale优秀学习者,东北石油大学 为了处理语言,需 ...

最新文章

  1. 复杂JSON参数传递后台处理方式
  2. C#-datagridview隐藏行头
  3. 为博客园添加github跳转链接
  4. Push rejected: Push to origin/master was rejected错误解决方案
  5. uebs游戏_UEBS Ultimate Epic Battle
  6. 为什么你的应用程序需要崩溃
  7. mysql几种安装方法_mysql的三种安装方式(详细)
  8. PHP程序员五大兵器排行
  9. 理解Docker(1):Docker 安装和基础用法
  10. html怎么加圆圈,圆圈1怎么打 word怎么打一个圈里面加数字1
  11. Scrapy-2:东莞阳光政务平台
  12. c++缺省值 缺省参数
  13. Promise详解(resolve,reject,catch)
  14. 回顾2017展望2018
  15. java集合比较大小_arraylist 怎么比较元素大小?
  16. php创蓝253四要素认证_【PHP】创蓝253云通讯平台国际短信API接口demo
  17. Hololens远程视频通话与AR标注
  18. Spring基础:快速入门spring(1):基础概念
  19. 当人说君子动口不动手时怎么回怼_故事:君子动口不动手,神人动心不动口,有情有意事后再回报...
  20. 传统it项目管理与互联网项目管理的一些区别

热门文章

  1. Maya模型导入Unity3d快速烘焙光影【2020】
  2. 解决Page index must not be less than zero问题
  3. 2022蓝帽杯初赛部分wp
  4. Tiki靶机(CMS漏洞)
  5. p1530 Fractions to Decimals
  6. oracle rman delete backupset,RMAN Crosscheck后delete obsolete遇到RMAN-06091的解决
  7. Rabbit基础概念
  8. Python自动化测试框架我到底应该学哪一个?
  9. python画图配色_科研作图有哪些「赏心悦目」的绘图主题和配色方案?
  10. React制作页面在线截图功能