分类目录:《自然语言处理从入门到应用》总目录


对于不同的学习方法得到的词向量,通常可以根据其对词义相关性或者类比推理性的表达能力进行评价,这种方式属于内部任务评价方法(Intrinsic Evaluation)。在实际任务中,则需要根据下游任务的性能指标判断,也称为外部任务评价方法(Extrinsic Evaluation)。本文首先介绍两种常用的内部任务评价方法,然后以情感分类任务为例,介绍如何将预训练词向量应用于下游任务。

词义相关性

对词义相关性的度量是词向量的重要性质之一。可以根据词向量对词义相关性的表达能力衡量词向量的好坏。利用词向量低维、稠密、连续的特性,可以方便地度量任意两个词之间的相关性。例如,给定词 w a w_a waw b w_b wb,它们在词向量空间内的余弦相似度就可以作为其词义相关性的度量:
sim ( w a , w b ) = cos ⁡ ( v w a , v w b ) = v w a × v w b ∣ ∣ v w a ∣ ∣ × ∣ ∣ v w b ∣ ∣ \text{sim}(w_a, w_b)=\cos(v_{w_a}, v_{w_b})=\frac{v_{w_a}\times v_{w_b}}{||v_{w_a}||\times ||v_{w_b}||} sim(wa,wb)=cos(vwa,vwb)=∣∣vwa∣∣×∣∣vwb∣∣vwa×vwb

基于该相关性度量,即可实现K近邻(K-Nearest Neighbors,KNN)查询。

类比性

词的类比性(Word Analogy)是对于词向量的另一种常用的内部任务评价方法。对词向量在向量空间内的分布进行分析可以发现,对于语法或者语义关系相同的两个词对 [ w a , w b ] [w_a, w_b] [wa,wb][ w c , w d ] [w_c, w_d] [wc,wd],它们的词向量在一定程度上满足: v w a − v w b ≈ v w c − v w d v_{w_a} - v_{w_b}\approx v_{w_c} - v_{w_d} vwavwbvwcvwd的几何性质。例如,在下图的示例中有以下类比关系:
v women − v men ≈ v queen − v king v queens − v queen ≈ v kings − v king \begin{aligned} v_{\text{women}} - v_{\text{men}}& \approx v_{\text{queen}} - v_{\text{king}}\\ v_{\text{queens}} - v_{\text{queen}}&\approx v_{\text{kings}} - v_{\text{king}} \end{aligned} vwomenvmenvqueensvqueenvqueenvkingvkingsvking

这两个例子分别从词义和词法两个角度展示了词向量的类比性。根据这一性质,可以进行词与词之间的关系推理,从而回答诸如“ w a w_a wa之于 w b w_b wb,相当于 w c w_c wc之于什么”的问题。对于下画线处的词,可以利用下式在词向量空间内进行搜索得到:
w d = arg ⁡ min ⁡ w ( cos ⁡ ( v w , v w c + v w b − v w a ) ) w_d=\arg\min_w(\cos(v_w, v_{w_c} + v_{w_b} - v_{w_a})) wd=argwmin(cos(vw,vwc+vwbvwa))

一般来说,词向量在以上评价方法中的表现与训练数据的来源及规模、词向量的维度等因素密切相关。在实际应用中,需要根据词向量在具体任务中的表现来选择。

参考文献:
[1] 车万翔, 崔一鸣, 郭江. 自然语言处理:基于预训练模型的方法[M]. 电子工业出版社, 2021.
[2] 邵浩, 刘一烽. 预训练语言模型[M]. 电子工业出版社, 2021.
[3] 何晗. 自然语言处理入门[M]. 人民邮电出版社, 2019
[4] Sudharsan Ravichandiran. BERT基础教程:Transformer大模型实战[M]. 人民邮电出版社, 2023
[5] 吴茂贵, 王红星. 深入浅出Embedding:原理解析与应用实战[M]. 机械工业出版社, 2021.

自然语言处理从入门到应用——词向量的评价方法相关推荐

  1. 深度学习与自然语言处理教程(2) - GloVe及词向量的训练与评估(NLP通关指南·完结)

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://www.showmeai.tech/article-d ...

  2. 自然语言处理(5):词向量

    文章目录 1 概述 2 词向量工具 2.1 模型训练 2.2 增量训练 2.3 求词语相似度 2.4 求与词语相近的多个词语 3 词向量训练算法 4 词向量训练代码实现 5 总结 转载来源:https ...

  3. NLP入门之——Word2Vec词向量Skip-Gram模型代码实现(Pytorch版)

    代码地址:https://github.com/liangyming/NLP-Word2Vec.git 1. 什么是Word2Vec Word2vec是Google开源的将词表征为实数值向量的高效工具 ...

  4. GloVe 教程之实战入门+python gensim 词向量

    前几天看论文,忽然看到了一个跟word2vec并列的词向量工具,这么厉害?还能跟word2vec相提并论? 果断需要试试. GloVe  它来自斯坦福的一篇论文,GloVe全称应该是  Global  ...

  5. 学习笔记(01):自然语言处理Word2Vec视频学习教程-词向量

    立即学习:https://edu.csdn.net/course/play/5226/94794?utm_source=blogtoedu 词向量要映射成有意义的,潜在含义的. 相同的词,需要离着比较 ...

  6. 深度学习与自然语言处理教程(1) - 词向量、SVD分解与Word2Vec(NLP通关指南·完结)

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://www.showmeai.tech/article-d ...

  7. 自然语言处理之语言模型与词向量

    自然语言处理之语言模型与词向量原理 语言模型 基于语法的语言模型   在研究机器如何"理解"自然语言之前,不妨先看看人们是怎么理解自己的语言的.根据语言学(Linguistics) ...

  8. 【NLP】CS224N课程笔记|词向量I: 简介, SVD和Word2Vec

    NewBeeNLP原创出品 公众号专栏作者@Ryan 知乎 | 机器学习课程笔记 CS224N课程笔记系列,持续更新中 课程主页:  http://web.stanford.edu/class/cs2 ...

  9. 斯坦福NLP名课带学详解 | CS224n 第2讲 - 词向量进阶(NLP通关指南·完结)

    作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...

最新文章

  1. 程序员百万年薪进阶指南(一)
  2. Spring(1)_Bean初始化_逻辑图
  3. python 函数的*args,**kwargs
  4. Ubuntu18.10的chrome免输入密码
  5. 深度学习之卷积神经网络(13)DenseNet
  6. openwrt固定速率_固定速率与固定延迟– RxJava常见问题解答
  7. Python风格总结:数据类型
  8. 计算机数据传输和信号传输,职称计算机基础知识第1章:数据传输的编码和调制技术...
  9. 通过ln链接目录到目标
  10. 使用css、jquery实现一个云音乐播放器
  11. “我是技术总监,你干嘛总问我技术细节?”
  12. 计算机汉字录入试题,计算机等考试一级B上机试题——汉字录入题
  13. 破解水卡最省钱!超详细!--解决小白烦恼
  14. 计算机图形学 构成立方体数据结构的简单表结构,计算机图形学-沈工大作业管理ppt课件...
  15. 局部边缘保留滤波器LEP算法原理及matlab代码实现
  16. 【工业4.0】第四次工业革命潜在的市场变化,随之萌生的机遇,以及构建企业敏捷能力的实践方法。...
  17. 社会工程学与APT攻击之——社工防御方法
  18. vivos7和vivox50哪个好 vivos7和华为p40参数配置区别
  19. 一些计算两台主机之间进行socket通信的延迟的小程序
  20. 世界首款胸腔植入物在人体内“存活”;药明生基美国费城扩建基地投入运营 | 医药健闻...

热门文章

  1. 基本不等式 学习笔记
  2. 睡眠多少分钟一个循环_什么是正常的睡眠?
  3. 和辰发力SAAS:云计算产业终极驱动力
  4. Django之模板(Template)
  5. 全局最小割(Stoer-Wagner)
  6. 个人工具开发【卡片式记忆面试题开发】v.1.0.3
  7. 《趣学算法(第2版)》读书笔记 Part 1 :如何高效学习算法
  8. 解决XP下使用雅黑字体韩文无法显示的问题
  9. 女生学机械好还是计算机好,女生学机械制造及其自动化好吗
  10. Thunderbird中默认字体及签名的设置