自然语言处理从入门到应用——词向量的评价方法
分类目录:《自然语言处理从入门到应用》总目录
对于不同的学习方法得到的词向量,通常可以根据其对词义相关性或者类比推理性的表达能力进行评价,这种方式属于内部任务评价方法(Intrinsic Evaluation)。在实际任务中,则需要根据下游任务的性能指标判断,也称为外部任务评价方法(Extrinsic Evaluation)。本文首先介绍两种常用的内部任务评价方法,然后以情感分类任务为例,介绍如何将预训练词向量应用于下游任务。
词义相关性
对词义相关性的度量是词向量的重要性质之一。可以根据词向量对词义相关性的表达能力衡量词向量的好坏。利用词向量低维、稠密、连续的特性,可以方便地度量任意两个词之间的相关性。例如,给定词 w a w_a wa与 w b w_b wb,它们在词向量空间内的余弦相似度就可以作为其词义相关性的度量:
sim ( w a , w b ) = cos ( v w a , v w b ) = v w a × v w b ∣ ∣ v w a ∣ ∣ × ∣ ∣ v w b ∣ ∣ \text{sim}(w_a, w_b)=\cos(v_{w_a}, v_{w_b})=\frac{v_{w_a}\times v_{w_b}}{||v_{w_a}||\times ||v_{w_b}||} sim(wa,wb)=cos(vwa,vwb)=∣∣vwa∣∣×∣∣vwb∣∣vwa×vwb
基于该相关性度量,即可实现K近邻(K-Nearest Neighbors,KNN)查询。
类比性
词的类比性(Word Analogy)是对于词向量的另一种常用的内部任务评价方法。对词向量在向量空间内的分布进行分析可以发现,对于语法或者语义关系相同的两个词对 [ w a , w b ] [w_a, w_b] [wa,wb]与 [ w c , w d ] [w_c, w_d] [wc,wd],它们的词向量在一定程度上满足: v w a − v w b ≈ v w c − v w d v_{w_a} - v_{w_b}\approx v_{w_c} - v_{w_d} vwa−vwb≈vwc−vwd的几何性质。例如,在下图的示例中有以下类比关系:
v women − v men ≈ v queen − v king v queens − v queen ≈ v kings − v king \begin{aligned} v_{\text{women}} - v_{\text{men}}& \approx v_{\text{queen}} - v_{\text{king}}\\ v_{\text{queens}} - v_{\text{queen}}&\approx v_{\text{kings}} - v_{\text{king}} \end{aligned} vwomen−vmenvqueens−vqueen≈vqueen−vking≈vkings−vking
这两个例子分别从词义和词法两个角度展示了词向量的类比性。根据这一性质,可以进行词与词之间的关系推理,从而回答诸如“ w a w_a wa之于 w b w_b wb,相当于 w c w_c wc之于什么”的问题。对于下画线处的词,可以利用下式在词向量空间内进行搜索得到:
w d = arg min w ( cos ( v w , v w c + v w b − v w a ) ) w_d=\arg\min_w(\cos(v_w, v_{w_c} + v_{w_b} - v_{w_a})) wd=argwmin(cos(vw,vwc+vwb−vwa))
一般来说,词向量在以上评价方法中的表现与训练数据的来源及规模、词向量的维度等因素密切相关。在实际应用中,需要根据词向量在具体任务中的表现来选择。
参考文献:
[1] 车万翔, 崔一鸣, 郭江. 自然语言处理:基于预训练模型的方法[M]. 电子工业出版社, 2021.
[2] 邵浩, 刘一烽. 预训练语言模型[M]. 电子工业出版社, 2021.
[3] 何晗. 自然语言处理入门[M]. 人民邮电出版社, 2019
[4] Sudharsan Ravichandiran. BERT基础教程:Transformer大模型实战[M]. 人民邮电出版社, 2023
[5] 吴茂贵, 王红星. 深入浅出Embedding:原理解析与应用实战[M]. 机械工业出版社, 2021.
自然语言处理从入门到应用——词向量的评价方法相关推荐
- 深度学习与自然语言处理教程(2) - GloVe及词向量的训练与评估(NLP通关指南·完结)
作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://www.showmeai.tech/article-d ...
- 自然语言处理(5):词向量
文章目录 1 概述 2 词向量工具 2.1 模型训练 2.2 增量训练 2.3 求词语相似度 2.4 求与词语相近的多个词语 3 词向量训练算法 4 词向量训练代码实现 5 总结 转载来源:https ...
- NLP入门之——Word2Vec词向量Skip-Gram模型代码实现(Pytorch版)
代码地址:https://github.com/liangyming/NLP-Word2Vec.git 1. 什么是Word2Vec Word2vec是Google开源的将词表征为实数值向量的高效工具 ...
- GloVe 教程之实战入门+python gensim 词向量
前几天看论文,忽然看到了一个跟word2vec并列的词向量工具,这么厉害?还能跟word2vec相提并论? 果断需要试试. GloVe 它来自斯坦福的一篇论文,GloVe全称应该是 Global ...
- 学习笔记(01):自然语言处理Word2Vec视频学习教程-词向量
立即学习:https://edu.csdn.net/course/play/5226/94794?utm_source=blogtoedu 词向量要映射成有意义的,潜在含义的. 相同的词,需要离着比较 ...
- 深度学习与自然语言处理教程(1) - 词向量、SVD分解与Word2Vec(NLP通关指南·完结)
作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://www.showmeai.tech/article-d ...
- 自然语言处理之语言模型与词向量
自然语言处理之语言模型与词向量原理 语言模型 基于语法的语言模型 在研究机器如何"理解"自然语言之前,不妨先看看人们是怎么理解自己的语言的.根据语言学(Linguistics) ...
- 【NLP】CS224N课程笔记|词向量I: 简介, SVD和Word2Vec
NewBeeNLP原创出品 公众号专栏作者@Ryan 知乎 | 机器学习课程笔记 CS224N课程笔记系列,持续更新中 课程主页: http://web.stanford.edu/class/cs2 ...
- 斯坦福NLP名课带学详解 | CS224n 第2讲 - 词向量进阶(NLP通关指南·完结)
作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...
最新文章
- 程序员百万年薪进阶指南(一)
- Spring(1)_Bean初始化_逻辑图
- python 函数的*args,**kwargs
- Ubuntu18.10的chrome免输入密码
- 深度学习之卷积神经网络(13)DenseNet
- openwrt固定速率_固定速率与固定延迟– RxJava常见问题解答
- Python风格总结:数据类型
- 计算机数据传输和信号传输,职称计算机基础知识第1章:数据传输的编码和调制技术...
- 通过ln链接目录到目标
- 使用css、jquery实现一个云音乐播放器
- “我是技术总监,你干嘛总问我技术细节?”
- 计算机汉字录入试题,计算机等考试一级B上机试题——汉字录入题
- 破解水卡最省钱!超详细!--解决小白烦恼
- 计算机图形学 构成立方体数据结构的简单表结构,计算机图形学-沈工大作业管理ppt课件...
- 局部边缘保留滤波器LEP算法原理及matlab代码实现
- 【工业4.0】第四次工业革命潜在的市场变化,随之萌生的机遇,以及构建企业敏捷能力的实践方法。...
- 社会工程学与APT攻击之——社工防御方法
- vivos7和vivox50哪个好 vivos7和华为p40参数配置区别
- 一些计算两台主机之间进行socket通信的延迟的小程序
- 世界首款胸腔植入物在人体内“存活”;药明生基美国费城扩建基地投入运营 | 医药健闻...