词语语义的相关关系和相似关系量化

语义相关关系和相似关系

自然语言处理中,词语的语义关系包括有相似关系和相关关系,语义相似关系例如汽油和柴油之间的关系,语义相关关系例如鼠标和键盘之间的关系。国内博客基本找不到关于这一类关系挖掘的研究,今天抽空写点记录一下。

word embedding的缺点

word embedding是指将词语映射到一个向量空间。在自然语言处理领域这方面的研究由来已久,有人工设计特征的方法(ESA,TSA),也有基于语料库的无监督方法(A Neural Probabilistic Language Model, Yoshua Bengio et al)。人工设计特征的方法过于麻烦,而无监督方法计算复杂程度又过高不够实用,一直到2013年Mikolov等人提出了一个实用型工具word2vec,基于语料库的无监督方法开始流行起来。

但是,现如今的基于语料库的无监督word embedding方法,基本都是基于一个假设,即拥有相似上下文的词语拥有相似的语义,这并不是一个严谨的假设。例如,在word2vec的训练结果中,词语"好"和词语"坏"拥有很比较接近的词向量,但是这两个词语的语义其实并不接近,问题在于好和坏的上下文语境总体上来说比较相似从而导致模型训练出现偏差。事实上,两个词语拥有相似的上下文并不等价于它们拥有相似的语义,至多等价于拥有相似的语法结构。

挖掘相关关系和相似关系

我们会发现,从语料库的角度来说,语义相关关系意味着两个词一起出现的概率,而这正是符合基于语料库的embedding方法的假设,即拥有相似的上下文。故而基于语料库的embedding方法训练出来的词向量是带有语义相关关系的。

相似关系指两个词的语义接近,这种关系在语料库中没有体现出来,故而可以考虑在训练的时候引入一些语义相似关系,有助于模型去生成带有这一类关系的词向量。

这里,我们考虑设计一个能训练出词语相关关系或相似关系的word embedding模型。根据上面的分析,我们需要一个带有词语相关关系的词典和一个带有语义相似关系的词典,方便我们在训练词向量的时候对模型的更新方向进行引导。

实践

词语相关关系词典可以从FreeAssociation项目中提取。词语语义相似关系词典可以从电子词典MyThes中提取。使用skip gram模型设计项目,分别用相关关系词典和相似关系词典对模型进行引导,最终分别得到带有语义相关关系和相似关系的两套词向量。项目代码放在这里,欢迎大家一起交流学习。

引用文献

[1]  Specializing Word Embeddings for Similarity or Relatedness

词语语义的相关关系和相似关系量化相关推荐

  1. 直播预告 | 长文本知识抽取:基于语义分割的文档级三元组关系抽取

    「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...

  2. java线程知识梳理_Java多线程——多线程相关知识的逻辑关系梳理

    1 学习多线程知识的根本目标 多线程知识的根本目标是:设计稳健的并发程序. 当然,本文无法回答这个实践性很强的问题(这与具体的业务相关,涉及到具体的策略),本文主要阐述相关知识之间的关系,希望初学者不 ...

  3. 【贪玩巴斯】Unity初学圣经Part2-C#基础——Day 01:C#基础之——命名空间、类、方法、变量的声明赋值和相关知识以及.NETC#关系讲解 2022年3月28日

    C#基础之--命名空间.类.方法.变量的声明赋值和相关知识以及.NETC#关系讲解 对应视频4-1至4-7 1.引入命名空间: 2.引入类.方法 3.变量的声明赋值 4.综合小练习 5. .NET的介 ...

  4. 论文阅读课3-GraphRel: Modeling Text as Relational Graphs for(实体关系联合抽取,重叠关系,关系之间的关系,自动提取特征)

    文章目录 abstract 1.Introduction 2.相关工作 3.回顾GCN 4.方法 4.1第一阶段 4.1.1 Bi-LSTM 4.1.2 Bi_GCN 4.1.3 实体关系抽取 4.2 ...

  5. 笔记 ~ 第二章 - 2.2 关系操作、关系完整性、关系代数、关系演算

    目录 1. 关系操作 (1)基本关系操作 ① 常用的关系操作 ② 关系操作的特点 (2)关系代数语言 ① 关系代数语言 ② 关系演算语言 ③ 具有关系代数和关系演算双重特点的语言 2. 关系的完整性 ...

  6. 关系型数据库(一)---关系数据模型与关系

    文章目录 前言 一.数据模型 1.什么是数据模型 2.数据模型的基本要素 (1)数据结构 (2)数据操作 (3)数据的约束条件 二.关系数据模型 1.关系数据模型的基本概念 (1)关系实例 (2)关系 ...

  7. 词语语义相似度计算简介

    0. 动机 武林高手经常从山川之间顿悟,并由山川之形变化出上乘武艺.风云之间的飘渺互动,实则也为实打实的科学.工程实践提供了指引.风是客观存在的,而只有籍由云,我们才能观察到它.在技术领域的日常工作中 ...

  8. 自然语言系列学习之表示学习与知识获取(七)利用关系路径进行关系抽取

    接下来介绍另外一个方向是如何更好的利用知识图库里关系路径的信息进行关系抽取. 有一个非常直观的例子介绍关系路径的好处,如电影阿甘正传(上图),我们如果想要知道阿甘正传的语言是什么,可以通它的电影导演是 ...

  9. 【数据库系统】关系模型、关系、元组、属性、关系实例

    文章目录 关系模型 关系 元组 属性 关系实例 关系模型 要了解关系模型,先要了解数据模型. 数据模型是一个描述数据.数据联系.数据语义以及一致性约束的概念工具的集合,提供了一种描述物理层.逻辑层和视 ...

最新文章

  1. LeetCode实战:回文数
  2. Linux grep不包含某些字符串的命令
  3. python import request 不报错_爬虫学习路径整理及安装环境遇到的坑
  4. ckfinder 图片预览 有的显示有的不显示_Python学习之图片显示
  5. BZOJ3040:最短路——题解
  6. 设计精美Power Bi报告的诀窍以及让人眼前一亮的精美Power Bi图表
  7. slect,poll,epoll区别
  8. PTA: 6-4建立学生信息链表(20分)
  9. 在部署服务器端的时候postgresql调试和远程连接操作需要考虑好远程连接问题。
  10. python 画图十大工具_Python画图工具matplotlib的使用(图形并茂)
  11. Android 程序随开机自动运行
  12. JAVA_OPTS(JVM相关运行参数的变量)设置
  13. Highcharts - Bar Chart Column Chart
  14. 禁锢女性科技界地位?《花花公子》的裸体照片一直是测试科技的试金石
  15. zynq使用lwip远程更新flash
  16. 技术经理成长复盘-发现团队的瓶颈
  17. Java简易转码工具(一个字符串编码是GBK的文本文件,内容转成UTF-8编码)
  18. 嵌入式STM32—第一天GPIO实现led呼吸灯
  19. 2021年中国非金属3D打印市场趋势报告、技术动态创新及2027年市场预测
  20. 97-ICMP 协议(端口不可达)

热门文章

  1. 在mtk移植个linux内核,移植 Linux Kernel 造成無法開機之解決方案以及除錯工具
  2. 最先提出计算机程序存储原理概念的是( ),计算机考试选择题
  3. H3C AC:无线探针配置
  4. mysql数据库实验任务二_MySQL数据库实验:任务二 表数据的插入、修改及删除
  5. 各大短信平台接入方法
  6. 普通话测试软件分数准确吗,普通话考试容易过吗?
  7. MATLAB面向对象_及_AppDesigner使用
  8. Android调用系统相机拍照
  9. UICC 之 USIM 详解全系列——USIM Demo详解
  10. 不同坐标系下角速度_轨道、重力场与坐标系的混乱关系