自然语言处理总复习(五)—— 词义消歧

  • 一、相关概念与预备知识
    • (一)词义消歧
      • 1. 定义
      • 2. 词义消歧需要解决的三个问题
      • 3. 应用
    • (二)预备知识
      • 1. 有监督学习和无监督学习
      • 2. 伪词
      • 3. 算法效能评估 —— 上界和下界
  • 二、有监督的消歧方法
    • (一)基于贝叶斯分类的词义消歧
      • 1. 概念介绍及准备工作
      • 2. 计算公式推导
      • 3. 词义排歧算法(Disambiguation)
    • (二)基于互信息的词义消歧
      • 1. 核心思想
      • 2. flip-flop算法
        • (1)算法描述
        • (2)算法应用举例
    • (一&二)贝叶斯方法和互信息方法的比较
    • (三)基于词典的词义消歧
      • 1. 核心原理
      • 2. 算法描述
      • 3. 算法伪代码
      • 4. 算法示例
      • 5. 算法总结
    • (四)基于义类词典的消歧
      • 1. 相关概念
      • 2. 方法过程步骤
    • (五)基于第二语料库翻译的消歧
      • 1. 相关概念
      • 2. 举例
  • 三、有监督的消歧方法总结
  • 四、无监督的消歧方法
    • (一)EM算法(Expectation-Maximization)
      • 1. 概念
      • 2. 算法流程

一、相关概念与预备知识

(一)词义消歧

1. 定义

(Word sense disambiguation, WSD)
确定一个歧义词的哪一种语义在一个特殊的使用环境中被调用。

2. 词义消歧需要解决的三个问题

3. 应用

(二)预备知识

1. 有监督学习和无监督学习

2. 伪词

3. 算法效能评估 —— 上界和下界

二、有监督的消歧方法

(一)基于贝叶斯分类的词义消歧

1. 概念介绍及准备工作

2. 计算公式推导


为了防止取值在 (0, 1) 范围内的数连乘趋近于0,加入log函数进行平滑:

3. 词义排歧算法(Disambiguation)

for all sense s_i of w do:score(s_i) = log(P(s_i))for all words w_j in the context of w do:score(s_i) += log(P(w_j | s_i))end
end
choose s' = arg(s_i) max score(s_i)

chooses′=arg⁡max⁡siscore(si)choose \quad s' =\mathop{\arg\max}\limits_{s_i} score(s_i) chooses′=si​argmax​score(si​)
计算举例

(二)基于互信息的词义消歧

1. 核心思想

2. flip-flop算法

(1)算法描述

(2)算法应用举例


(一&二)贝叶斯方法和互信息方法的比较

(三)基于词典的词义消歧

1. 核心原理

上下文词汇的语义范畴 <—互相决定影响—> 上下文的语义范畴
词典中词条本身的定义就可以作为判断其语义的一个很好的依据条件

2. 算法描述

3. 算法伪代码

4. 算法示例

5. 算法总结

  • 用词典资源进行词义排歧,是利用词典中对多义词的各个义项的描写,而这些描写是在语言学家观察了多义词的不同使用情况后概括归纳,抽象总结的结果。只不过跟实际语料不同的是,它是以一种概括的方式在描写词义,而语料库是以具体可感知的大量重复的实例本身在描写词义。
  • 由于词典释义的概括性,这种方法应用于实际语料中多义词的排歧,效果不理想。

(四)基于义类词典的消歧

1. 相关概念


原理:上下文中词汇的语义范畴大体上确定了此上下文的语义范畴,且上下文的语义范畴可以反过来确定词汇的哪一个语义被使用

比如英语词“crane”有两个意思,一是指“吊车”,一是指“鹤”。前者属于“工具/机械”这个义类;后者属于“动物”这个义类。如果能够确定“crane”出现在具体语境中时属于哪个义类,实际上也就知道了“crane”的义项。

2. 方法过程步骤


(五)基于第二语料库翻译的消歧

1. 相关概念

  • 使用双语词典中的对应词
  • 第一语言:需要消歧的语言
  • 第二语言:双语词典中的目标语言

2. 举例

三、有监督的消歧方法总结

四、无监督的消歧方法

(一)EM算法(Expectation-Maximization)

1. 概念

  • EM算法是一个由交替进行的“期望(E过程)”和“极大似然估计(M过程)”两部分组成的迭代过程:

    • 对于给定的不完全数据和当前的参数值,“E过程”从条件期望中相应地构造完全数据的似然函数值,“M过程”则利用参数的充分统计量,重新估计概率模型的参数,使得训练数据的对数似然最大。
  • EM算法的每一次迭代过程必定单调地增加训练数据的对数似然值,于是迭代过程渐进地收敛于一个局部最优值

2. 算法流程


自然语言处理总复习(五)—— 词义消歧相关推荐

  1. 自然语言处理之使用gensim.Word2Vec训练词向量进行词义消歧

    自然语言处理之使用gensim.Word2Vec训练词向量进行词义消歧 NLP中进行词义消歧的一个非常方便且简单的方法就是训练词向量,通过词向量计算余弦值,来推断某个词在句子中的含义.python中的 ...

  2. 汉语语义消歧之 -- 词义消歧简介

    总算是到正题上了... 词义消歧,亦称语义消歧,是计算语言学领域的基础性关键研究课题. 对于许多词语(特别是汉语词语和一部分专有名词),一个词有许多种意思. 例如专有名词"卡特", ...

  3. 基于在线百科知识库的多义词词义消歧项目

    WordMultiSenseDisambiguation WordMultiSenseDisambiguation, chinese multi-wordsense disambiguation ba ...

  4. 情绪分析,词性分析和词义消歧

    情绪分析 情绪分析侧重于主观陈述--意见.情绪.情绪:很难用几个关键词来表达. 主观性分类 Subjectivity classification 通常是情感分析的第一步:主观与客观文本 opinio ...

  5. 自然语言处理总复习(六)—— 词汇获取

    自然语言处理总复习(六)-- 词汇获取 一.介绍 (一)相关概念和意义 1. 总体目标 2. 问题和挑战 3. 四个部分 (二)词汇获取的评价方法 1. 评价方法介绍 2. 该评价方法的优点 2. 其 ...

  6. 自然语言处理总复习(十一)—— 信息检索

    自然语言处理总复习(十一)-- 信息检索 一.概述 1. 概念 2. IR系统的体系结构 (1)系统要素 (2)Web搜索 3. IR的历史 4. IR的困难 5. IR相关领域 6. 主要的搜索引擎 ...

  7. NLP 迷思之四:词义消歧(WSD)是NLP应用的瓶颈

    本文转载自http://blog.sciencenet.cn/blog-362400-526304.html 引用老友: 受教了.谢谢立委. 我同意"成语从来不是问题".成问题的应 ...

  8. nlp2-数学基础(信息论,概率论、词义消歧)

    文章目录 概率论 信息论 计算熵 计算信息熵.条件熵.联合熵 波利尼亚语 熵率 噪声信道模型 建立一个翻译 词义消歧(WSD 贝叶斯 最大熵的消歧方法 概率论 在自然语言处理中,以句子为处理单位时一般 ...

  9. 自然语言处理总复习(九)—— 机器翻译

    自然语言处理总复习(九)-- 机器翻译 一.概述 1. 定义 2. 分类 3. 发展历史 二.机器翻译的技术路线 实用化的策略 (一)基于规则 1. 直接式翻译 2. 转换式翻译 (1)通过句法分析得 ...

  10. 生成句法分析树以及从一个小例子来看词义消歧及语义角色标注

    一.生成句法分析树 把一句话按照句法逻辑组织成一棵树,由人来做这件事是可行的,但是由机器来实现是不可思议的,然而算法世界就是这么神奇,把一个十分复杂的过程抽象成仅仅几步操作,甚至不足10行代码,就能让 ...

最新文章

  1. python将局部变量转为全局变量
  2. 中文输入法不触发onkeyup事件的解决办法
  3. 阿里云助力重庆打造“亚洲最智能大型城市”
  4. C# 发送消息SendKeys、SendMessage、keybd_event的用法
  5. unslider调用配置选项
  6. JAVA1.6实现动态编译加载运行
  7. java的二叉树及三种遍历
  8. java登录界面圆形头像_自定义圆形头像
  9. Linux7.2虚拟机连接电脑相关配置
  10. 论文笔记_S2D.27_2006-NIPS-从单目图像学习深度
  11. 《WebGL编程指南》学习笔记——2.使用 canvas 元素
  12. 开源又好用的录屏软件
  13. U盘如何使用量产工具格式化
  14. js ajax 401,$ .ajax请求总是401(UNAUTHORIZED)
  15. 自然资源部卫星遥感应用报告(更新至2020)
  16. iOS 加粗字体方法 (不改变字体字号只加粗文字)
  17. 百度地图 android 自身地点,Android使用百度地图SDK获得当前设备位置所在的省、市(系列1)...
  18. POJ 3426 Doors and... more doors 可能会
  19. 如何在抖音官网链接中一键复制微信号跳转微信
  20. Android中APK安装流程解析

热门文章

  1. 使用R进行文本数据挖掘
  2. 几大ERP软件实施方法与过程
  3. 30m服务器可以用多少人在线,30m网速(30m宽带够几个人用)
  4. Unity 手机VR GoogleVR 详细配置教程
  5. 音乐格式转换软件测试工资,无损音乐如何转换 无损音乐格式转换 无损音乐转换器...
  6. nvidia-installer
  7. 【转载】django-数据库[ 配置 ]
  8. 路由器设置虚拟服务器utorrent,路由器用户PT站“可连接:否”最简解决办法
  9. 容器化运行wine模拟器制作开源代码索引chm文件
  10. 模拟一个简单的购房商贷月供计算器,按照总利息和每月还款金额