NLP复习资料

  • 1.第六章 马尔科夫模型与条件随机场
  • 2.第七章 词法分析与词性标注

国科大,宗老师《自然语言处理》课程复习笔记,个人整理,仅供参考。

1.第六章 马尔科夫模型与条件随机场

1.马尔科夫模型:P6系统每一时刻的状态只与前一个时刻的状态相关,状态转移独立于时间

2.隐马尔科夫模型:P13状态与观测的双重随机过程

3.HMM的三个问题:(理不理解都行,重要的是后面的应用实例要理解)
给定观测序列计算相应的概率:前向算法
计算模型的参数:(1)监督学习:有P55(2)无监督学习:期望最大法Baum-welch算法
给定观测序列计算最有可能的状态序列:(1)P40近似计算:每个时刻最有可能的状态组成的序列(2)viterbi算法P46:从第一层开始找到每个节点的最优路径,直至最后一层,然后回溯

4.HMM应用实例:P67
汉语自动分词:(观测:汉语分词结果。)计算最合适的观测序列使得其概率最大
词性标注问题:(观测:汉语分词结果,状态词性标注序列:)求解最优的状态。使得观测序列的概率最大。
观测序粗切分,切出所有可能的结果。然后汉语分词的话,依据HMM前向算法计算最大概率的切分P81。词性标注的话,依据HMMviterbi算法计算最优可能的状态序列。

5.条件随机场(一样不用太理解它讲的什么,本来就讲的不清楚)掌握由字构词法:P95每个字构成词语那么它可能的词位:开头、中间、结尾、独自成词。汉语分词问题转换成字分类问题。P103解码模型看清楚就差不多了。

2.第七章 词法分析与词性标注

1.汉语自动分词的主要问题:规范性问题P20、歧义切分字段问题P25组合型歧义,交集型歧义、未登入词识别P26

2.汉语自动分词的基本原则(记住两条要吧)P29语义无法切分不能切,词性无法切分不能切,有明显分隔符的要切,使用频率高的词不能切,过于冗长要切

3.分词与词性标注结果评价:(很重要的两个概念)正确率:正确结果与输出结果的关系。召回率:正确结果和标准答案的关系。P40

4.自动分词的基本算法:
4.1最大匹配法:要词典P48正向:一个字依次向其后扩展至最长可能成词的,就切开,再往后找最长成词切分
4.2最少分词发:要字典P51,有向无环图构建,找最短路径
4.3语言模型,n-gram第五章 生成式模型
4.4 HMM,最大概率观测序列 第六章
4.5由字构词,分类方法,第六章 判别式模型
4.6 生成式模型与判别式模型相结合:两种结合方式:
P67(c,t)+语言模型
P71插值的方法

5.未登入词的识别
人名P81:概率估计、姓名阈值、评价函数、修饰规则
地名:P88建库,没说方法
机构名:P90中心语找做左边界
双语实体自动识别欲对齐联合模型P98:英文边界确定中文,中文边界消歧英文

6.词性标注
原则:P113标准性、兼容性、可扩充性
方法:手工编写规则法p119(依据不同的上下文确定不同的词性)、P123错误驱动的机器学习方法(理念比较重要)、基于HMM词性标注(找最优的状态序列使得观测序列概率最大第六章)、统计和规则形结合(都没有例子,估计不用记)

7.分词与词性标注的技术水平:老师说到现在都没有解决好这两个问题。

8.分词与词性标注的发展方向:迁移学习P144,消歧方法继续研究P148

NLP复习资料(3)-六~七章:马尔科夫模型与条件随机场、词法分析与词性标注相关推荐

  1. 李宏毅机器学习2016 第二十一讲 隐马尔可夫模型和条件随机场

    视频链接:李宏毅机器学习(2016)_演讲•公开课_科技_bilibili_哔哩哔哩 课程资源:Hung-yi Lee 课程相关PPT已经打包命名好了:链接:https://pan.baidu.com ...

  2. 机器学习算法总结(七)——隐马尔科夫模型(前向后向算法、鲍姆-韦尔奇算法、维特比算法)...

    概率图模型是一类用图来表达变量相关关系的概率模型.它以图为表示工具,最常见的是用一个结点表示一个或一组随机变量,结点之间的变表是变量间的概率相关关系.根据边的性质不同,可以将概率图模型分为两类:一类是 ...

  3. 马尔可夫模型与条件随机场模型

    https://blog.csdn.net/s151506879/article/details/51912595 条件随机场模型是由Lafferty在2001年提出的一种典型的判别式模型.它在观测序 ...

  4. 隐马尔可夫模型,最大熵马尔可夫模型和条件随机场的区别与联系

     隐马尔可夫模型(Hidden Markov Model,HMM),最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)以及条件随机场(Conditional ...

  5. 从零开始学NLP(八) 隐马尔科夫模型(超详细)

    目录 前言 一.HMM基础 二.HMM定义 三.HMM的三个基本问题 1.概率计算问题 2. 学习问题 3.预测问题 四.HMM中的参数估计 1.前向算法 2.后向算法 五.HMM实例 总结 前言 上 ...

  6. NLP入门概览(4)—— 序列标注a:隐马尔科夫模型(HMM)

      在这一部分中,我们将要介绍NLP领域最常见的一类问题:序列标注. 1. 序列标注   在NLP领域中,有许多的任务可以转化为"将输入的语言序列转化为标注序列"来解决问题.比如, ...

  7. 【NLP】用于语音识别、分词的隐马尔科夫模型HMM

    大家好,今天介绍自然语言处理中经典的隐马尔科夫模型(HMM).HMM早期在语音识别.分词等序列标注问题中有着广泛的应用. 了解HMM的基础原理以及应用,对于了解NLP处理问题的基本思想和技术发展脉络有 ...

  8. 一文读懂NLP之隐马尔科夫模型(HMM)详解加python实现

    一文读懂NLP之隐马尔科夫模型(HMM)详解加python实现 1 隐马尔科夫模型 1.1 HMM解决的问题 1.2 HMM模型的定义 1.2.1HMM的两个假设 1.2.2 HMM模型 1.3 HM ...

  9. 《统计学习方法》第10章 隐马尔科夫模型 HMM算法 纯Python代码实现 + 前后向算法矩阵形式 + 课后习题答案

    理论知识:<统计学习方法>第10章 隐马尔科夫模型 一.HMM算法矩阵写法 前向算法 P(O∣λ)=πTBo1ABo2ABo3⋯ABoT(1,1,1)TP(O| \lambda) = \p ...

最新文章

  1. 钟南山院士应邀向欧洲同仁全方位解析新冠肺炎(配中文文字版)
  2. python好还是c+-JAVA,Python和C+各有什么特点和优势?
  3. Java并发机制底层实现原理-volatile
  4. 单片机 原子性操作_一款深藏功与名的国产单片机——F1C100A
  5. POJ1942-Paths on a Grid
  6. 为什么选择微服务架构?如何取舍?
  7. 动画演示 Delphi 2007 IDE 功能[6] - 快速查看 Delphi 所有的核心数据类型
  8. 旅游大数据:从投资决策到分析工作的常态化
  9. 传说中四个月的java速成“大法”,我见识到了,不过就是没啥用
  10. VB 中文乱码问题,以下方案可以试试
  11. 实验一计算机基础和网络知识竞赛,邵阳市计算机基础知识竞赛试题
  12. linux 一些好用的软件
  13. 为什么我无法访问自己的工作组Workgroup
  14. 执着于音,一起开启Fidelio音乐之旅
  15. 长期戴耳机听歌的危害这么大,这些坏习惯你还在做吗
  16. android 绘画笔迹回放_Android画板 半透明画笔 笔迹叠加效果
  17. u盘修复计算机w7,win7系统提示需要修复U盘的解决方法
  18. 实验三——密码破解技术
  19. shell--扩展正则表达式之egrep
  20. 计算机桌面怎么锁,电脑怎么上锁,详细教您怎么给电脑屏幕上锁

热门文章

  1. Linux两种定时器
  2. 如何利用计算机实现非线性转换,2013《数字信号处理》期末复习(填空选择判断)真题解析...
  3. jni c call java_Java通过-jni调用c语言
  4. Linux中重定向及管道,Linux中重定向及管道
  5. java构建内存池队列_内存池完整实现代码及一些思考
  6. 信道容量受哪三个要素_影响信道容量的主要因素有哪些
  7. 【转】细说.NET中的多线程 (二 线程池)
  8. 【转】VS编程,快速折叠或者展开代码到 #region 级别的设置方法。
  9. console对象的方法log、info、warn、error的区别及几个实用的方法
  10. Java 10 常用集合继承关系图