NLP复习资料-三~五章

  • 1.第三章:形式语言
  • 2.第四章:语料库
  • 3.第五章:语言模型

国科大,宗老师《自然语言处理》课程复习笔记,个人整理,仅供参考。

1.第三章:形式语言

1.语言描述的三种途径:穷举法、语法描述(形式语言)、自动机

2.形式语言四元组表示,最左推导,最右推导,例3-1

3.p27. L(G0)>=L(G1)>=L(G2)>=L(G3)

4.p30上下文无关文法产生语言的句子派生树、文法的二义性:有不止一棵以上的派生树(关于 鲁迅的文章-关于鲁迅 的 文章)

5.有限自动机五元组表示,P39状态变换图

6.例3.8 正则文法与有限自动机之间的转换

7p59 例3.9下推自动机的处理步骤

8.有限自动机用于英语的单词拼写检查,采用深度优先算法在自动机选择编辑距离最小路径。P64编辑距离,P69 X截取范围的确定 P

9有限状态转换机用于英语单词形态分析(不仅有状态转换还有输出:补全单词和一个+)

2.第四章:语料库

1.语料库发展的三个阶段:
20世纪50年代中期:早期、
1957-20世纪80年代:沉积时期、
20世纪80年代后:复苏发展时期(主要特征:第二代语料库相继建成、基于语料库的研究项目增多)语料库复苏的原因P15计算机迅速发展、转换生成语言学派对语料库语言的批判不都正确。

2.语料库的类型:P21同质/异质,系统/专用,单语/多语,平衡语料库(语料的代表性和平衡性),平行语料库(双语平行语料库,机器翻译),共时语料库/历时语料库

3.语料库建设中的问题:
设计时问题:静态与动态,代表性与平衡性,规模,管理与维护
开发中为题:规范问题,产权问题p36

4.典型语料库和:(记一两个吧)
宾夕法尼亚大学的中文树库,词性33类,句法23类P42
北京大学开发的CLKBp61
词汇知识库:
普林斯顿大学WordNet p78
知网HowNet p85

3.第五章:语言模型

1.基于大规模语料库,出现了自然语言的统计处理方法,那么如何计算一个句子的概率呢?依据组成句子的词语的联合概率计算?词之间不独立,不行!那就考虑在历史词的基础上考虑当前词的概率,然后连乘。参数空间太大,不行!那就只考虑前n个历史词汇。OK呀~

2.p11 n元文法,n个邻近的词构成一个词序列。P12句子n元次序列划分的例子。

3.N元文法的两个应用-音字转换、汉语分词,选择概率最大的那个作为输出就对了。

4.参数估计–n元文法中连乘的每个概率的计算,训练语料库中历史一共出现的次数为分母,历史与当前一同出现的为分子,一除,搞定。P27计算题

5.n元文法最主要的一个问题:数据稀疏,要计算语料库中没见到的情况,怎么办?–数据平滑呀,基本思想–劫富济贫。加1法p37计算题。减值法good-turingP41公式推导。Back-off方法P47基本思想。绝对减值法和线性减值法的思想。删除价值法,低阶代替高阶,线性插值

5.模型自适应:前两种方法都是线性插值多个模型:(1)缓存模型p62(2)不同类型模型p67 (3)最大熵模型p69

6.应用举例:汉语分词,
p77以词序列为基本单位,效果不好,改成词类序列为基本单位。P81语言模型和生成模型。P87的训练步骤
p93分词与词性标注一体化的方法

NLP复习资料(2)-三~五章:形式语言、语料库、语言模型相关推荐

  1. NLP复习资料(3)-六~七章:马尔科夫模型与条件随机场、词法分析与词性标注

    NLP复习资料 1.第六章 马尔科夫模型与条件随机场 2.第七章 词法分析与词性标注 国科大,宗老师<自然语言处理>课程复习笔记,个人整理,仅供参考. 1.第六章 马尔科夫模型与条件随机场 ...

  2. NLP复习资料(5)-第九章 句法分析

    NLP复习资料-第九章 1.短语结构分析 2.短语结构分析方法的评估指标 3依存句法分析器设计P13 4依存句法分析器性能评价 5短语结构与依存结构能够相互转换 6汉英句法结构对比 7汉语长句的层次化 ...

  3. NLP复习资料(6)-第十章 语义分析

    NLP复习资料-第十章 1语义理论简介 2格语法 4语义网络 5词义消歧 5语义角色标注 6词向量表示 7篇章分析 国科大,宗老师<自然语言处理>课程复习笔记,个人整理,仅供参考. 语义分 ...

  4. NLP复习资料(4)-第八章 句法分析

    NLP复习资料-第八章 国科大,宗老师<自然语言处理>课程复习笔记,个人整理,仅供参考. 第八章:语法理论(第三章的后续) 1.出发点chomsky的四类文法过于泛化,生成能力太强了,会生 ...

  5. NLP复习资料(8)-知识图谱、信息抽取

    NLP复习资料 第16讲-知识图谱 第17讲-信息抽取(知识图谱生命周期中信息获取的关键技术) 国科大,宗老师<自然语言处理>课程复习笔记,个人整理,仅供参考. 第16讲-知识图谱 知识图 ...

  6. NLP复习资料(7)-机器翻译、文本分类、情感分析

    NLP复习资料 国科大,宗老师<自然语言处理>课程复习笔记,个人整理,仅供参考. 此部分为手稿,高清图下载见链接:https://download.csdn.net/download/si ...

  7. NLP复习资料(1)-绪论、数学基础

    NLP复习资料-绪论.数学基础 1.绪论 2.数学基础 2.1信息论基础: 2.2应用实例:词汇消歧 国科大,宗老师<自然语言处理>课程复习笔记,个人整理,仅供参考. 1.绪论 1. 语言 ...

  8. stm32f767中文手册_ALIENTEK 阿波罗 STM32F767 开发板资料连载第五章 SYSTEM 文件夹

    1)实验平台:alientek 阿波罗 STM32F767 开发板2)摘自<STM32F7 开发指南(HAL 库版)>关注官方微信号公众号,获取更多资料:正点原子 第五章 SYSTEM 文 ...

  9. 计算机网络复习资料(前六章谢希仁版)

    计算机网络复习 作者:why will kill it 第一章 概述 internet和Internet的区别 以小写字母"i"开始的internet(互联网)是一个通用名词,它泛 ...

最新文章

  1. 1134. Vertex Cover (25)
  2. kmp oj 亲和串
  3. python中的小魔法(一)
  4. 【bzoj2648】SJY摆棋子 KD-tree
  5. Flex RemoteClass ActionScript类与Java类的绑定
  6. shell 脚本 简易for循环 脚本
  7. python列表转化为元组、集合_如何在Python中将元组列表更改为集合?
  8. ap_invoice_distributions_all与PO表关联问题
  9. linkedin 不能登录_如何不在LinkedIn上接近我
  10. 暮光之城4下高清下载地址|暮光之城4第二部高清下载地址
  11. 对于md5加盐安全性的理解
  12. 世界上最好的惯性动作捕捉设备Xsens,你不应该错过的Xsens MVN Animate Pro
  13. linux---重点笔记(3)
  14. 温一壶月光下的酒——林清玄
  15. poj1564 Sum it up
  16. 视频压缩软件APP有哪些?让我来告诉你答案
  17. java语音实现_用JAVA实现语音交互的功能(即语音聊天室的功能)
  18. CC00007.CloudOpenStack——|OpenStack组件.V02|——|openstack-keystone|controller节点下部署Key
  19. Crd(自定义资源类型)2021.12.05
  20. C++中int、long和double的取值范围和最大值,以及32位和64位的差异解读

热门文章

  1. reactor设计模式 1
  2. 语音编码分类及编解码标准
  3. java 参数 string_java(String和StringBuffer分别作为参数传递)
  4. python tkinter pack 同一行_用python tkinter中的一行连接2个复选按钮
  5. 外架小横杆外露长度规范要求_安全文明施工规范
  6. Web——Request转发和Response重定向
  7. 累积分布函数_C7: 概率函数和分布函数Distribution Function
  8. 【转】C# 命名空间 Namespace (学习心得 23)
  9. SharePoint无代码工作流设计开发实例——交通费报销流程(一)
  10. 三层架构与MVC的区别