NLP复习资料(2)-三~五章:形式语言、语料库、语言模型
NLP复习资料-三~五章
- 1.第三章:形式语言
- 2.第四章:语料库
- 3.第五章:语言模型
国科大,宗老师《自然语言处理》课程复习笔记,个人整理,仅供参考。
1.第三章:形式语言
1.语言描述的三种途径:穷举法、语法描述(形式语言)、自动机
2.形式语言四元组表示,最左推导,最右推导,例3-1
3.p27. L(G0)>=L(G1)>=L(G2)>=L(G3)
4.p30上下文无关文法产生语言的句子派生树、文法的二义性:有不止一棵以上的派生树(关于 鲁迅的文章-关于鲁迅 的 文章)
5.有限自动机五元组表示,P39状态变换图
6.例3.8 正则文法与有限自动机之间的转换
7p59 例3.9下推自动机的处理步骤
8.有限自动机用于英语的单词拼写检查,采用深度优先算法在自动机选择编辑距离最小路径。P64编辑距离,P69 X截取范围的确定 P
9有限状态转换机用于英语单词形态分析(不仅有状态转换还有输出:补全单词和一个+)
2.第四章:语料库
1.语料库发展的三个阶段:
20世纪50年代中期:早期、
1957-20世纪80年代:沉积时期、
20世纪80年代后:复苏发展时期(主要特征:第二代语料库相继建成、基于语料库的研究项目增多)语料库复苏的原因P15计算机迅速发展、转换生成语言学派对语料库语言的批判不都正确。
2.语料库的类型:P21同质/异质,系统/专用,单语/多语,平衡语料库(语料的代表性和平衡性),平行语料库(双语平行语料库,机器翻译),共时语料库/历时语料库
3.语料库建设中的问题:
设计时问题:静态与动态,代表性与平衡性,规模,管理与维护
开发中为题:规范问题,产权问题p36
4.典型语料库和:(记一两个吧)
宾夕法尼亚大学的中文树库,词性33类,句法23类P42
北京大学开发的CLKBp61
词汇知识库:
普林斯顿大学WordNet p78
知网HowNet p85
3.第五章:语言模型
1.基于大规模语料库,出现了自然语言的统计处理方法,那么如何计算一个句子的概率呢?依据组成句子的词语的联合概率计算?词之间不独立,不行!那就考虑在历史词的基础上考虑当前词的概率,然后连乘。参数空间太大,不行!那就只考虑前n个历史词汇。OK呀~
2.p11 n元文法,n个邻近的词构成一个词序列。P12句子n元次序列划分的例子。
3.N元文法的两个应用-音字转换、汉语分词,选择概率最大的那个作为输出就对了。
4.参数估计–n元文法中连乘的每个概率的计算,训练语料库中历史一共出现的次数为分母,历史与当前一同出现的为分子,一除,搞定。P27计算题
5.n元文法最主要的一个问题:数据稀疏,要计算语料库中没见到的情况,怎么办?–数据平滑呀,基本思想–劫富济贫。加1法p37计算题。减值法good-turingP41公式推导。Back-off方法P47基本思想。绝对减值法和线性减值法的思想。删除价值法,低阶代替高阶,线性插值
5.模型自适应:前两种方法都是线性插值多个模型:(1)缓存模型p62(2)不同类型模型p67 (3)最大熵模型p69
6.应用举例:汉语分词,
p77以词序列为基本单位,效果不好,改成词类序列为基本单位。P81语言模型和生成模型。P87的训练步骤
p93分词与词性标注一体化的方法
NLP复习资料(2)-三~五章:形式语言、语料库、语言模型相关推荐
- NLP复习资料(3)-六~七章:马尔科夫模型与条件随机场、词法分析与词性标注
NLP复习资料 1.第六章 马尔科夫模型与条件随机场 2.第七章 词法分析与词性标注 国科大,宗老师<自然语言处理>课程复习笔记,个人整理,仅供参考. 1.第六章 马尔科夫模型与条件随机场 ...
- NLP复习资料(5)-第九章 句法分析
NLP复习资料-第九章 1.短语结构分析 2.短语结构分析方法的评估指标 3依存句法分析器设计P13 4依存句法分析器性能评价 5短语结构与依存结构能够相互转换 6汉英句法结构对比 7汉语长句的层次化 ...
- NLP复习资料(6)-第十章 语义分析
NLP复习资料-第十章 1语义理论简介 2格语法 4语义网络 5词义消歧 5语义角色标注 6词向量表示 7篇章分析 国科大,宗老师<自然语言处理>课程复习笔记,个人整理,仅供参考. 语义分 ...
- NLP复习资料(4)-第八章 句法分析
NLP复习资料-第八章 国科大,宗老师<自然语言处理>课程复习笔记,个人整理,仅供参考. 第八章:语法理论(第三章的后续) 1.出发点chomsky的四类文法过于泛化,生成能力太强了,会生 ...
- NLP复习资料(8)-知识图谱、信息抽取
NLP复习资料 第16讲-知识图谱 第17讲-信息抽取(知识图谱生命周期中信息获取的关键技术) 国科大,宗老师<自然语言处理>课程复习笔记,个人整理,仅供参考. 第16讲-知识图谱 知识图 ...
- NLP复习资料(7)-机器翻译、文本分类、情感分析
NLP复习资料 国科大,宗老师<自然语言处理>课程复习笔记,个人整理,仅供参考. 此部分为手稿,高清图下载见链接:https://download.csdn.net/download/si ...
- NLP复习资料(1)-绪论、数学基础
NLP复习资料-绪论.数学基础 1.绪论 2.数学基础 2.1信息论基础: 2.2应用实例:词汇消歧 国科大,宗老师<自然语言处理>课程复习笔记,个人整理,仅供参考. 1.绪论 1. 语言 ...
- stm32f767中文手册_ALIENTEK 阿波罗 STM32F767 开发板资料连载第五章 SYSTEM 文件夹
1)实验平台:alientek 阿波罗 STM32F767 开发板2)摘自<STM32F7 开发指南(HAL 库版)>关注官方微信号公众号,获取更多资料:正点原子 第五章 SYSTEM 文 ...
- 计算机网络复习资料(前六章谢希仁版)
计算机网络复习 作者:why will kill it 第一章 概述 internet和Internet的区别 以小写字母"i"开始的internet(互联网)是一个通用名词,它泛 ...
最新文章
- 1134. Vertex Cover (25)
- kmp oj 亲和串
- python中的小魔法(一)
- 【bzoj2648】SJY摆棋子 KD-tree
- Flex RemoteClass ActionScript类与Java类的绑定
- shell 脚本 简易for循环 脚本
- python列表转化为元组、集合_如何在Python中将元组列表更改为集合?
- ap_invoice_distributions_all与PO表关联问题
- linkedin 不能登录_如何不在LinkedIn上接近我
- 暮光之城4下高清下载地址|暮光之城4第二部高清下载地址
- 对于md5加盐安全性的理解
- 世界上最好的惯性动作捕捉设备Xsens,你不应该错过的Xsens MVN Animate Pro
- linux---重点笔记(3)
- 温一壶月光下的酒——林清玄
- poj1564 Sum it up
- 视频压缩软件APP有哪些?让我来告诉你答案
- java语音实现_用JAVA实现语音交互的功能(即语音聊天室的功能)
- CC00007.CloudOpenStack——|OpenStack组件.V02|——|openstack-keystone|controller节点下部署Key
- Crd(自定义资源类型)2021.12.05
- C++中int、long和double的取值范围和最大值,以及32位和64位的差异解读
热门文章
- reactor设计模式 1
- 语音编码分类及编解码标准
- java 参数 string_java(String和StringBuffer分别作为参数传递)
- python tkinter pack 同一行_用python tkinter中的一行连接2个复选按钮
- 外架小横杆外露长度规范要求_安全文明施工规范
- Web——Request转发和Response重定向
- 累积分布函数_C7: 概率函数和分布函数Distribution Function
- 【转】C# 命名空间 Namespace (学习心得 23)
- SharePoint无代码工作流设计开发实例——交通费报销流程(一)
- 三层架构与MVC的区别