一、Syntax

句法(Syntax)的英语单词来源于希腊单词sýntaxis,它的意思是布置(arrangement)和放在一起(setting out together),也就是研究怎么样把词汇组织成句子。

二、Syntactic Parsing(句法分析)

1、Context Free Grammars (CFG)-上下文无关文法

上下文无关文法是一个4元组G=(N,Σ,R,S),其中:

  • N是一个有限的非终结符集合
  • Σ是一个有限的终结符集合(字母表)
  • R是一个有限的产生式规则集合,每一个产生式规则的形式为X→Y1Y2…Yn,其中X∈N,Yi∈N∪Σ
  • S∈NS∈N是一个特殊的开始符号

下图是一个简单的CFG,它是英语语法的一部分。N是基本的句法类别(Syntax Categories),比如开始符号S代表句子(Sentence),NP代表名词短语(Noun Phrase),VP代表动词短语(Verb Phrase)。Σ代表词典。产生式规则:

第一个规则表示一个句子可以由一个名词短语和一个动词短语组合而成。而第二个规则表明一个单数名词(NN)可以是单词”man”。产生式规则X→Y1Y2…Yn非常灵活,只要满足X∈N和Yi∈N∪Σ就行。比如我们可以有一元(unary)的产生式规则:

产生式规则的右边也可以同时有终结符和非终结符,比如:

产生式规则的右边甚至可以是空,比如:

这里用ϵ表示空字符串。

接下来我们介绍一下CFG的最左(left-most)推导(Derivations)。给定一个CFG,一个最左推导是字符串的序列s1…sns1…sn,其中:

  • s1=S,也就是说s1是只包含开始符号的字符串
  • sn∈Σ∗,即最后一个字符串只包含终结符号
  • si是这么从si−1推导出来的——把si的右边的第一个非终结符号用一个产生式规则的右边替换得到,要求这个产生式规则的左边就是si的第一个非终结符号

第三条看起来有点复杂,但其实很简单,下面我们通过一个例子来说明。还是以上图的CFG为例。下面是一个推导过程:

最左推导的每一步都使用了一个产生式规则(s1=S除外),因此推导过程也可以用产生式规则的序列来表示。用parse tree来表示推导会更加直观,上面的推导过程可以用下图所示的parse tree来表示。

这棵树的根是SS,表明s1=Ss1=S。接着看S的子树,我们可以得到s2=NP VPs2=NP VP。

有了最左推导的定义,我们下面可以定义一个CFG的语言:L(CFG)={s|s∈Σ∗并且s可以由CFG的一个最左推导推出}。比如上面的”the man sleeps”就是上面的CFG的语言中的一个字符串(句子)。

2、Chomsky Normal Form (CNF)-乔姆斯基范式

三、CKY Parsing

四、Limitations of Context Free Grammars(CFGs)

五、Statistical Parsing

六、Probabilistic CKY Parsing

七、PCFG Training

八、Limitations of PCFGs

九、Treebanks

十、Evaluating model performance

十一、Alternatives

Week3 Syntactic Parsing(句法分析)相关推荐

  1. 句法分析(syntactic parsing)在NLP领域的应用是怎样的

    转载自   句法分析(syntactic parsing)在NLP领域的应用是怎样的 句法分析(syntactic parsing)在NLP领域的应用是怎样的? 文章整理自郭江师兄问题回答(被收录于知 ...

  2. 自然语言处理从入门到应用——自然语言处理的基础任务:词性标注(POS Tagging)和句法分析(Syntactic Parsing)

    分类目录:<自然语言处理从入门到应用>总目录 词性标注 词性是词语在句子中扮演的语法角色,也被称为词类(Part-Of-Speech,POS).例如,表示抽象或具体事物名字(如" ...

  3. CHAPTER 11 Syntactic Parsing

    CHAPTER 11 Syntactic Parsing Speech and Language Processing ed3 读书笔记 Syntactic parsing is the task o ...

  4. 【李宏毅机器学习】Recurrent Neural Network Part2 循环神经网络(p21) 学习笔记

    李宏毅机器学习学习笔记汇总 课程链接 文章目录 Learning Target Learning Unfortunately 基于RNN的的网络不总是容易去学习 The error surface i ...

  5. NLP--2 语言结构和传统pipeline

    四个阶段 自然语言是复杂的符号(词,短语,句子)系统 比ordinary符号更多的内部结构, 以下四层: phonological,individual sounds,书写语言,符号,字母:(最低)词 ...

  6. 2021/2022李宏毅机器学习笔记-Transform

    Transformer就是一个Sequence-to-sequence的model,他的缩写,我们会写做Seq2seq,那Sequence-to-sequence的model,又是什么呢? 我们之前在 ...

  7. Slot Filling详细讲解

    1. 从一个栗子开始 - Slot Filling 比如在一个订票系统上,我们的输入 "Arrive Taipei on November 2nd" 这样一个序列, 我们设置几个槽 ...

  8. 句法分析:依存分析(Dependency Parsing)

    目录 1. 句法分析任务分类 2. 依存分析方法 2.1 什么是依存分析 2.2 传统的基于转移的依存分析(Transition-based Parsing) 2.3 神经依存分析(Neural De ...

  9. 【CS224n】(lecture4)Dependency Parsing 依存句法分析

    学习总结 句法分析(Syntactic Parsing),两种典型的句法结构表示: (1)短语结构句法:依托上下文无关文法,S代表起始符号,如NP和VP分别表示名词短语和动词短语. (2)依存结构句法 ...

最新文章

  1. etrace 跟踪程序函数动态执行流程
  2. 手语识别_使用深度学习进行手语识别
  3. Identity Server 4 - Hybrid Flow - 使用ABAC保护MVC客户端和API资源
  4. java复制sheet_Java对excel中的sheet进行拷贝
  5. MySql 你知道 order by 是怎么回事吗? MySql全字段排序与 rowid 排序
  6. (12)H5新增语义化标签布局案例
  7. Ubuntu 14.04卸载安装失败的Mysql数据库,以及重新安装配置
  8. mysql5.7多源复制缺点_配置mysql5.7多源复制
  9. visual studio可以开发app吗_郑州app开发价格是怎么定得呢?预约理发app好做吗
  10. 等值连接_【高中地理】重难点内容:16种等值线的解读和应用
  11. 第三章 高级请求-应答模式
  12. TCP报文( tcp dup ack 、TCP Retransmission)
  13. 知识竞赛软件已全面取代了传统手工赛场控制方式
  14. 机器学习(六)—— 分类
  15. Kaggle数据竞赛入门-Titanic生存预测
  16. 关于涉及到区间类型数值的缓存
  17. 技术选型电商平台系统的四大方向
  18. python微信公众号框架_轻松实现python搭建微信公众平台
  19. php操作rtf,php实现html转为rtf格式_PHP教程
  20. MicroChip C18编译器上手及环境设置

热门文章

  1. 鹏业安装三维算量软件——批量修改工程量
  2. 使用 Entrust 扩展包在 Laravel 5 中实现 RBAC 权限管理与安装配置
  3. 门店数字化转型| 美容院管理系统
  4. 微信小程序 - 在自定义组件中请求后端 API 数据接口(引入该组件的页面触发)组件在哪个生命周期钩子函数中请求接口数据呢?
  5. C语言arduino密码锁实验报告,简易密码锁的制作-Arduino中文社区 - Powered by Discuz!...
  6. 43款设计师必备英文设计字体【书法类字体】
  7. 【菜鸟学习论文】2020_Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching
  8. Human Pose Estimation浅述
  9. 总结一下自己的linux历程
  10. 怎么把PDF分割成几个文件?分享几种分割方法