pcfg 自然语言处理_自然语言处理:原理简明教程09-句法分析,语义分析和篇章分析...
内容纲要
参考书:《统计自然语言处理(第2版)》,《形式语言与自动机理论》,《统计自然语言基础》,《自然语言处理综论》 ,《概率图模型:原理与技术》,《概率论与数理统计》,《统计学方法》,《中文自动分词与标注》
句法分析概述:
句法结构分析:对输入的单词序列(一般为句子),判断其构成是否合乎给定的语法,并分析出合乎语法的句子的句法结构。
句法分析的任务:
判断输入的字符串是否属于某种语言
消除输入句子中词法和结构等方面的歧义
分析输入句子的内部结构
构造句法分析器:
语法的形式化表示和词条信息描述问题
分析算法的设计
句法结构分析方法:
基于规则的句法结构分析
基于统计的语法结构分析
PCFG:基于概率的上下文无关文法
论文:《Probabilistic Context-Free Grammars (PCFGs)》
思想:(结合论文看,该论文是一个lecture note,很棒)
CFG:提出了四元文法,最左文法
基于CFG的句法分析模型满足三个假设条件:位置不变性,上下文无关性,祖先无关性
符合乔姆斯基范式,左边都为单个非终结符,右边要么都是非终结符,要么只有终结符,
如:
但是不同的语法树解析相同的句子,可能有不同意思。
有了语法树可以定义概率
TG(S)表示具体解析树,当大于一表示有歧义,所以要用概率树选最大的。
三大问题:1)已知产式概率,求语法树概率。2)求所有语法树中最大概率。3)不知道产式概率,求参数。这三个问题刚好对应HMM的三大问题。
如果有corpus可以统计处概率则,方法是文法每个产式可以根据corpus统计出概率,然后生成树的过程不断把概率相乘,最后得到最终的树的概率。难点在于如何遍历所有产式,得到所有树的概率。用dp解答,写出递推式子,每个树是在子树概率基础上得到的。
如果没有corpus,则用EM求解:
浅层句法分析:
完全句法分析是困难的任务,目前还没令人满意的解决方法
树库成本昂贵
浅层句法分析:完全句法分析的简化任务版,主要包括两个子任务,语块识别与分析,语块之间依附关系分析
语块(chunk):句子中的结构独立,相对较简单的部分。例如,名词短语,动词短语
BaseNP:
与命名实体区别:命名实体是词典中查不出的,BaseNP可以是查得出的
识别方法:
基于CRF识别BaseNP
基于SVM识别BaseNP
混合方法
基于CRF识别BaseNP:
参考论文:转化为标注问题《Shallow Parsing with Conditional Random Fields》
说明:就是写出标记之间的状态转移,然后根据CRF写出模型公式,求解参数
基于SVM识别BaseNP:
参考论文:
《Use of Support Vector Learning for Chunk Identification》最后用的是线性SVM
《Fast Methods for Kernel-based Text Analysis》上文改进,用了核函数
思想:
说明:
Col0为词序列,col1为词性序列,tag为标注序列,
以deficit为例,取前后词,词性,和tag,所有词和词性和tag都用word vector(0-1)表示,然后tag是类别,进行分类,训练出分类模型。注意特征集包含了前两个tag
为了保证空间要求,对数据进行压缩,比如(3,101,1791)表示三个词的vector
混合方法:
参考论文:《A Hybrid Approach to Chinese Base Noun Phrase Chunking》
思路:结合SVM+CRF多种因素的结果
结果分析:
依存语法(了解,不细讲):
依存语法:用词不词之间的依存关系来描述语言结构的框架
L.Tesniere理论:一切结构局句法现象可概括为关联,组合,转位三大核心。句法关联建立起词不词之间的从属关系,这种从属关系是由支配词和从属词联结而成。价的概念:一个动词所能支配的行动元的个数。
参考论文:
《Non-projective Dependency Parsing using Spanning Tree Algorithms》
《Layer-Based Dependency Parsing》
语义分析(不细讲,了解):一个词多种意思,通过 分析技术,确定它在上下文中的真实意思
篇章分析:自动文摘:摘录,指代消解,衔接问题
指代消解:
论文:
《指代消解综述》:对指代消解进行了综述,其中有中文部分
《Coreference Resolution Current Trends and Future Directions》:综述文章
《First-Order Probabilistic Models for Coreference Resolution》:从上面综述文章中来的一篇
最后一篇思路:
说明:图一边表示之间关系的概率,公式为计算概率的公式
步骤:
1)corpus聚类,找到(bush, he)这样的对
2)根据特征模板,选取特征,就是最后语料每个是啥样
3)利用最大熵求解“人k”
4)得到P
5)得到图
6)分区和聚类问题
7)改进:First-Order Logic Model
自动文摘:
Luhn在1958年的开创性工作
自劢文摘技术分类:单文档摘要,多文档摘要等
方法:
VSM方法
基于隐语义的方法
基于HMM的方法
VSM方法:
论文:《基于潜在语义分析的单文本自动摘要方法研究》里面提到了
基于潜在语义的方法
论文:《基于潜在语义索引的文本摘要方法》,《LATENT DIRICHLET LEARNING FOR DOCUMENT SUMMARIZATION》
思路:
基于HMM的方法:
参考论文:《Catching the Drift Probabilistic Content Models, with Applications to Generation and Summarization》
思路:
多文档摘要:不成熟,不细讲
问题:
怎样找到感兴趣的多篇文档?
怎样从多篇文档里联合抽取?
抽取出来的句子按怎样的顺序排列?
抽取出来的句子怎样做到上下文“融合”?
参考论文:
《Centroid-based summarization of multiple documents》
《Sentence Fusion for Multidocument News Summarization》
pcfg 自然语言处理_自然语言处理:原理简明教程09-句法分析,语义分析和篇章分析...相关推荐
- 计算机原理简明教程第二章,《计算机原理简明教程》习题答案[参考].doc
<计算机原理简明教程>习题参考答案 第一章习题答案 1.1 答:是1946年在美国宾夕法尼亚大学诞生,称为ENIAC. 特点是由1800个电子管和1500个继电器组成,重30吨:功耗150 ...
- 基于LLVM的编译原理简明教程 (1) - 写编译器越来越容易了
基于LLVM的编译原理简明教程 (1) - 写编译器越来越容易了 进入21世纪,新的编程语言如雨后春笋一样不停地冒出来.需求当然是重要的驱动力量,但是在其中起了重要作用的就是工具链的改善. 2000年 ...
- python和nltk自然语言处理书评_python自然语言处理_自然语言处理入门
说明:本文是<Python数据分析与数据化运营>中的"3.12.4 自然语言文本预处理".下面是正文内容-与数据库 本文从概念和实际操作量方面,从零开始,介绍在Pyth ...
- 自然语言理解和自然语言处理_自然语言处理简单说明
自然语言理解和自然语言处理 什么是自然语言处理? (What is natural language processing?) Natural language processing, or NLP, ...
- 自然语言c,自然语言处理_自然语言处理常用方法举例说明 - 人工智能 - 电子发烧友网...
自然语言处理简介 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向.它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法.自然语言处理是一门融语言学.计算机科学.数学于一体的科学 ...
- 高等代数第3版下 [丘维声 著] 2015年版_机器学习与线性代数简明教程(下)
机器学习与线性代数简明教程(上) 线性代数在机器学习(ML)和深度学习(DL)中是必不可少的.即使我们努力为许多理论创建精确的机器学习模型,线性代数仍然是这些研究中的重要工具. 正交矩阵 如果方形矩阵 ...
- pcfg 自然语言处理_自然语言处理导航
NLTK教程: jieba教程: tensorflow教程: Machine Learning Repository:(可下载机器学习中的数据集) NLP参考资源 自然语言处理(Natural Lan ...
- pcfg 自然语言处理_自然语言处理的笔记
MVA M2 课程,不定期整理更新. Lecture 1 - part 1 linguistic data phonological level - sentence-level analysis, ...
- nlp自然语言处理_自然语言处理(NLP):不要重新发明轮子
nlp自然语言处理 介绍 (Introduction) Natural language processing (NLP) is an intimidating name for an intimid ...
- 通信原理简明教程 | 物联网通信技术简介
文章目录 1 物联网通信技术概述 1.1 物联网通信的产生和发展 1.2 物联网通信系统 2 RFID技术 2.1 RFID系统的组成 2.2 RFID系统的工作原理 2.3 RFID的典型应用 3 ...
最新文章
- 如何在GPU上优化卷积
- JAVA基础(JAVA 执行环境) 第一天
- linux下定义删除变量
- windows 8 远程桌面(RemoteFX )
- 排序算法 —— 计数排序
- junit进行单元测试_通过JUnit规则轻松进行AppEngine单元测试
- 3-idiots HDU - 4609 FFT模板
- Maven学习(1) - Maven入门
- 大数据项目之dmp用户画像
- 基于BP神经网络和ORL库的人脸识别matlab仿真
- JAVA中利用Docx4J组件操作word文档,进行docx格式文档的创建、写入、读取、转换html、图片处理示例、转换pdf
- s3f9454可c语言编程,微处理器S3F9454BZZ-DK94
- Oracle 错误疑难解决方案和总结
- 在iPhone/iPad端运行DebianLinux系统【iSH-AOK】
- 数据结构知识点 -- 链表(Java实现)
- 尚硅谷在线教育九:尚硅谷在线教育NUXT搭建前台环境以及相关页面的编写
- 基于蜜蜂优化算法的投资组合优化问题(Matlab代码实现)
- 2020-10-24立下目标可好
- 2023 TIOBE 2月编程语言榜:年度语言是TA!
- Windows的批处理脚本
热门文章
- lsi计算文档相似度
- latex字母/数字双线字体
- 中职生计算机应用试卷分析,中职计算机应用基础学业水平测试问题的相关分析...
- 软件工程系组织12级学生到工商学院参加比赛
- cmd 新建文件和新建文件夹
- matlab,python 写kml文件(点,线,多边形)
- 人脸识别5.2- insightface人脸3d关键点检测,人脸68个特征点、106个特征点;人脸姿态角Pitch、Yaw、Roll、
- Matlab画图常用的指令是啥,matlab画图常用命令
- java 弹弹堂源码_弹弹堂s应用宝版下载
- (转载)你的个人信息是如何被盗走的?MySQL脱库,脱库的原理,怎么脱库,脱库的步骤,一库三表六字段