第十一篇:Discourse 话语/论述
目录
话语
大纲
话语分割
无监督方法
监督方法
有监督的话语分割器
话语解析
话语单元DU
话语关系
核与卫星
RST树
RST 解析
使用话语标记进行解析
使用机器学习进行解析
自底向上解析
自顶向下解析
话语解析特征
回指解析Anaphora Resolution
动机
先行词限制
先行词偏好
实体和参考
中心理论
对于一个表达(Utterance) Un
中心算法
有监督的回指解析
回指解析工具
总结
话语
• 我们学到的大多数任务/模型都在单词或句子级别运行:
‣ 词性标注
‣ 语言模型
‣ 词法/分布语义
• 但 NLP 经常处理文档
• 话语:了解文档中句子之间的相互关系
大纲
• 话语分割
• 话语解析
• 回指解析
话语分割
• 可以将文档视为段序列
• 一段:一段连贯的文本
• 凝聚力:围绕一个主题或功能进行组织
• 比如 科学文章:介绍、相关工作、实验
无监督方法
• TextTiling 算法:寻找句子之间词汇衔接低的点
• 对于每个句子间隙:
‣ 创建两个 BOW 向量,由间隙两侧的 k 个句子中的单词组成
‣ 使用余弦获得两个向量的相似度分数 (sim)
‣ 对于间隙 i,计算深度分数,当深度大于某个阈值 t 时插入边界
监督方法
• 从简单的来源获取带标签的数据
‣ 科学出版物
‣ 维基百科文章
有监督的话语分割器
• 应用二元分类器来识别边界
• 或使用顺序分类器
• 可能包括章节类型的分类(介绍、结论等)
• 集成更广泛的功能,包括
‣ 分布式语义
‣ 话语标记(因此,和等)
话语解析
• 确定话语单元,以及它们之间的关系
• 修辞结构理论 (RST) 是对文档中的话语结构进行层次分析的框架
话语单元DU
• 句子的典型从句
• DU 不跨越句子边界
• [它确实有美丽的风景,] [自指环王以来最好的一些。]
• 2 个合并的 DU = 另一个复合 DU
话语关系
• 话语单元之间的关系:
‣ 连词、证明、让步、阐述等
‣ [它确实有美丽的风景,]
↑(详述)
[自指环王以来最好的一些。]
核与卫星
• 在话语关系中,一个论点是核心(主要论点)
• 支持论点是卫星
‣ [它确实有美丽的风景,]核心
↑(详述)
[自指环王以来最好的一些。]卫星
• 有些关系是相等的(例如合取),因此两个参数都是核心
‣ [他是一个讨人喜欢的家伙,]核心
↑(连词)
[我讨厌看到他死。]核心
RST树
• RST 关系将两个或多个 DU 组合成复合 DU
• 重复合并 DU 的过程,创建 RST 树
RST 解析
• 任务:给定一个文档,恢复 RST 树
‣ 基于规则的解析
‣ 自下而上的方法
‣ 自上而下的方法
使用话语标记进行解析
• 一些话语标记(提示短语)明确表示关系
‣ 虽然,但是,例如,换句话说,所以,因为,总而言之,......
• 可用于构建简单的基于规则的解析器
• 然而
‣ 许多关系没有用话语标记来标记
‣ 许多话语标记不明确(例如和)
使用机器学习进行解析
• RST 话语树库
‣ 300 多个用 RST 树注释的文档
• 基本理念:
‣ 将文档分割为 DU
‣ 将相邻的 DU 迭代组合成复合 DU 以创建完整的 RST 树(自底向上解析)
自底向上解析
• 基于转换的解析(第 13篇会讲):
‣ Greedy,使用shift-reduce算法
• CYK/图表解析算法(第 14 篇会讲)
‣ 全局,但一些约束阻止 CYK 找到全局最优树进行话语解析
自顶向下解析
1. 将文档分割成 DU
2. 确定一个边界,分成 2 个部分
3. 对于每个段,重复步骤 2
话语解析特征
• 词袋
• 话语标记
• 开始/结束 n-gram
• 在文本中的位置
• 语法特征
• 词汇和分布相似性
回指解析Anaphora Resolution
• 回指:指回文本中较早元素的语言表达
• 回指在话语中有先行词,通常但不总是名词短语
‣ 昨天,艾伦上班迟到了。 这一切都始于他的车无法启动。
• 代词是最常见的回指
• 但还有其他各种
‣ 指示词(那个问题)
动机
• 深度语义分析必不可少
‣ 对 QA 非常有用,例如阅读理解
泰德的车抛锚了。 于是他到比尔家去借他的车。 比尔说那很好。
借谁的车?
先行词限制
• 代词的数量必须与其先行词一致
‣ 当 Ted 到达时,他的同事正在离开吃午饭。 他们邀请了他,但他拒绝了。
• 代词的性别必须与其先行词一致
‣ 当泰德到达时,苏正在吃午饭。 她邀请了他,他拒绝了。
• 其先行词是同一句法从句的主语的代词必须是自反的 (...self)
‣ Ted was angry at him. [him ≠ Ted]
‣ Ted was angry at himself. [himself = Ted]
先行词偏好
• 代词的先行词应该是最近的
‣他又等了20分钟,电车没有来。 于是他走回家,把自行车从车库里拿出来。 他开始骑它上班。
• 先行词应该是显着的,由语法位置决定
‣ 主语 > 宾语 > 介词论据
‣ Ted 通常骑马和 Bill 一起工作。 他从不迟到。
实体和参考
• 话语 16.1(左)更加连贯
• 代词都始终指代约翰,主角
中心理论
• 统一论述话语结构和实体指称之间的关系
• 话语中的每个表达都以一组实体为特征,称为中心
• 解释某些实体对含糊代词的偏好
对于一个表达(Utterance) Un
• 向前看中心:
‣ Un中的所有实体:
Cf(Un) = [e1, e2, …]
‣ Cf(16.1a) = [约翰,音乐商店,钢琴]
‣ 按句法显着性排序:主语 > 宾语
• 向后看中心:
‣ 先前表达 (Cf(Un-1)) 中排名最高的向前看中心,同时也在当前话表达(Un) 中
‣ 16.1b 中的候选实体 = [John, music store]
‣ Cb(16.1b) = [约翰]
‣ 不是音乐商店,因为 John 在之前话语的向前看中心 Cf(Un-1) 中的排名更高,所有确定了He指的是John
中心算法
• 解析实体以进行回指解析时,选择实体以使顶部的向前看中心与向后看中心匹配
• 为什么? 因为满足这个条件,文字读起来更流畅
文本是连贯的,因为最顶端的向前看中心与每个表达的向后看中心相匹配:
向前看中心 = 约翰
向后看中心 = 约翰
Cf(16.2b) = [music store, John]
Cb(16.2b) = [John]
Cf(16.2d) = [music store, John]
Cb(16.2d) = [John]
有监督的回指解析
• 为照应(回指)/先行词对构建二元分类器
• 将限制和偏好转换为特征
‣ 数字/性别兼容性的二进制特征
‣ 先行词在文本中的位置
‣ 包括关于先行词类型的特征
• 有足够的数据,可以逼近中心算法
• 但也很容易包含可能有用的特征
‣ 回指/先行词周围的词
回指解析工具
• 斯坦福 CoreNLP 包括代词共指模型
‣ 基于规则的系统还不错
‣ 比神经网络模型快得多
参考地址
总结
• 对于许多任务,考虑比句子大的上下文很重要
• 传统上,许多流行的 NLP 应用程序都以句子为中心(例如机器翻译),但这种情况正在开始改变……
第十一篇:Discourse 话语/论述相关推荐
- 解剖SQLSERVER 第十一篇 对SQLSERVER的多个版本进行自动化测试(译)
原文:解剖SQLSERVER 第十一篇 对SQLSERVER的多个版本进行自动化测试(译) 解剖SQLSERVER 第十一篇 对SQLSERVER的多个版本进行自动化测试(译) http://i ...
- 秒杀多线程第十一篇 读者写者问题
与上一篇<秒杀多线程第十篇 生产者消费者问题>的生产者消费者问题一样,读者写者也是一个非常著名的同步问题.读者写者问题描述非常简单,有一个写者很多读者,多个读者可以同时读文件,但写者在写文 ...
- Python开发【第十一篇】:JavaScript
Python开发[第十一篇]:JavaScript JavaScript是一门编程语言,浏览器内置了JavaScript语言的解释器,所以在浏览器上按照JavaScript语言的规则编写相应代码之,浏 ...
- CCIE-LAB-第十一篇-DMVPN+IPSEC+BGP
CCIE-LAB-第十一篇-DMVPN+IPSEC+BGP 实际中,思科只会给你5个小时去做下面的全部配置 这个是CCIE-LAB的拓扑图 问题 翻译: 根据以下要求纠正导致DC.Branch3和Br ...
- CCNP-第十一篇-BGP(三)(精髓篇)
CCNP-第十一篇-BGP(三) BGP十三条线路原则(大点) 能修改的前7条,後6条是无法修改的,所以实际上7条 跟ACL一样,从上往下执行,比如第一条比较出来了就不会继续往下了 工作中比较多用的, ...
- CCNA-第十一篇-VTP+STP(上)
CCNA-第十一篇-VTP+STP(上) VTP:VLAN中继协议(VLAN Trunking protocol )利用第2层中继帧,在一组交换机之间进行VLAN通信 STP:生成树,交换机的冗余协议 ...
- 坚持的力量 第十一篇
第十一篇 自然 天空星辰满布,我仰望着夜空,用一颗虔诚的心去信仰. 在每一个晚自习的路上,那咯咯的笑声,便是一种自然,无时无刻不激荡在自己内心深处的痛. 求学十几年来,伤痕累累,面目全非,不 ...
- 第十一篇 浅拷贝和深拷贝
第十一篇 浅拷贝和深拷贝 ## 预备知识 在python的变量知识中,定义一个变量,是在内存中分配一块空间,在这块空间上"贴上"引用(引用就是变量名),空间里面是变量值(地址就是这 ...
- 奋斗的小孩系列 FPGA学习altera系列: FPGA学习altera 系列 第二十一篇 数码管设计
奋斗的小孩系列 FPGA学习altera系列: FPGA学习altera 系列 第二十一篇 数码管设计 作者:奋斗的小孩 郝旭帅(转载请注明出处) 大侠好,欢迎来到FPGA技术江湖,江湖偌大,相见即是 ...
最新文章
- js判断 IE 浏览器
- Nginx+Keepalived实现双机热备
- Python 命令行参数
- MapReduce编写实现wordcount词频统计
- 【图解篇】斯达康XV6700刷机超完整教程!!!
- 软件设计和设计的问题
- jconsole 使用_我的Wiki:使用JConsole对WildFly(或JBoss AS7)进行远程JMX访问
- Postgresql 批量导入导出表数据
- termux无法安装引导程序包_Windows 10出现升级BUG:无法保留用户个人数据
- 我用 Python 集齐了支付宝五福!
- java学习软件_刚学习java,用哪些学习软件比较好?
- 基于SSM的房屋出租管理系统设计与实现
- apache commons-beanutils中BeanUtils和PropertyUtils区别
- php-screw 安装,php源码加密:php_screw 安装与使用
- 麻雀优化算法SSA及其改进策略
- 2023年品牌惊蛰节气海报赏析
- Oracle求同比SQL
- 如何基于Arduino开发板使用BH1750环境光传感器
- OpenSSL SSL_read: Connection was aborted, , errno 10053
- 2019年个人成长总结
热门文章
- 微信是把“杀猪刀”,还改变了我的表情包
- “深度学习之父”大谈AI:寒冬不会出现,论文评审机制有损创新
- 公开课报名 | 详解CNN-pFSMN模型以及在语音识别中的应用
- 同样是AI技术,为什么只有一加6称得上“全速”旗舰?
- 处理 Exception 的几种实践,很优雅,被很多团队采纳!
- 如何实现对ELK各组件的监控?试试Metricbeat
- 这玩意比ThreadLocal叼多了,吓得我赶紧分享出来。
- 轻松两步,我在 SpringBoot 服务上实现了接口限流
- 如何编写最佳的Dockerfile
- ECUG 全球技术大会重回上海!