论文The Penn Discourse TreeBank 2.0 主要介绍了第二版PDTB数据集

摘要

对100万词华尔街日报语料库进行标注,标注其基于词汇的语篇关系(Discourse relations)及其对应的两个arguments,主要包含一下三个部分:

(1)语篇关系及其arguments
(2)语义标注
(3)归因标注

这里说得可能有点抽象,后面会针对每一个做具体的解释。

注意:Penn Discourse TreeBank (PDTB)数据集与Penn Treebank(PTB)数据集,Prop-bank 标注了相同的目标数据(华尔街日报语料),但是PDTB提供了更加丰富的内容,包括语法,语义以及语篇方面。

语篇关系及其arguments

在PDTB数据集中,语篇关系(Discourse relations),通过语篇连接词(discourse connectives)进行标注。如下图所示,通过连接词 As a result 连接上下两句。


PDTB中的语篇关系可以大致分为两种类型,一种是显式关系,一种是隐式关系。每种语篇关系对应两个arguments,记为Arg1Arg2

显式关系

由显式连接词连接两个arguments,如上图中,通过连接词 As a result 将上下两句标注为因果关系。

显式连接词可以分为以下三类:

  • 从属连词,例如when,because,since等
  • 并列连词,例如and,so,but等
  • 语篇副词,例如for example, instead, on the other hand等

此外,还有一些带修饰语的连接词和多重连接词的情况,例如 only because, if and when等。还有一小部分的并列连词,例如,either…or, on the one hand…on the other hand等

在显式关系中,Arg2是连接词在语法上绑定的argument,Arg1则是另一个argument。相邻句子之间的关系中,Arg1Arg2反映了arguments的线性顺序,Arg1在Arg2之前。

对于从属连词,因为从句通常是和连接词绑定的,因此,从句是Arg2,主句是Arg1. 在文本中,其顺序可以是Arg1-Arg2(下图例2),也可以是Arg2-Arg1(下图例3),或者Arg2嵌在Arg1中(下图例4)。

图中的连接词用横线表示,Arg1用斜体表示,Arg2用加粗表示。


对于语篇副词和并列连词,arguments的顺序通常为Arg1-Arg2,但是也有特殊情况,下图例5给出了语篇副词的Arg1嵌在Arg2中

显式连接词的arguments不会被限制在单个从句或者单个句子中,通常会和多个从句或者句子有联系。然而,最小性原则(minimality principle)要求一个argument包含完成关系解释所需的最小信息量。 其他与关系解释相关,但不必需的文本都被标注为补充信息,Arg1的补充记为Sup1Arg2的补充记为Sup2

显示连接词arguments的位置和范围是抽取式摘要和自然语言生成关注的问题。由于,Arg2是显式连接在语法上绑定的,所以识别显式连接的Arg2比识别Arg1更容易。下图给出了显示连接词的Arg1的位置和范围的分布,行代表位置,列代表范围。

 Arg1的位置SS: Arg1和连接词在同一句中IPS:Arg1在相邻的上一句中NAPS:Arg1在不相邻的前面的句子中FS:Arg1在包含连接词的句子后面的句子中
Arg1的范围
SingleFull:单个完整的句子
SinglePartial:单个句子的一部分
MultFull:多个完整的句子
MultPartial: 多个句子的部分

数据集中的显示连接词的例子,其中第一种和第二种比较多

  1. 显式句内连接
    (1)The drug seems to suppress ovulation for three to seven months after it is taken
    Explicit after
    (2)taken about a week after a woman misses her menstrual period up through the seventh week of pregnancy, when it is markedly less effective
    Explicit about a week after
  2. 显式相邻句间连接
    (1)They didn’t panic during the first round of selling this morning. Instead, they bought on weakness and sold into the strength, which kept the market orderly
    Explicit Instead
    (2)Of course, some observers have touted Houston and Denver for the past five years as a counter-cyclical play. But now appears to be the time to act
    Explicit But
  3. 显示连接横跨多句
    (1)By some measures, metropolitan Denver’s economy has actually improved in the past four years.
    Its population has continued to increase since 1983, the peak year of the economic cycle.
    Employment is now 4% higher than in 1983.
    Buying income in real dollars actually increased 15% between 1983 and 1987 (the most recent year available).
    The rates of increase, however, are less than the rapid growth of the boom years
    Explicit however
    (2)But with foreign companies snapping up U.S. movie studios, the networks are pressing their fight harder than ever.
    They hope the foreign deals will divide the Hollywood opposition and prod Congress to push for ending federal rules that prohibit the networks from grabbing a piece of rerun sales and owning part of the shows they put on the air.
    Even network executives, however, admit privately that victory – either in Congress or in talks with the studios – is highly doubtful any time soon.
    And so the networks also are pushing for new ways to sidestep the “fin-syn” provisions
    Explicit also

隐式关系

两个相邻句子之间没有显示的连接词进行连接,语篇关系是由读者推断出来的。如下图例6所示,虽然没有显式的连接词,但是可以推断出式因果关系。标注者通过阅读前文和上下句来判断是否需要插入连接词来表示某种语篇关系。段落内所有连续的句子对之间(包括以分号或者冒号隔开的从句之间)会被标注隐式连接词。连续的句子对即是语篇关系对应的两个arguments


此外,还有三种比较特殊的隐式关系类别,AltLex, EntRel 以及NoRel

AltLex:插入隐式连接词会导致冗余,因为语篇关系已经由非连接词表达(下图例7)
EntRel:句子之间是基于实体的连贯关系(下图例8)
NoRel:句子之间没有语篇关系或者实体连贯关系(下图例9)

PDTB数据集中不同语篇关系的统计,这里将三个特殊的隐式关系AltLex, EntRel 以及NoRel作为单独的类:

语义标注

一个语篇连接词可以有多种意义,例如下图中,句子10中连接词since代表时序Temporal,句子11中连接词since是因果Causal。句子12中连接词since是既有因果Causal的意思,又有时序Temporal的意思。PDTB中的语义标注(Sense Annotation),就是指出当前连接词对应的那哪种语义更为适用。

PDTB遵循层次分类方法为语篇关系提供语义标签,包括显式关系、隐式关系以及AltLex关系。语义标签突出了连接词的多义性,因此PDTB在词义消歧任务中也很有用。下图给出了PDTB中语篇关系的三级语义标签,分别为CLASSTYPESUBTYPE

设置三级语义标签的好处在于:当无法推断出更细的标签类别,或者对于更细的标签类别,不同的标注者存在歧义时,可以选择更高级别的类别作为标注结果。另外,不同级别标签数量是根据数据和任务的性质决定的。PDTB中的语篇关系对应的语义是由两个标注者分开标注的,在不同级别标签的上的标注一致性如下图所示:

下图展示了在CLASS级别(一级标签)上,不同的语篇关系的分布情况:

下图展示了显式关系中十个最多义的连接词及其语义标签的分布,若某语义标签在数据集中出现的次数少于10,则被标注为other

可以看出,after, since,when连接词代表不同时的情况,其语义标签可能在TEMPORAL和CONTINGENCY中,易混淆。while, meanwhile连接词代表同时的情况,其语义标签可能在TEMPORAL和CONTINGENCY中,易混淆。but, however,although连接词的语义标签可能在Contrast和Concession中,但是都属于COMPARISON,很少出现在其他的CLASS中。

一个连接词可能对应多个语篇关系:

in turn
{'Temporal', 'Expansion', 'Contingency'}
Then
{'Temporal', 'Expansion'}
still
{'Temporal', 'Comparison'}
meanwhile
{'Temporal', 'Expansion', 'Comparison'}
in the end
{'Temporal', 'Expansion', 'Contingency', 'Comparison'}
Or
{'Contingency', 'Expansion', 'Comparison'}
In that case
{'Expansion', 'Contingency'}
now that
{'Temporal', 'Contingency'}
and
{'Temporal', 'Comparison', 'Expansion', 'Contingency'}

归因标注

归因标注(Attribution Annotation)即识别语篇关系及其两个arguments的主体(agents)。例如下图,句子14中的关系以及arguments的主体是文本作者,句子15中的关系及其arguments的主体是Bill Biedermann(除作者之外的其他人),句子16中Arg1的主体是文本作者,而Arg2主题是purchasing agents

图中,代表归属者的短语用文本框标识

PDTB数据集标注出不同文本段对应的agents,并给出了四个相应的特征

Source特征:区分不同类型的 agents

  • 文本作者,记为Wr
  • 文本中提到的其他agents,记为Ot
  • 通过非特定的引用指出的任意agents,记为Arb

统计表明,不能简单地把语篇系及其arguments归于文本的作者,三分之二的情况下都是错误的。

Type 类型:编码agent和抽象对象之间的性质,包括四种类型:

  • 断言命题(assertion propositions)
  • 信念命题(belief propositions)
  • 事实(fact)
  • 可能性(eventualities)

在具体标注中,Type类型分别对应以下四种标注:

  • 表示沟通的动词,标注为Comm,例如say, mention, claim, argue, explain等
  • 表示命题态度的词,标注为PAtt,例如 believe, think, expect, suppose, imagine等
  • 实格动词和半实格动词,标注为Ftv,例如 regret, forget, remember, know, see, hear等
  • 控制动词,标注为Ctrl,例如persuade, permit, promise, intend, want, expect等。

Scopal polarity极性:识别表面上(或语法上)否定了归因动词,实际上否定了argument,通俗点说,就是否定转移,具体例子如下图,实际上表达额意思是I think it’s not a main consideration,如果存在这种模式,相应argument,标注为Neg,例子中,Arg2标注为Neg。其他情况默认为Null

Determinacy确定性:在特定的范围内,对关系或argument的归因可以被取消,比如在否定、条件句或不定式的范围内,通俗一点说,就是归因存在不确定性。例如下图中的例子,因为有动词不定式“to think”的存在,无法确定后面的argument应该归因到谁。

这种不确定性由值Indet表示,而确定则默认用Null标记

归因和语篇关系是不同的,它们涉及的对象不一样,前者涉及agents和抽象对象,后者涉及两个抽象对象。在RST-Bank 和GraphBank中以相同的方式处理归因和语篇关系,结果是产生了不必要地复杂语篇结构。

github上放出的数据

更具体的信息可以看标注手册

The Penn Discourse TreeBank 2.0相关推荐

  1. NAACL’21 | 来看如何让模型学会因为所以但是如果

    文 | Eleanor 编 | 戏 有一些标准考试那是真的难,难到能分分钟教你做人.对于留学党来说,申请法学博士需要 LSAT 考试成绩.申请商学院需要 GMAT 考试成绩.这些标准考试到底有多难,大 ...

  2. 事件、事件抽取与事理图谱

    事件.事件抽取与事理图谱 人类社会是一个静态事物进行动态活动所创造形成的世界,人类的命题记忆是以"事件"为存储单位的,存储的是组成事件的概念及其之间的关系以及事件及其之间的关系,以 ...

  3. 逻辑推理阅读理解任务及方法

    每天给你送来NLP技术干货! 作者:哈工大SCIR 孙一恒 1.背景 机器阅读理解(Machine Reading Comprehension, MRC)作为自然语言处理领域中的一个基本任务,要求模型 ...

  4. ACL 2020三大奖项出炉!知名学者夫妇曾先后获终身成就奖,时间检验奖回溯95年经典著作...

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 自然语言处理顶会ACL 2020今年以线上的形式举办,时间从7月5日至7月10日. 但从投稿数量来看,此次会议热度依旧不减,达到了历年最高的 ...

  5. 【CIPS 2016】(1-3章)词法、句法、语义、语篇分析(研究进展、现状趋势)

    CIPS 2016 笔记整理 <中文信息处理发展报告(2016)>是中国中文信息学会召集专家对本领域学科方 向和前沿技术的一次梳理,官方定位是深度科普,旨在向政府.企业.媒体等对中文 信息 ...

  6. 医学自然语言处理(NLP)相关论文汇总之 ACL 2021

    医学自然语言处理(NLP)相关论文汇总之 ACL 2021 [写在前面]ACL2021前段时间已经放榜,一直没时间整理,最近抽时间整理了一下该会议在医疗自然语言处理方向上的相关论文,放在这里,希望对大 ...

  7. Cognitive Inference:认知推理下的常识知识库资源、常识推理测试评估与中文实践项目索引...

    作者 | 刘焕勇 责编 | 李雪敬 出品 | CSDN博客 CognitiveInference Cognitive Inference,认知推理.常识知识库.常识推理与常识推理评估的系统项目,以现有 ...

  8. 认知推理下的常识知识库资源、常识测试评估与中文实践项目索引

    作者 | 刘焕勇 责编 | 李雪敬 出品 | CSDN博客 Cognitive Inference Cognitive Inference,认知推理.常识知识库.常识推理与常识推理评估的系统项目,以现 ...

  9. Cognitive Inference:认知推理下的常识知识库资源、常识推理测试评估与中文实践项目索引

    CognitiveInference Cognitive Inference,认知推理.常识知识库.常识推理与常识推理评估的系统项目,以现有国内外已有的常识知识库为研究对象,从常识知识库资源建设和常识 ...

最新文章

  1. 谷歌教机器人理解语义,像人一样学习复杂技能 | 附3篇论文
  2. Web性能API——帮你分析Web前端性能
  3. 3、Angular JS 学习笔记 – Controllers [翻译中]
  4. acwing 7 混合背包
  5. C#类型与SQLSEVER类型对比
  6. android最新设计规范,Android应用未来的设计规范
  7. 张首晟教授:区块链让社会变得更加公平 与人工智能的结合令人激动 | IT领袖峰会...
  8. [LeetCode]--3. Longest Substring Without Repeating Characters
  9. 【算法】算法求出2个超大正数相加
  10. GHOSTXP_SP3
  11. 如何通过Chrome中的代码设置JavaScript断点?
  12. 小学教育专业有计算机课程吗,小学计算机课程教学工作总结
  13. HTML注册页面代码实现(案例)
  14. chrome浏览器打开base64图片
  15. 互换性与测量技术基础总复习题(答案)
  16. minecraft图标文件_如何在任何操作系统上查找Minecraft保存的游戏文件夹
  17. 高通8996启动流程-2.总体启动流程
  18. 树莓派4b ubuntu 设置屏幕热插拔
  19. 【jquery】jquery $.fn $.fx是什么意思
  20. smm整合pom依赖

热门文章

  1. PHP特级课视频教程_第二集 网站大数据存储_李强强
  2. oracle 表(下)
  3. GZip、Deflate压缩算法对应的C#压缩解压函数
  4. 网上无意中看到的一句话。。。
  5. OpenCV-闭运算(CLOSE)
  6. 搭建apache_??4、Apache环境web搭建
  7. 湖南工商大学计算机网络原理,李小龙(湖南工商大学计算机与信息工程学院副院长)_百度百科...
  8. python2多线程_python_并发编程——多线程2
  9. Java多线程编程实战(读书笔记)
  10. mac笔记本安装tree工具显示文件目录结构