连接词(discourse connectives)分析可以分为两种:

  1. 语篇关系预测,包括显示关系和隐式关系,显示关系有明显的连接词存在,隐式关系没有明显的连接词存在,但是可推断出来
  2. 语篇连接词的预测,语篇连接词(Discourse connectives)也被称之为discourse markers, discourse cues 或者discourse adverbials,用于把文本片段结合在一起。

这两个任务之间关联很大:

论文Easily identifiable discourse relations提出,如果已知语篇连接词,推断出显示语篇关系的准确率为达93.09%。这启发了一些工作通过预测连接词来提高隐式语篇关系预测。

后来的研究表明,一个语篇连接词实际上可以表达多个语篇关系。

相关研究:
Recovering discourse relations: Varying influence of discourse adverbials
Filling in the Blanks in Understanding Discourse Adverbials: Consistency, Conflict, and Context-Dependence in a Crowdsourced

也就是说,语篇连接词和语篇关系不是一一对应的。来自PDTB数据集的一个样例,连接词meanwhile既可以表示对比关系,又可以表示时序关系,还可以表示进一步阐述。对应的语篇关系需要根据上下文确定。

meanwhile可能的语篇关系 : {'Temporal', 'Expansion', 'Comparison'}
['Comparison', 'Contrast', 'Juxtaposition']
When Mr.Korotich took it over in 1986, it sold 250,000 copies; today it sells 3.4 million. Meanwhile, Pravda has retained only 57% of its 1986 readership
['Temporal', 'Synchrony']
American Medical accepted the offer, meanwhile indicating it had heard from two other suitors

连接词预测

(1) 利用语篇关系来预测连接词存在或者省略

2013年:Predicting the Presence of Discourse Connectives

基于句子的语言特征和语篇关系来预测两个句子之间的连接词是存在还是省略,二分类问题。

使用PDTB数据集来构造训练集和测试集。 对于显式连接关系,去掉非相邻的句间关系。因为隐式连接关系只考虑了相邻句子之间的关系。最后的训练集如下:

利用如下三个特征,进行二分类:

  • Relation-level features
  • Argument-level features
  • Discourse-level features

仅用部分特征做实验的结果:

总的实验结果:

(2)构造数据集来预测连接词,共19种连接词,另外还加上没有连接词这一类

2018年:Automatic Prediction of Discourse Connectives

准确预测合适的语篇连接词(however, furthermore)是任何旨在从较短的句子和段落构建连贯流畅的语篇的系统的关键组成部分。

论文仅仅考虑相邻的句子并且后一句开头是连接词的情况

数据收集

使用从PDTB数据集统计得到的79个连接词,因为论文仅仅考虑相邻的句子并且后一句开头是连接词的情况,排除掉一些数据:

  • 对于和前一句无关的连接词不考虑。例如,After the election, [...]
  • 对于易混淆,不知道是连接前一句的还是连接当前句后面内容的,加上逗号标识。例如Instead,
  • 并列的连接词不考虑,例如 If [...] then [...]

从英文维基百科中抠出相邻句子对(同一个段落里面),其中包含195w包含连接词的和91w不包含连接词的,共286w句子对。各个连接词数量是极其不平衡的。however 出现了720334次,else仅仅出现了43次。论文仅仅选择一些比较高频连接词,并且对于含义完全相同的连接词,不重复考虑,例如for examplefor instance 。最终得到的连接词及其频次如下表,共19类,加上没有连接词类[No connective],共20类。


对不同类别数据做平衡处理,包括[No connective]类,并分成训练集,验证集和测试集。来自同一片维基百科文章的不会同时属于三个集合,从而防止过拟合。训练集400000条,验证集10000条,测试集10000条。

模型

论文使用NLI任务使用的模型,出自论文A decomposable attention model for natural language inference。

语篇连接词预测与NLI任务有关,因为某些连接词(例如,therefore和by contrast)可以明确地表示蕴涵和矛盾关系。

实验结果


其中, Human Raters 是人为预测的结果,人为对10000个相邻的句子填入连接词。共有三个人,其中两两一致的比率为57.1%,三个人一致的比率为11.4%。这也说明。连接词的使用是相对主观的。

主观性:不同的连接词放在相同的上下文表达不同的意思

Bob saw Alice was at the party, then he went home
Bob saw Alice was at the party, so he went home
Bob saw Alice was at the party, but he went home

人为填入连接词,很容易被认为是[No connective]无连接词,从下面的左图混淆矩阵可以看出。此外,其他连接词容易被误识别为高频的连接词,例如howeverand

右图模型预测结果,一些意思相近的连接词会混淆,例如,howevernevertheless, insteadrather,以及thenfinally,这和人为填入的结果是一致的。此外,要确定使用 thenfinally,可能需要考虑更多的上下文。

自己的实验结果:

论文放出了自动构建的句子对以及划分好的训练集,验证集和测试集。也给出了人工标注的1w的句子对。
https://github.com/ekQ/discourse-connectives

语篇关系预测

一般使用PDTB数据集,进行相邻句子对的隐式语篇关系分类,有的做第一级别的分类,有的更细做第二级别的分类。

相关论文:

2020年:On the Importance of Word and Sentence Representation Learning in Implicit Discourse Relation Classification

第一列是PDTB的第一级语篇关系4分类,第二列是PDTB第二级常见语篇关系11分类

2019年:DisSent: Learning Sentence Representations from Explicit Discourse Relations


第一列是PDTB隐式语篇连接关系11分类,第二列是其他任务

连接词词典

2018年:Constructing a Lexicon of English Discourse Connectives

通过对两个标注语料的合并收集以及另一个关系列表使用,本文提出了一个新的英语语篇连接词词典DiMLex-Eng。XML格式,包含149个英文语篇连接词,以及每个连接词对应的变体,语法类别,以及作为非连接词的用法。

来源:

  1. Penn Discourse Treebank,简称PDTB
  2. RST Signalling Corpus, 简称RST-SC
  3. 关系列表,来自论文Dentifying justifications in written dialogs by classifying text as argumentative

连接词词典:https://github.com/discourse-lab/en_dimlex
在线查询:http://connective-lex.info/ 包含了各种语言对应的连接词

介绍类文章

2018年:Primary and secondary discourse connectives: Constraints and preferences

论文探讨了在写文章时,影响语篇连接词选择的语言因素。关注主连接词primary connectives(通常是一个词的表达,如therefore)和次连接词secondary connectives(语篇短语,如for this reason)之间的竞争。试图描述在连接词选择上的语言约束和偏好。论证了语篇连接词的使用符合语言的经济原则,即作者力求用最少的努力达到最大的效果。他们通常选择短的和语义上更广义的主连接词。然而,在语篇关系可能被误解的情况下,才会倾向于更复杂和具体的结构。

其他

1998年 discourse marker choice in sentence planning

语篇分析之连接词分析相关推荐

  1. 【CIPS 2016】(1-3章)词法、句法、语义、语篇分析(研究进展、现状趋势)

    CIPS 2016 笔记整理 <中文信息处理发展报告(2016)>是中国中文信息学会召集专家对本领域学科方 向和前沿技术的一次梳理,官方定位是深度科普,旨在向政府.企业.媒体等对中文 信息 ...

  2. 多模态理论张德禄_《霸王别姬》海报的多模态语篇分析

    著作权归作者所有商业转载请联系作者获得授权,非商业转载请注明出处. 作者:何沂 杨泽群 来源:张国荣艺术研究吧 链接:<霸王别姬>海报的多模态语篇分析[张国荣艺术研究吧]_百度贴吧 摘要: ...

  3. 河南专升本公共英语语法考点分析---代词、介词、连接词

    语法考点分析---代词.介词.连接词 一.代词 代词用法注意点 代词考点分析 二.介词 相近介词(短语)辨析 介词考点分析 三.连词 使用连词注意点 连词考点分析 一.代词 代词用法注意点 名词性所有 ...

  4. 考博英语长难句分析-连接词that、for与what的用法

    考博英语让大家头痛的问题有两个,一是词汇量不够,很多单词不认识,另一个就是单词都认识但是句子依然不知道意思.只要这两个问题解决了,考博英语的难度就降低了很多. 就考博英语的阅读理解来看,大家存在的问题 ...

  5. 考博英语长难句分析— 连接词which与for的用法

    考博英语让大家头痛的问题有两个,一是词汇量不够,很多单词不认识,另一个就是单词都认识但是句子依然不知道意思.只要这两个问题解决了,考博英语的难度就降低了很多. 就考博英语的阅读理解来看,大家存在的问题 ...

  6. NLP+语篇分析(五)︱中文语篇分析研究现状(CIPS2016)

    摘录自:CIPS2016 中文信息处理报告<第三章 语篇分析研究进展.现状及趋势>P21 CIPS2016 中文信息处理报告下载链接:http://cips-upload.bj.bcebo ...

  7. 试卷分析报告matlab,试卷分析报告(精选10篇)

    试卷分析报告(精选10篇) 试卷分析是教学环节中不可缺少的部分,它可以反映出学生的学习情况,好的试卷可以准确的反映出学生得学习情况.下面和小编一起来看试卷分析报告(精选10篇),希望有所帮助! 试卷分 ...

  8. [安全攻防进阶篇] 一.什么是逆向分析、逆向分析应用及经典扫雷游戏逆向

    从2019年7月开始,我来到了一个陌生的专业--网络空间安全.初入安全领域,是非常痛苦和难受的,要学的东西太多.涉及面太广,但好在自己通过分享100篇"网络安全自学"系列文章,艰难 ...

  9. 查看队列深度_不为人知的网络编程(十一):从底层入手,深度分析TCP连接耗时的秘密...

    " 本文作者张彦飞,原题"聊聊TCP连接耗时的那些事儿",本次收录已征得作者同意,转载请联系作者.即时通讯网收录时有少许改动.本文已同步发布于52im社区:http:// ...

最新文章

  1. 高质量的友谊总是发生在两个优秀的独立人格之间
  2. python自学 知乎-学习Python的迷茫,如何高效有趣地学习Python?
  3. 基于协同训练的半监督文本分类算法
  4. 【机器学习】逻辑回归优化技巧总结(全)
  5. leetcode 1. 两数之和 思考分析
  6. 数据库连接池问题[转]
  7. 用一句话解释什么是装饰器
  8. [环境] OpenAI gym经典控制环境CartPole-v0 介绍
  9. Spring注解解析
  10. maven仓库中心mirrors配置多个下载中心(执行最快的镜像)
  11. 数据结构开发(11):双向循环链表的实现
  12. 知名厂商设备图标库大全
  13. 在线php网站扫描,一个简单的php在线端口扫描器
  14. 未来无生经超级计算机,第三十二章 有些鸡肋的未来无生经
  15. linux scp 自动备份,linux Oracle 自动备份并scp
  16. 基于STM32的ESP8266天气时钟(2)--------MCU获取天气数据
  17. 销售凭证、客户主数据
  18. 牛客网C语言 算学分绩
  19. eoLinker-AMS接口管理系统 项目管理教程
  20. 计算机组成原理片级逻辑图,计算机组成原理试题(五)

热门文章

  1. Access to XMLHttpRequest at ‘xxx‘ from origin ‘http://localhost:8082‘has been blocked by CORS policy
  2. Android 文件系统目录分析(手机系统目录分析)
  3. 在ROS2中,通过MoveIt2控制Gazebo中的自定义机械手
  4. POWER BI学习之EARLIER()函数
  5. 2021 年 MathorCup 高校数学建模挑战赛——大数据竞赛B题
  6. linux 7.0 域名,RHEL 7.0已发布 CentOS 7 即将到来
  7. 微信公众号错别字在线检查工具
  8. 载体坐标系-惯性坐标系-世界坐标系
  9. 计算机专业要不要考研
  10. NAXX Demo3_JSQ_03