原论文

动机

作文结构方面的反馈可以帮助写作者建立一个清晰的结构,从而组织好作文中的句子和段落。

现有的作文评分的系统有的仅仅得到一个分数。有的只给出单个句子结构反馈,或者反馈不具有改进指导意义

论文贡献

  1. 提供了一个修辞结构理论RST的标注资源包,可以用来标注学生作文
  2. 强调了修辞结构理论RST自动提供有效作文反馈方面的巨大潜力

获得语料

虽然已经有修辞结构理论的语料,但是可能和学生作文关系不大。论文从作文自动反馈系统网站重新收集获取了学生英文作文语料

标注目标

论文认为一篇结构好的作文,应该会在各个部分之间建立有意义的关系。当不能识别到有意义的关系时,就需要对作文结构进行修改。

自动生成结构方面反馈的目标是通过重新组织结构,让学生知道应该做哪些改进

作文RST结构的一个例子:

RST结构的叶子节点是EDU(Elementary Discourse Units),论文中将一句话作为EDU,在原始的RST结构中使用更小的粒度。

多个EDU通过修辞关系组成一个文本段text span。上图包含6个EDU(28-33)和4个文本段(29-31, 28-31, 32-33, and 28-33)

首先将作文分句,然后按照一定的结构组织成作文,最后给出反馈

标注细节

为了适应作文数据,将原始的RST的修辞关系做了一些改变,并且数据集因为隐私问题不会放出。主要标注以下三种单元EDUs, text spans, paragraphs。修辞关系有以下三类:

NN = 两个EDU都是核心(多核心关系)
NS = 左边的EDU是核心,右边的EDU是卫星
SN = 左边的EDU是卫星 右边的EDU是核心

文献Rhetorical Structure Theory: A Theory of Text Organization提出了23种修辞关系,论文在这些修辞关系的基础上,对下图所示修辞关系,做了一些合并消除改变等操作。

虽然这些改变看起来很随意,但作者认为有必要在标注过程中做出这些改变,以减少混淆,增加标注的可靠性。

标注流程:

  1. 将作文分割成EDU
  2. 识别每个paragraph种的中心思想,并找出对应的EDU
  3. 从左到右,识别paragraph种两个相邻EDU之间的修辞关系。首先需要评判两个EDU之间是否同样重要,更重要的EDU是核心,另一个是卫星;如果同等重要,则两个EDU都是核心。然后根据修辞关系的定义,给出两个EDU之间的关系,例如NS-elaboration
  4. 识别两个文本段text-span之间的修辞关系,同第3步
  5. 识别不同paragraph之间的关系,同第3步,如果修辞关系是Joint,代表两个段落之间关系不大

标注系统,以三种RST修辞关系为例,从上到下包括修辞关系definitions, 修辞关系对应的例句对, 修辞关系对应的连接短语, 和修辞关系所属的更高层的修辞关系

从RST结构获得反馈

连贯指的是文章中的句子是如何连接的,以及文章是如何组织的。
RST可用于提供可操作的写作反馈,以提高传统的自动连贯评分不足

以第一个图种的RST结构为例,修辞关系Joint代表低连贯性。图中有两个文本段,但是者两个文本段没有清晰的连在一起。

文本段28-31列出了加入俱乐部的三个好处,文本段32-33可能想表达鼓励人们加入俱乐部,但意图并不明确,因为没有提到加入俱乐部。

另外,在特定的作文体裁方面,提供反馈,结合修辞关系,也可以指导高质量的写作。

个人评价

  1. 标注的数据集未公开
  2. 仅仅举了一个Joint代表低连贯性的例子,对于其他修辞标签该如何判断连贯性呢?
  3. 最终整体的连贯性该怎么获得

Applying Rhetorical Structure Theory to Student Essays for Providing Automated Writing Feedback相关推荐

  1. 最终篇!AAAI 2022值得读的NLP论文盘点

    ©PaperWeekly 原创 · 作者 | 王馨月 单位 | 四川大学 研究方向 | 自然语言处理 机器翻译 1.1 FCL 论文标题: Frequency-Aware Contrastive Le ...

  2. 内蒙古师范大学计算机科学技术学院,内蒙古师范大学计算机科学技术硕士生导师——李成城...

    李成城,教授,硕导,1971年7月出生于内蒙古呼伦贝尔盟.2002年9月-2005年7月在北京邮电大学信息工程学院学习,获得工学博士学位,主要研究领域是:自然语言理解.机器学习.图像识别.1993年在 ...

  3. 论文阅读:A Survey on Why-Type Question Answering Systems

    "WHY"类型问答系统的研究 文章目录 "WHY"类型问答系统的研究 0. 摘要 1. 介绍 2. 数字助手 VS 问答系统 3. 重要的定义 4. QA系统的 ...

  4. Sentence Centrality Revisited for Unsupervised Summarization

    ACL 2019 Sentence Centrality Revisited for Unsupervised Summarization github 单文档的文本摘要任务已经取得了不错的进展,不同 ...

  5. TextTiling: Segmenting Text into Multi-paragraph Subtopic Passages阅读笔记

    #一个"#"号后面不敢打空格的开头: 论文地址:TextTiling: Segmenting Text into Multi-paragraph Subtopic Passages ...

  6. 论文泛读记录(多模情感分析/探测;厌恶语音探测;属性级情感分析;CVPR2022和ACL2022 三元组/对比学习/视觉语言预训练/机器翻译/预训练模型/机器阅读理解)

    文章目录 1.1 CTFN: Hierarchical Learning for Multimodal Sentiment Analysis Using Coupled-Translation Fus ...

  7. MySQL 学生表(Student)、课程表(Course)、成绩表(Score)以及教师信息表(Teacher)

    设有一数据库,包括四个表:学生表(Student).课程表(Course).成绩表(Score)以及教师信息表(Teacher).四个表的结构分别如表1-1的表(一)~表(四)所示,数据如表1-2的表 ...

  8. ACL 2016 会议论文全集

    网页地址 http://anthology.aclweb.org/P/P16/,内有下载连接 网页内容: ACL Logo ACL Anthology A Digital Archive of Res ...

  9. 二十世纪模型论发展迅猛,势不可挡

    二十世纪模型论发展迅猛,势不可挡 希尔伯特在"几何基础"中最初形成了数学模型的思想,数学进入新的发展轨道. 1954年,塔尔斯基悬宣布数学模型论正式成为现代数学的一个新分支,而且, ...

最新文章

  1. day3.python 学习之列表
  2. android:imeOptions属性
  3. SAP系统硬件解决方案
  4. Matlab去掉数组中0
  5. LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS —— 读后总结
  6. 基于casperjs、resemble.js实现一个像素对比服务
  7. C语言(CED)王老师爬楼梯,他可以每次走1级或者2级,输入楼梯的级数,求不同的走法数(递归求解)
  8. Redmi K50标准版工信部入网:搭载骁龙870 没有12GB内存
  9. HDU2050 由直线分割平面推广到折线分割平面
  10. kafka消费者如何读同一生产者消息_kafka学习笔记
  11. 北大 宾州树库 语料标注集
  12. 富勒wms系统里的定时器id_视频案例 全面升级的康缘药业物流系统
  13. 轻松实现页面提交时,显示“提交中..”
  14. 给本本K46C升级内存并升级64位WIN7
  15. mysql 如何去掉毫秒_mysql 如何去掉毫秒值
  16. PTA团队练习题C语言
  17. Java核心技术卷一 -第十二章:多线程
  18. UI交互设计学习心得《一》
  19. HLS ARRAY_PARTITION
  20. 18年美亚杯团体赛内存部分

热门文章

  1. Session分三级做处理。
  2. Exchange Server2010系列之二:部署三合一角色(CAS+HT+MBX)
  3. NA/NP/IE最好的模拟器GNS3 part2
  4. linux下Oracle 10g的安装
  5. 8086汇编语言将一串字符串内小写字母转换为大写字母,其余字符不变(全注释)
  6. C++-采样函数GridSampling(采样提速必备)
  7. mysql 写不进数据库_求助,为何我的数据不能写入数据库
  8. python time库_python中time库的实例使用方法
  9. 干货||Selenium自动化测试网页
  10. Python零基础入门(一)——Python基础关键字和语法[学习笔记]