Applying Rhetorical Structure Theory to Student Essays for Providing Automated Writing Feedback
原论文
动机
作文结构方面的反馈可以帮助写作者建立一个清晰的结构,从而组织好作文中的句子和段落。
现有的作文评分的系统有的仅仅得到一个分数。有的只给出单个句子结构反馈,或者反馈不具有改进指导意义
论文贡献
- 提供了一个修辞结构理论RST的标注资源包,可以用来标注学生作文
- 强调了修辞结构理论RST自动提供有效作文反馈方面的巨大潜力
获得语料
虽然已经有修辞结构理论的语料,但是可能和学生作文关系不大。论文从作文自动反馈系统网站重新收集获取了学生英文作文语料
标注目标
论文认为一篇结构好的作文,应该会在各个部分之间建立有意义的关系。当不能识别到有意义的关系时,就需要对作文结构进行修改。
自动生成结构方面反馈的目标是通过重新组织结构,让学生知道应该做哪些改进
作文RST结构的一个例子:
RST结构的叶子节点是EDU(Elementary Discourse Units),论文中将一句话作为EDU,在原始的RST结构中使用更小的粒度。
多个EDU通过修辞关系组成一个文本段text span。上图包含6个EDU(28-33)
和4个文本段(29-31, 28-31, 32-33, and 28-33)
首先将作文分句,然后按照一定的结构组织成作文,最后给出反馈
标注细节
为了适应作文数据,将原始的RST的修辞关系做了一些改变,并且数据集因为隐私问题不会放出。主要标注以下三种单元EDUs, text spans, paragraphs
。修辞关系有以下三类:
NN = 两个EDU都是核心(多核心关系)
NS = 左边的EDU是核心,右边的EDU是卫星
SN = 左边的EDU是卫星 右边的EDU是核心
文献Rhetorical Structure Theory: A Theory of Text Organization提出了23种修辞关系,论文在这些修辞关系的基础上,对下图所示修辞关系,做了一些合并消除改变等操作。
虽然这些改变看起来很随意,但作者认为有必要在标注过程中做出这些改变,以减少混淆,增加标注的可靠性。
标注流程:
- 将作文分割成EDU
- 识别每个paragraph种的中心思想,并找出对应的EDU
- 从左到右,识别paragraph种两个相邻EDU之间的修辞关系。首先需要评判两个EDU之间是否同样重要,更重要的EDU是核心,另一个是卫星;如果同等重要,则两个EDU都是核心。然后根据修辞关系的定义,给出两个EDU之间的关系,例如NS-elaboration
- 识别两个文本段text-span之间的修辞关系,同第3步
- 识别不同paragraph之间的关系,同第3步,如果修辞关系是
Joint
,代表两个段落之间关系不大
标注系统,以三种RST修辞关系为例,从上到下包括修辞关系definitions, 修辞关系对应的例句对, 修辞关系对应的连接短语, 和修辞关系所属的更高层的修辞关系
从RST结构获得反馈
连贯指的是文章中的句子是如何连接的,以及文章是如何组织的。
RST可用于提供可操作的写作反馈,以提高传统的自动连贯评分不足
以第一个图种的RST结构为例,修辞关系Joint
代表低连贯性。图中有两个文本段,但是者两个文本段没有清晰的连在一起。
文本段28-31列出了加入俱乐部的三个好处,文本段32-33可能想表达鼓励人们加入俱乐部,但意图并不明确,因为没有提到加入俱乐部。
另外,在特定的作文体裁方面,提供反馈,结合修辞关系,也可以指导高质量的写作。
个人评价
- 标注的数据集未公开
- 仅仅举了一个
Joint
代表低连贯性的例子,对于其他修辞标签该如何判断连贯性呢? - 最终整体的连贯性该怎么获得
Applying Rhetorical Structure Theory to Student Essays for Providing Automated Writing Feedback相关推荐
- 最终篇!AAAI 2022值得读的NLP论文盘点
©PaperWeekly 原创 · 作者 | 王馨月 单位 | 四川大学 研究方向 | 自然语言处理 机器翻译 1.1 FCL 论文标题: Frequency-Aware Contrastive Le ...
- 内蒙古师范大学计算机科学技术学院,内蒙古师范大学计算机科学技术硕士生导师——李成城...
李成城,教授,硕导,1971年7月出生于内蒙古呼伦贝尔盟.2002年9月-2005年7月在北京邮电大学信息工程学院学习,获得工学博士学位,主要研究领域是:自然语言理解.机器学习.图像识别.1993年在 ...
- 论文阅读:A Survey on Why-Type Question Answering Systems
"WHY"类型问答系统的研究 文章目录 "WHY"类型问答系统的研究 0. 摘要 1. 介绍 2. 数字助手 VS 问答系统 3. 重要的定义 4. QA系统的 ...
- Sentence Centrality Revisited for Unsupervised Summarization
ACL 2019 Sentence Centrality Revisited for Unsupervised Summarization github 单文档的文本摘要任务已经取得了不错的进展,不同 ...
- TextTiling: Segmenting Text into Multi-paragraph Subtopic Passages阅读笔记
#一个"#"号后面不敢打空格的开头: 论文地址:TextTiling: Segmenting Text into Multi-paragraph Subtopic Passages ...
- 论文泛读记录(多模情感分析/探测;厌恶语音探测;属性级情感分析;CVPR2022和ACL2022 三元组/对比学习/视觉语言预训练/机器翻译/预训练模型/机器阅读理解)
文章目录 1.1 CTFN: Hierarchical Learning for Multimodal Sentiment Analysis Using Coupled-Translation Fus ...
- MySQL 学生表(Student)、课程表(Course)、成绩表(Score)以及教师信息表(Teacher)
设有一数据库,包括四个表:学生表(Student).课程表(Course).成绩表(Score)以及教师信息表(Teacher).四个表的结构分别如表1-1的表(一)~表(四)所示,数据如表1-2的表 ...
- ACL 2016 会议论文全集
网页地址 http://anthology.aclweb.org/P/P16/,内有下载连接 网页内容: ACL Logo ACL Anthology A Digital Archive of Res ...
- 二十世纪模型论发展迅猛,势不可挡
二十世纪模型论发展迅猛,势不可挡 希尔伯特在"几何基础"中最初形成了数学模型的思想,数学进入新的发展轨道. 1954年,塔尔斯基悬宣布数学模型论正式成为现代数学的一个新分支,而且, ...
最新文章
- day3.python 学习之列表
- android:imeOptions属性
- SAP系统硬件解决方案
- Matlab去掉数组中0
- LANGUAGE MODELS ARE OPEN KNOWLEDGE GRAPHS —— 读后总结
- 基于casperjs、resemble.js实现一个像素对比服务
- C语言(CED)王老师爬楼梯,他可以每次走1级或者2级,输入楼梯的级数,求不同的走法数(递归求解)
- Redmi K50标准版工信部入网:搭载骁龙870 没有12GB内存
- HDU2050 由直线分割平面推广到折线分割平面
- kafka消费者如何读同一生产者消息_kafka学习笔记
- 北大 宾州树库 语料标注集
- 富勒wms系统里的定时器id_视频案例 全面升级的康缘药业物流系统
- 轻松实现页面提交时,显示“提交中..”
- 给本本K46C升级内存并升级64位WIN7
- mysql 如何去掉毫秒_mysql 如何去掉毫秒值
- PTA团队练习题C语言
- Java核心技术卷一 -第十二章:多线程
- UI交互设计学习心得《一》
- HLS ARRAY_PARTITION
- 18年美亚杯团体赛内存部分
热门文章
- Session分三级做处理。
- Exchange Server2010系列之二:部署三合一角色(CAS+HT+MBX)
- NA/NP/IE最好的模拟器GNS3 part2
- linux下Oracle 10g的安装
- 8086汇编语言将一串字符串内小写字母转换为大写字母,其余字符不变(全注释)
- C++-采样函数GridSampling(采样提速必备)
- mysql 写不进数据库_求助,为何我的数据不能写入数据库
- python time库_python中time库的实例使用方法
- 干货||Selenium自动化测试网页
- Python零基础入门(一)——Python基础关键字和语法[学习笔记]