摘要

可读性评估是对给定文本的阅读难度进行评估的一项任务。虽然对可读性评估的计算方法的研究已经有20年的历史了,但是对这一研究的综合研究还没有太多的工作。本文是对当前可读性评估计算模型发展的简要综述。我们确定了常见的方法,讨论了它们的缺点,并确定了未来的一些挑战。在可能的情况下,我们还将计算研究与其他学科(如教育和心理学)的相关工作联系起来。

1介绍

自动可读性评估(ARA)指的是针对给定的目标读者,对给定文本的阅读和理解难度进行建模。这在面向机器和面向人类的场景中都有广泛的应用。一些面向人类场景的例子有:选择合适的语言教学阅读材料(Collins-Thompson和Callan, 2004),支持有学习障碍的读者(Rello等人,2012)和自主学习(Beinborn等人,2012)。在面向机器的场景中,ARA被用于信息检索研究,根据阅读水平对搜索结果进行排名(Kim等人,2012),生成针对阅读水平控制的翻译文本(Marchisio等人 2019;Agrawal和Carpuat, 2019年),并评估自动文本简化(Alva-Manchego等人,2020年),举几个例子。ARA的一个著名的现实应用是TextEvaluator,用于确定一种阅读材料是否适合于课堂教学中的某一年级水平除了这些在NLP周围和领域内的用途,可读性评估的一般思想还用于一系列其他场景。一个常见的案例是在医学研究中,它被用于评估患者教育材料(Sare等人,2020年)和同意书(Perni等人,2019年;例如,Lyatoshinsky等人,2019年)。尽管在NLP中大量的ARA研究偏向于教育应用,但这种广泛的应用范围凸显了ARA作为NLP的重要应用之一。

关于衡量阅读文本的难易程度的研究已经有将近一个世纪的历史了(例如,桑代克(1921),莱弗利和普雷西(1923),沃格尔和沃希伯恩(1928))。这类早期研究的重点是创建难词列表和/或开发可读性的“公式”,这是一个简单的加权线性函数,便于计算变量,如文本中单词的数量/长度/句子,难词的百分比等。这就产生了几个可读性公式,如Flesch Reading Ease (Flesch, 1948), SMOG (McLaughlin, 1969), Dale-Chall可读性公式(Dale and Chall, 1948)等(见Dubay(2007)对这些公式的详细调查)。

NLP 的研究人员只是在过去的二十年里才开始对这个问题感兴趣。Si 和 Callan (2001年)是第一个使用 ARA 的统计方法,我们的知识。从那时起,从统计语言模型和基于特征工程的机器学习方法到更新的深层神经网络,一系列的方法已经被探索到目前为止。尽管如此,我们的知识,很多情况下涉及使用 ARA 依赖于传统的公式,甚至在 NLP。例如,Marchisio 等人(2019年)使用“传统公式”,如 Dale-Chall,Flesch-Kincaid可读性测试等作为可读性的测量,以控制机器翻译文本的阅读水平。在 NLP 之外的场景中,例如前面提到的医学研究中的用例,人们会注意到传统公式的强大支配地位。造成这种情况的可能原因可能是缺乏对 ARA 最新技术的认识,或者难以轻松地使用ARA。

分析出现这种情况的原因需要对ARA研究进行详细的调查,以了解其适应性的局限性。据我们所知,迄今为止只有一项综合性的ARA调查(Collins-Thompson, 2014)。从那时起,出现了许多新的ARA方法,其他学科的研究人员,如教育,也发表了他们对ARA方法的验证和评估的观点(如Hiebert和Pearson(2014))。在这样的背景下,本文旨在重新审视ARA,并在必要时考虑其他学科的投入,同时也涵盖了对ARA各个方面的最新研究。

我们首先概述主题(部分1和2)和总结当代ARA NLP通过识别研究一些常见的趋势(第三节)。然后,我们讨论他们的缺点(4节),试图理解为什么这大量的研究并不反映在它的使用在不同的应用场景。最后,我们确定了未来研究的一些挑战(第5部分)。在可能的情况下,我们也将从其他学科的工作中汲取见解。请注意,我们在本文中交替使用术语可读性和文本复杂性,这在NLP研究中是常见的,尽管我们可以看到这些术语在教育或心理学文献中使用的更细微的差异(例如,Valencia等人(2014))。我们希望这项调查对以下三类读者有特别的帮助:

1. 专门研究ARA和其他相关问题(如文本简化)的研究人员可能会发现,这项调查有助于理解当前的趋势,并确定未来研究的挑战。

2. 其他NLP研究人员可以获得ARA的总体概况,以及如何将其纳入他们的系统。

3.来自其他学科的研究人员希望在他们的研究中使用ARA,可以了解该领域的研究状态,以及他们可以轻松使用什么。

2相关工作

虽然NLP社区在开发跨语言可读性评估的计算模型方面做了很多工作,但综合这项研究的工作还不多。据我们所知,CollinsThompson(2014)是关于这一主题的最新、全面的调查。他对ARA的各种方法进行了详细的概述,并确定了以用户为中心的模型的开发、易于专门用于新领域的数据驱动度量,以及将领域/概念知识纳入现有模型作为未来的一些潜在研究方向。franceois(2015)介绍了可读性评估的历史回顾,重点关注传统公式的早期研究,并指出了未来工作面临的三个挑战——训练数据的有效性、针对不同领域开发ARA方法以及在不同粒度(例如:单词和句子)。

在NLP之外,Nelson等人(2012)使用一系列阅读难度注释语料库对一些现有的专有文本难度指标(英语)进行了比较和评估,并评估了这些措施对教育的影响。几年前,《小学期刊》(Elementary School Journal)发表了关于理解文本复杂性的特刊(Hiebert和Pearson, 2014),其中就ARA及其对教育的影响的各个方面提供了多学科视角。结论是,可读性涉及文本之外的维度,需要更多的研究在这个主题,特别问题警告说,只关注文本可读性分数的危险。虽然这些不是调查文章,但我们在这里列出了它们,因为它们总结了这个主题的研究结果,我们认为,这些结果在NLP研究中不是常识。

在当前的调查中,我们将从NLP和其他学科的现有研究中汲取信息,关注ARA研究的最新发展,了解它们的局限性,并重新评估当前ARA面临的挑战。我们主要关注过去二十年的研究,以及描述计算方法的论文。我们在这篇论文中的目标是提供一个研究趋势的总体概述,而不是详细列出这一时期关于这一主题的所有发表的研究。虽然我们的目标是在这项研究中保持语言不可知论,但我们不能避免英语的过度描述。

3自然语言处理中ARA研究的现状

在自然语言处理文献中,ARA通常被建模为监督机器学习问题。因此,典型的ARA方法遵循图1中描述的管道。

ARA方法依赖于一个黄金标准的训练语料库,语料库上标注了表示阅读水平类别的标签,或表示分级量表的数字,该语料库要么已经存在,要么专门为该任务(语料库)创建。与任何机器学习问题一样,下一步包括特征提取和训练模型(可读性模型)。这个过程的最后一步是评估模型的有效性(evaluation)。这个过程中一个不太常见但很重要的步骤是验证。本节的其余部分通过概述研究人员在处理ARA的这些阶段所采取的代表性方法,以及与Collins-Thompson(2014)的调查相比,在最近几年发生了什么变化,详细讨论了每一个步骤。

3.1语料库

ARA中的训练数据来自各种来源。它们可以大致分为两类:专家注释和非专家注释。教科书或其他由训练有素的作者针对特定年级的读者精心准备的分级读物可以被称为“专家注释”。这些是ARA研究中最常见的训练数据形式。另一方面,一些ARA的工作也依赖于可用的网页内容,或者做众包实验和用户研究来收集数据。图2总结了ARA研究中不同形式的数据源,我们将逐一详细讨论。

Textbooks:教科书是一个常见的训练数据来源ARA研究可用的地方,好几种语言,如英语(Heilman et al ., 2007),日本(佐藤et al ., 2008),德国(Berendes et al ., 2018),瑞典(Pilan et al ., 2016),法国(法郎¸ois Fairon, 2012)和孟加拉(伊斯兰教et al ., 2012),等等。他们被认为自然适合ARA研究,因为人们会期望文本的语言特征会随着学校年级的增加而变得更加复杂。遵循使用教科书的类似方法,Xia等人(2016)从不同熟练程度的语言考试中收集阅读理解文章,用于构建ARA模型。然而,并不总是可能有一个现成的教科书数据集,因为许多教科书也有版权或非数字化的格式。因此,以上提到的大部分语料库是其他研究人员无法获得的。另一个比较接近的选择是使用分级阅读器。

Graded Readers:我们是指由教师或其他专家编写的非教科书阅读材料,按照阅读水平的不同分类,称为分级读物。通常,这些材料来自改写的新闻文章,以适应目标阅读水平或从百科全书文章分别为成人和儿童写。WeeBit (V ajjala and Meurers, 2012)是广泛用于英语ARA的分级读者语料库之一。在最近的过去,语料库如Newsela (Xu et al., 2015)和OneStopEnglish (V ajjala和Luˇci´c, 2018)被创建为英语,可称为Paired Graded Readers。这些语料库在每个读取级别上不再拥有一组不相关的文档,而是重写相同的文档以适应不同的读取级别。其中一些还在段落和句子的层次上对齐。Newsela语料库也曾用于构建文本简化系统(ˇStajner和Nisioi, 2018),并在过去生成不同阅读水平的机器翻译文本(Agrawal和Carpuat, 2019)。

Other web content:在上面我们看到的所有这些情况中,假设我们有一个现有的文本来源,并按阅读水平/等级分类。然而,情况并非总是如此,尤其是在为一门新语言开发ARA方法时。因此,从web中找到具有某种固有的阅读级别分组形式的其他文档是很常见的。Simple Wikipedia2与维基百科一起被广泛用于构建英语的易与难的ARA系统(Napoles and Dredze, 2010)。该模型的一个句子对齐版本也被用于建模文本简化(Hwang等人,2015)。其他此类网站已被用于英语(Vajjala和Meurers, 2013)、德语(Hancke等人,2012)、意大利语(Dell’orletta等人,2011)和巴斯克语(Gonzalez-Dios等人,2014)等其他ARA方法。采用一种稍微不同的方法,Eickhoff等人(2011)依赖于开放目录项目中的主题层次结构,根据它们是否适合某个年龄群体来对网络文章进行分组。Vajjala和Meurers (2014a)使用了一个电视节目字幕语料库,分为三个年龄段,从BBC频道收集。在缺乏带有阅读水平注释的现成语料库的情况下,这似乎是获取某种形式的分层文本语料库的最常见方式。

Crowdsourcing:上述所有方法都依赖于某种形式的现有数据源,适合用于培训ARA模型。De Clercq等人(2014)描述了ARA众包的有用性,即非专业读者/普通公众每次都会看到两篇文本(荷兰文),并被要求就他们的阅读难度进行比较。将这些判断与专家(如教师)的判断进行比较,他们得出结论,对于这项任务,众包是一种可行的替代专家注释的方法。

User studies: 另一种收集 ARA 语料库的方式是进行用户研究。例如,vor der Brück 等人(2008年)对500份来自市政领域的德语文件进行了一项用户研究,要求非专业的读者对文本进行7点李克特量表(李克特,1932年)的评分,并用它来构建一个 ARA 模型。与此类似,Pitler 和 Nenkova (2008年)进行了一项用户研究,要求大学生对《华尔街日报》的新闻文章进行评分,然后用评分来建立一个可读性模型。Stajner 等人(2017)在文本简化的背景下收集了用户判断的句子层面的文本复杂性,为原始,手动和自动简化的句子。一些研究也进行了这样的研究,以收集专家的注释。例如,Kate 等人(2010年)描述了一个通过用户研究收集的数据集,由专家和天真的读者分别评定。申等人(2013年)使用了专家收集并注释的数据集,这些数据集使用了阿拉伯语、达日语、英语和 Pashto 四种语言。然而,用户研究不是一个共同的模式,为 ARA 语料库的创建,由于时间和努力所涉及的。与此任务的其他方法相比,它们通常产生更小的数据集。

与语料库创建有些相关的是关于创建具有某种难度级别的注释词表的研究(Gala等人2013;francefris等人,2014;francefris et al., 2016),它们随后被用作ARA的特征(例如,文本中难词的百分比)。在这些不同形式的资源中,除了配对的分级读者和极少数来自“其他网络内容”的案例外,语料库中不同阅读水平的文本/词汇不一定处理相同的内容。例如,在常用的英语语料库之一的WeeBit语料库(Vajjala and Meurers, 2012)中,标记为不同阅读水平的文章并不共享相同的话题内容。正如我们将在下一小节中看到的,大多数ARA模型并没有特别控制主题变化。这让我们质疑ARA模型学习了什么——它是文本复杂性的概念,还是文本之间的主题差异?此外,这些语料库是否被证实适合目标受众是另一个重要的问题,这在ARA研究中通常没有解决。在这样的背景下,我们可以得出结论,自Collins-Thompson(2014)的调查以来,语料库的创造方向并没有发生太大的变化,仍然存在许多问题。

3.2可读性模型

ARA管道的第二步是构建可读性模型。在过去的二十年中,构建可读性模型的研究主要依赖于语言模型和基于特征工程的机器学习方法。最近的方法使用了各种深度学习架构,以及不同形式的文本嵌入。

预计会影响文本可读性的特征有多种形式,从简单的、容易计算的数字(如每个句子的字数)到更复杂的涉及估计文档中的话语结构的特征。虽然一些高级语言特征如连贯和衔接可能很难自动提取,但Coh-Metrix (Graesser et al., 2004)中实现的名词重叠等浅层变体通常被用作代理。同样地,不同类型的文本嵌入也不需要高级的语言处理,如解析、共参解析等,它们能捕捉文本的某种句法和语义特征。因此,我们不像通常那样根据语言类别对特征进行分组,而是根据本文中所需的语言处理量对特征进行分组。图3显示了ARA研究中使用的不同类型特性的摘要,并在每个步骤中提供了示例。

最近的一些研究集中在学习特定任务的嵌入(例如,Cha 等人(2017) ,Jiang 等人(2018))。虽然不常见,但在概念难度建模方面也有一些工作(Jameel 等人,2012)。一个经常被忽视的方面的 ARA 是读者。Kim 等人(2012)是少有的与 ARA 相关的工作之一,它将用户的兴趣、语言水平等属性纳入模型中,根据用户的阅读水平对搜索结果进行排名。虽然不是直接关于 ARA,诺尔斯等人(2016年)探索之间的关系的单词理解和学习者的母语。然而,虽然 ARA 的方法是为真正的用户在大多数情况下,我们并没有看到很多工作建模用户特征相对于 ARA。

基于ARA的特征工程方法通常采用特征选择方法,从更大的集合中选择最适合任务的特征子集。除了信息增益、特征相关等通用方法外,本文还探索了基于遗传算法的优化方法(De Clercq和Hoste, 2016)。

在使用的训练方法方面,ARA通常被建模为监督学习问题,尤其是分类问题。然而,它并不罕见地看到它被建模为回归(Vajjala和Meurers, 2014b)和排名(Ma et al., 2012)。Heilman等人(2008)比较了学习ARA模型的不同方法,表明序数回归更适合这项任务。Xia et al.(2016)表明,与分类相比,成对排序方法可以更好地一般化。与这些方法不同,Jiang等人(2019)提出了一种基于图传播的ARA方法,该方法可以在建模可读性时潜在地考虑文档之间的相互关系。

与其他NLP研究一样,ARA在过去两年中一直以基于神经网络的架构为主。例如,Mohammadi和Khasteh(2019)提出了一种使用深度强化学习的多语言可读性评估模型,孟等人(2020)提出了一种用于ARA的分层自注意变压器模型ReadNet。最近,Deutsch等人(2020)结合了语言特征和BERT (Devlin等人,2019)基于文本表示,表明迄今为止主导ARA研究的语言特征并不比深度学习模型做得更好。

一般来说,大多数可读性方法已经被证明适用于一种语言,或者针对每种语言开发了单独的模型。然而,阿兹皮亚祖和佩拉(2019;2020年)研究使用深度学习架构的多语言和跨语言ARA方法的发展。最后,尽管几乎所有的ARA研究都将其建模为监督学习问题,Martinc等人(2021)比较了神经文本可读性的不同监督和非监督方法。总之,我们可以注意到,过去20年的ARA研究紧跟NLP的其他领域,即传统的基于特征工程的方法在以前的研究中占主导地位,而最近的研究似乎看到更多的基于深度学习的方法。与之前的调查相比,大多数新的研究似乎都发生在ARA的这方面。

3.3评估

评估是我们评估 ARA 模型有多好的一步。任何 NLP 系统都可以由内部或外部进行评价。内在指的是独立地评估一个方法,而外在指的是在一个更大的系统中评估它。内在评价是最常见的形式,在 ARA 的研究。大多数描述 ARA 模型的论文从分类准确性、 pearson/spearman 相关性(回归/排序方法)、平方平均数误差(回归)和其他这样的测量方法来评价它们,这些测量方法包括测试数据或交叉验证的设置,就像传统的评价监督式学习方法一样。虽然它不是默认的,我们也看到多语料库评估,例如,在一个语料库上进行培训,在多个语料库上进行测试; 在多个语料库上进行培训和测试(Nelson 等人,2012; Vajjala 和 Meurers,2014b; Xia 等人,2016)。另一种评估 ARA 模型所预测的文本是否“简单”导致目标读者群体更好的理解的方法是通过用户研究。据我们所知,这样的评价还没有进行到目前为止的 ARA 模式

在外部评价方面,Pera和Ng(2012)以及Kim等人(2012)报道了将可读性方法集成到搜索引擎中并应用于个性化搜索的实验。Sheehan等人(2014)将ARA模型部署到现实世界的工具中。然而,这些例子更多的是例外而不是规范,外在评价在ARA研究中很少出现。因此,我们可以得出结论,内在评价是评价的主要方法,并且自2014年以来,除了一些多语料库的评价实验外,这方面并没有太大的变化。

3.4验证

验证是评估过程准确性的步骤。我们认为验证是一个不同于评估的步骤,因为我们在这里评估的是模型构建之前的各个阶段,而不是ARA模型本身。在ARA研究的背景下,验证是回答以下两个问题的步骤:

1. 用于模拟ARA的特征是否能够学习文本中的阅读水平差异?

2. 在语篇语料库中标注的阅读水平差异是否真正反映在读者的阅读体验中?即,(注释)阅读水平与读者理解有关系吗?

虽然这些问题似乎是显而易见的,并且在过去关于文本可读性的非计算性工作中已经提出了很多次(例如,Cunningham和Anne Mesmer(2014)),但在当代ARA研究中,在这个方向上的工作并不多。与TextEvaluator相关的研究(Sheehan等人,2014;据我们所知,之前提到的Sheehan, 2017)在这个方向上有唯一的详细分析。然而,这些都是在典型的NLP场所之外发表的,因此,可能不会引起ARA研究人员在NLP研究中的注意。除此之外,franceois(2014)对法语作为外语教材语料库进行了定性和定量分析,得出的结论是,专家评分之间缺乏一致的相关性,同一层次专家标注的文本在词汇和句法特征上存在显著差异。Berendes等人(2018)利用涵盖两个学校轨道和四个出版商的分级德语教科书多维语料库得出了类似的结论。

而针对可读性注释与读者理解之间关系的用户研究也不多(Crossley et al., 2014;Vajjala等人,2016;Vajjala和Lucic, 2019年),结论是混合的。其中,Vajjala和Lucic(2019)的最新研究得出结论,成对分级语料库中文本的阅读水平注释对读者的理解没有任何影响。综上所述,显然,在ARA的研究中,关于验证的工作还不多,这是一个需要进一步工作的领域。

4局限性

基于对当前趋势的概述,我们确定了以下可能阻碍现代ARA技术应用于NLP内外其他研究领域的局限性。

1. 多维和多模态ARA模型:文本可读性涉及文本的几个方面,从排版到语言学,从概念难度到更深层次的语用学。然而,当代ARA研究数十年来都集中在表层文本形式上。主题或概念上的困难没有被给予太多的重要性。在考虑它的时候,它通常不会与可读性的其他方面结合在一起。此外,文本不是孤立存在的。文档中总是伴随一些非文本数据,如表和/或图像。我们还没有意识到在计算建模的背景下有任何涉及这些方面的研究。总而言之,(据我们所知)目前还没有一个框架可以结合文本复杂性的多维、多模态观点。

2. 读者和任务考虑因素:教育和心理学研究通常将文本复杂性描述为文本属性、读者(用户)特征和任务复杂性的组合(Goldman和Lee, 2014;V alencia et al., 2014)。然而,在NLP中,ARA的研究几乎总是专注于文本,少量研究读者建模(Kim et al., 2012)。虽然开始出现了一些关于任务复杂性建模的研究(Kühberger et al., 2019),但我们还没有发现任何一种方法在ARA的背景下考虑任务复杂性或将所有这三个方面结合起来。

3.语料库资源的可用性:虽然显然有很多跨语言的ARA工作,但我们仍然没有看到很多公开可用的语料库。即使在可用的情况下,人们也会问语料库是否适合目标场景。例如,我们不能使用教科书的语料库来评估ARA模型,这些模型旨在服务于阅读障碍读者,因为阅读障碍读者所经历的阅读困难与在学校学习主题的第一语言读者完全不同。缺乏可用的(多样的)语料库可能会限制针对特定应用场景定制的ARA模型的开发。

4. 可用工具的可用性:与在线构建和使用ARA模型相关的可用代码并不多。虽然一些研究人员共享代码来重现他们的实验(例如,Ambati等人(2016),Howcroft和Demberg(2017)),但对于其他NLP研究人员或其他学科的研究人员来说,没有太多可用的代码或现成的工具。这些工具可能对来自其他学科的研究人员有用,他们希望使用可读性评估方法来回答他们自己领域的研究问题。

5. 缺乏外部评估:通常情况下,ARA方法是内在评估的,使用交叉验证或测试集。当我们考虑一篇典型的ARA研究论文时,很少看到外部评价。这使得实践者很难理解一种方法在应用场景中是否有效。

6. 缺乏验证和解释:构建ARA模型最常用的方法是使用一个可用的语料库,提取各种特征,训练不同的模型并对它们进行比较。然而,关于语料库是否适合任务,特征本身是否真的有用,或者它们是否有理论基础的研究很少。此外,很难理解一个模型究竟从文本复杂性中学到了什么。这些问题使得其他领域的研究人员很难采用现代ARA方法,他们转而求助于相对简单易懂的传统公式。

7. 什么是SOTA?由于论文通常不会详细报告他们的实验设置,所以即使是在不同的出版物上比较相同数据集的结果也是不可能的。因此,我们不知道现在的技术水平到底是什么。这再次使所有对ARA感兴趣的三个组(在第1节中提到)感到困难。

其中,无论是在其他NLP问题中使用ARA,还是在对ARA本身的进一步研究中,前三个局限性都是NLP研究者特别关注的问题。其余的限制在本质上更加普遍,并且会引起三个目标用户的兴趣。我们相信这些可能是阻止ARA的研究在ARA之外被接受的原因之一。

5挑战和开放性问题

鉴于上述限制及其潜在后果,我们确定了四个主要的挑战领域,未来需要进行更多的工作。

1. 开发文本可读性整体模型的框架:我们已经看到,ARA研究主要集中在文本特征,特别是那些专注于形式的研究。然而,正如我们之前所看到的,还有许多其他方面,如概念难度、排版特征、用户特征、任务特征等。一个明显的挑战是开发一个统一的ARA模型,包含所有这些方面。然而,它不是一个人或一个团队的工作,也不可能一蹴而就。因此,朝着这个方向迈出的重要的第一步(可以解决限制1 - 2)是设计一个易于扩展的框架,通过递增地添加多个维度,覆盖多模态数据,来构建可读性的整体模型。这也需要开发适当的语料库和其他适合这一目的的资源。

2. 适用于新领域的模型:任何ARA模型仍然可能只与目标领域/受众相关,并且可能不会直接转移到新的应用程序场景。因此,应该开发能够将现有模型转换为新的领域/受众的方法。朝着这个方向探索的一个潜在途径是将ARA模型作为一个排序问题,而不是分类或回归,因为它比过去的其他模型更能一般化(Xia等人,2016)。这可以解决前面提到的限制3。

3.创建开放和多样化的数据集和工具:如我们前面所见,开发适合多种语言的开放可访问的语料库是ARA研究的一个主要挑战。需要开发快速创建(和验证)语料库的新方法。最近数据增强方面的发展是否对开发ARA语料库有用也是未来可以探索的事情。为了对ARA的研究进行广泛的调整,并朝着整体模型的方向发展,应该开发现成的工具。Coh-Metrix (Graesser等人,2011)和CTAP3 (Chen和Meurers, 2016)等工具提供了一系列通常与可读性评估相关的语言特征,就是朝着这个方向迈出的一步。除此之外,还应该开发能够显示ARA模型预测结果的工具,以解决局限性3-4。

4. 开发最佳实践:为了支持可重用资源(语料库/代码)的创建,并能够复制/复制结果和理解SOTA,必须为ARA开发一组最佳实践。这方面的一些灵感可以从最近进行的REPROLANG挑战(Branco等人,2020年)的程序和发现中获得,该挑战进行了一项复制一些已发表的NLP研究的共享任务。ARA的最佳实践还应该包括验证语料库和开发的特性的指导方针,以及开发可解释方法的推荐程序。这在某种程度上可以帮助我们解决5-7的限制。这也可能会鼓励非nlp研究人员认真考虑在他们的研究中使用更多最新的ARA模型。这一挑战领域的某些方面(如验证、解释)需要NLP方法之外的专业知识,可能需要跨学科合作。

必须指出的是,其中一些挑战并不一定是针对ARA的,而且通常适用于整个NLP。这些关于未来挑战的想法并非详尽无遗,我们希望这次调查能就此展开更多讨论。

6结论

本文综述了近二十年来自然语言处理的可读性自动评价及其相关领域的研究进展。在这个过程中,我们发现了当代研究的局限性,并确定了一些未来的挑战领域。尽管进行了大量的研究,但我们还不清楚什么对ARA有效,也没有现成的工具和资源供对ARA感兴趣的不同类型的研究人员和从业者使用。此外,在以前的调查中提到的许多挑战仍然存在。从第1节的例子可以看出,可读性评估在NLP内外有着广泛的应用,我们认为解决这些问题并使ARA方法在NLP内外得到更广泛的应用是很重要的。

Trends, Limitations and Open Challenges inAutomatic Readability Assessment Research翻译相关推荐

  1. 语言学特征进行可读性评估(Readability Assessment)

    1 简介 本文根据2020年<Linguistic Features for Readability Assessment>翻译总结.从标题可以看出来是进行可读性评估(Readabilit ...

  2. Xamarin.Forms Layout Challenges – Great Places(已全文翻译)

    原文地址:https://www.kymphillpotts.com/xamarin-forms-layout-challenges-great-places/ (作者Kym Phillpotts) ...

  3. Jmeter对Web Socket进行压力测试 —— 200人直播课实战经验

    转载 Jmeter对Web Socket进行压力测试 -- 200人直播课实战经验 分类专栏: Jmeter 测试经验 Web Socket 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-S ...

  4. 译文 - Recommender Systems: Issues, Challenges, and Research Opportunities

    REF: 原文 Recommender Systems: Issues, Challenges, and Research Opportunities Shah Khusro, Zafar Ali a ...

  5. The Progress, Challenges, and Perspectives of Directed Greybox Fuzzing 论文笔记

    定向灰盒模糊技术的进展.挑战与展望 PUT program under test DSE directed symbolic execution 定向符号执行 Abstract 定向灰盒相对于普通灰盒 ...

  6. Paper:GPT-3《 Language Models are Few-Shot Learners》的翻译与解读

    Paper:GPT-3< Language Models are Few-Shot Learners>的翻译与解读 目录 <GPT-3: Language Models are Fe ...

  7. Paper:GPT-3之《 Language Models are Few-Shot Learners》的翻译与解读

    Paper:GPT-3之< Language Models are Few-Shot Learners>的翻译与解读 目录 <GPT-3: Language Models are F ...

  8. [论文解读]关于机器学习测试,看这一篇论文就够了 Machine Learning Testing: Survey ,Landscapes and Horizons

    Machine Learning Testing: Survey ,Landscapes and Horizons 文章目录 Machine Learning Testing: Survey ,Lan ...

  9. 近年推荐系统论文调查汇总

    现在推荐系统得到了广泛的应用,在百度.京东.淘宝.豆瓣等均到看推荐系统的影子.推荐系统属于机器学习的范畴,是一种预测模型,其类型大致可以分为:(1)用户评分预测推荐(2)top-n 推荐(3)分类推荐 ...

最新文章

  1. [Jsp] 如何在JSP页面快速输出从Servlet接收的数据_看JSTL常用C标签的威力
  2. PropertyGrid 控件使用方法
  3. 山西计算机工程师职称英语,山西中级工程师职称在线查询
  4. JAVA实现可视化的xpath_【Java】爬虫基础 -- XPath 小案例
  5. 点击添加一行_微信接龙表格操作方法图文教程,以及微信聊天框怎么另起一行...
  6. docker-compose.yml(2)
  7. 高可用之2——存储b
  8. ccd视觉定位教程_CCD视觉定位激光打标机的工作原理
  9. 矩阵转置与矩阵对称性的关系
  10. Linux普通用户su root权限的开启和禁止
  11. vue3.0之写tsx语法
  12. nodejs mysql 耗硬盘_nodejs操作MySQL其实很简单
  13. 什么是VLAN?VXLAN?以及VLAN和VXLAN的区别?
  14. 中关村发布:大数据企业分布图等3张图
  15. 如何利用百度网页地图查看某个地方的经纬度
  16. JAVA图片处理大全
  17. TortoiseSVN服务端和客户端--百度云下载
  18. Blender 3.5 全新逼真视觉效果
  19. java基于springboot的企业员工人事工资管理系统
  20. sap生产工单报工_SAP中单张工单报工完成还能入库吗

热门文章

  1. 【JAVA SE】java中的String类
  2. java游戏大唐双龙传后传,大唐龙凤传(大唐双龙传后续)
  3. 如何合并音频文件图文教程
  4. PB使用WININET的FTP方式自动更新(四、下载)
  5. 使用在线UML制作工具Freedgo Design设计uml例子
  6. be服务器未正常运行2.6.43,绝地求生be服务器未正常运行2.6.43怎么解决?
  7. 迷你计算机主板,打造最强MINI主机 五款高规ITX主板推荐
  8. 最新尚硅谷Java MyBatisPlus教程(完整)
  9. 推荐几款不错的 Mac 文字处理器
  10. 2021-2027全球与中国电动垂直起降(eVTOL)飞行器基础设施市场现状及未来发展趋势