1 简介

本文根据2020年《Linguistic Features for Readability Assessment》翻译总结。从标题可以看出来是进行可读性评估(Readability Assessment)。

可读性评估(Readability Assessment),早期时,如Flesch (1948年),是提取简单的文本特征,像字符数量。Schwarm and Ostendorf (2005年)分析了更广泛的特征,包括out-of-vocabulary scores和语法特征(如average parse tree heigh)。

在本文,我们评估了语言学特征和深度学习模型的联合使用。我们将神经网络的单个数字输出作为一个特征,然后和语言学特征结合,最后输入到非神经网络模型(如SVM)中,SVM作为最后的分类器

总结如下:

  1. 语言学特征主要对小数据集下作用明显;
  2. 结合了语言学特征后,一般情况下并没有改善深度学习模型的效果。可能深度学习模型已经隐含的捕捉到了可读性评估所需的特征。

2 特征

2.1 传统特征

2.2 新颖的句法特征

3 模型

  1. SVMs, Linear Models, and Logistic Regression
  2. CNN
  3. Transformer
  4. HAN:分层注意力网络,将输入通过两个双向的RNN,每个RNN采用独立的注意力机制。其中一个注意力机制关注在每个句子内的不同单词,另一个注意力机制关注文档内的不同句子。

4 实验结果

Newsela 语料库的实验结果如下:可以看到结合了语言学后(SVM with HAN and linguistic features)并没有改善深度学习模型(HAN)的效果。

在Weebit语料库上的实验结果如下,可以看到结合了语言学后(SVM with transformer, Flesch features, and linguistic features)并没有改善深度学习模型(Transformer)的效果。

语言学特征进行可读性评估(Readability Assessment)相关推荐

  1. Trends, Limitations and Open Challenges inAutomatic Readability Assessment Research翻译

    摘要 可读性评估是对给定文本的阅读难度进行评估的一项任务.虽然对可读性评估的计算方法的研究已经有20年的历史了,但是对这一研究的综合研究还没有太多的工作.本文是对当前可读性评估计算模型发展的简要综述. ...

  2. 利用随机森林对特征重要性进行评估 方法一

    https://hal.archives-ouvertes.fr/file/index/docid/755489/filename/PRLv4.pdf 前言 随机森林是以决策树为基学习器的集成学习算法 ...

  3. python随机森林变量重要性_利用随机森林对特征重要性进行评估

    前言 随机森林是以决策树为基学习器的集成学习算法.随机森林非常简单,易于实现,计算开销也很小,更令人惊奇的是它在分类和回归上表现出了十分惊人的性能,因此,随机森林也被誉为"代表集成学习技术水 ...

  4. 利用随机森林对特征重要性进行评估(含实例+代码讲解)

    这部分主要讲解一下如何使用,需要看原理的小伙伴,可以到我之前的博客: https://blog.csdn.net/wzk4869/article/details/126379073?spm=1001. ...

  5. 利用随机森林对特征重要性进行评估

    文章目录 1 前言 2 随机森林(RF)简介 3 特征重要性评估 4 举个例子 5 参考文献 1 前言 随机森林是以决策树为基学习器的集成学习算法.随机森林非常简单,易于实现,计算开销也很小,更令人惊 ...

  6. 模型评估 (Model Assessment)

    1.模型评估 (Model Assessment) 笔记来源于<白话机器学习的数学> 我们训练好模型后,要对知道这个模型到底好不好,定量描述这个模型好坏就是模型评估 把获取的全部训练数据分 ...

  7. 点集的视点特征直方图的评估

    VFH(Viewpoint Feature Histgram)视角特征直方图描述器,可以很直观的表现点的聚类在处理聚类识别与6DOF位姿估计. 下面的图像展示了一个VFH识别和位姿估计的例子.给一些训 ...

  8. 使用语言学特征进行文本情感分类《Linguistically Regularized LSTM for Sentiment Classification》

    原文链接 本文发表于自然语言处理领域顶级会议 ACL 2017 代码链接 摘要 本文主要是做句子情感分类任务的研究,前人做的工作大多都依赖于短语级别的标注,这样费时费力,而一旦仅使用句子级别的标注的话 ...

  9. 利用随机森林对特征重要性进行评估(公式原理)

    本文参考来源于: 杨凯, 侯艳, 李康. 随机森林变量重要性评分及其研究进展[J]. 2015. 码字不易,各位看官大大的赞是我更细的动力! 一.引言 随机森林(randomforest,RFrand ...

最新文章

  1. 青源 LIVE 第 28 期 | 北大燕博南:下一代AI芯片—存内计算的硬核与软着陆
  2. su一键封面插件_插件分享丨一键制作SU爆炸分析图插件分享
  3. 你应该学会的接口调试神器——Postman高级用法
  4. Flink 如何实时分析 Iceberg 数据湖的 CDC 数据
  5. 在Latex使用條列式清單itemize , enumerate , description
  6. springboot日志处理
  7. CoreJava 笔记总结-第三章 Java的基本程序设计结构
  8. data数值设置 vue_怎么改变vue中data的数据
  9. 商用服务器系统比较好,商用服务器操作系统都用哪种
  10. c# 使用GDAL处理大图
  11. 圆章能随便刻吗_当归、人参、虫草熬成的养生汤,能随便销售吗?
  12. 深入学习理解UNIX网络编程
  13. Cropper详细笔记
  14. JS—— 常用图片后缀正则校验
  15. [Mybatis]复杂环境下的SQL
  16. 腾讯视频投屏显示无法连接服务器,腾讯视频投屏不能快进
  17. 32.字典练习---银行卡与初始密码
  18. java实现家庭关系图_左孩子右兄弟二叉树实现家族家谱
  19. 深度学习 实验三 logistic回归预测二分类
  20. 延长数据中心使用年限的低成本方法

热门文章

  1. 实用的配音软件推荐,确定不来看看?
  2. Python中的算数运算符
  3. Vue 监听刷新 切屏
  4. 怎样理财?不做老板也发财
  5. T51:字符流中第一个未重复的字符(Java)
  6. Goland中time.Timer and time.Ticker
  7. 电路实验——实验二 基尔霍夫定律的验证
  8. 想知道照片一键换天空怎么弄?推荐两款图片编辑软件
  9. 简化版的宿舍管理系统(有细微的逻辑问题,没优化)
  10. b2b2c电商平台系统