语言学特征进行可读性评估(Readability Assessment)
1 简介
本文根据2020年《Linguistic Features for Readability Assessment》翻译总结。从标题可以看出来是进行可读性评估(Readability Assessment)。
可读性评估(Readability Assessment),早期时,如Flesch (1948年),是提取简单的文本特征,像字符数量。Schwarm and Ostendorf (2005年)分析了更广泛的特征,包括out-of-vocabulary scores和语法特征(如average parse tree heigh)。
在本文,我们评估了语言学特征和深度学习模型的联合使用。我们将神经网络的单个数字输出作为一个特征,然后和语言学特征结合,最后输入到非神经网络模型(如SVM)中,SVM作为最后的分类器
总结如下:
- 语言学特征主要对小数据集下作用明显;
- 结合了语言学特征后,一般情况下并没有改善深度学习模型的效果。可能深度学习模型已经隐含的捕捉到了可读性评估所需的特征。
2 特征
2.1 传统特征
2.2 新颖的句法特征
3 模型
- SVMs, Linear Models, and Logistic Regression
- CNN
- Transformer
- HAN:分层注意力网络,将输入通过两个双向的RNN,每个RNN采用独立的注意力机制。其中一个注意力机制关注在每个句子内的不同单词,另一个注意力机制关注文档内的不同句子。
4 实验结果
Newsela 语料库的实验结果如下:可以看到结合了语言学后(SVM with HAN and linguistic features)并没有改善深度学习模型(HAN)的效果。
在Weebit语料库上的实验结果如下,可以看到结合了语言学后(SVM with transformer, Flesch features, and linguistic features)并没有改善深度学习模型(Transformer)的效果。
语言学特征进行可读性评估(Readability Assessment)相关推荐
- Trends, Limitations and Open Challenges inAutomatic Readability Assessment Research翻译
摘要 可读性评估是对给定文本的阅读难度进行评估的一项任务.虽然对可读性评估的计算方法的研究已经有20年的历史了,但是对这一研究的综合研究还没有太多的工作.本文是对当前可读性评估计算模型发展的简要综述. ...
- 利用随机森林对特征重要性进行评估 方法一
https://hal.archives-ouvertes.fr/file/index/docid/755489/filename/PRLv4.pdf 前言 随机森林是以决策树为基学习器的集成学习算法 ...
- python随机森林变量重要性_利用随机森林对特征重要性进行评估
前言 随机森林是以决策树为基学习器的集成学习算法.随机森林非常简单,易于实现,计算开销也很小,更令人惊奇的是它在分类和回归上表现出了十分惊人的性能,因此,随机森林也被誉为"代表集成学习技术水 ...
- 利用随机森林对特征重要性进行评估(含实例+代码讲解)
这部分主要讲解一下如何使用,需要看原理的小伙伴,可以到我之前的博客: https://blog.csdn.net/wzk4869/article/details/126379073?spm=1001. ...
- 利用随机森林对特征重要性进行评估
文章目录 1 前言 2 随机森林(RF)简介 3 特征重要性评估 4 举个例子 5 参考文献 1 前言 随机森林是以决策树为基学习器的集成学习算法.随机森林非常简单,易于实现,计算开销也很小,更令人惊 ...
- 模型评估 (Model Assessment)
1.模型评估 (Model Assessment) 笔记来源于<白话机器学习的数学> 我们训练好模型后,要对知道这个模型到底好不好,定量描述这个模型好坏就是模型评估 把获取的全部训练数据分 ...
- 点集的视点特征直方图的评估
VFH(Viewpoint Feature Histgram)视角特征直方图描述器,可以很直观的表现点的聚类在处理聚类识别与6DOF位姿估计. 下面的图像展示了一个VFH识别和位姿估计的例子.给一些训 ...
- 使用语言学特征进行文本情感分类《Linguistically Regularized LSTM for Sentiment Classification》
原文链接 本文发表于自然语言处理领域顶级会议 ACL 2017 代码链接 摘要 本文主要是做句子情感分类任务的研究,前人做的工作大多都依赖于短语级别的标注,这样费时费力,而一旦仅使用句子级别的标注的话 ...
- 利用随机森林对特征重要性进行评估(公式原理)
本文参考来源于: 杨凯, 侯艳, 李康. 随机森林变量重要性评分及其研究进展[J]. 2015. 码字不易,各位看官大大的赞是我更细的动力! 一.引言 随机森林(randomforest,RFrand ...
最新文章
- 青源 LIVE 第 28 期 | 北大燕博南:下一代AI芯片—存内计算的硬核与软着陆
- su一键封面插件_插件分享丨一键制作SU爆炸分析图插件分享
- 你应该学会的接口调试神器——Postman高级用法
- Flink 如何实时分析 Iceberg 数据湖的 CDC 数据
- 在Latex使用條列式清單itemize , enumerate , description
- springboot日志处理
- CoreJava 笔记总结-第三章 Java的基本程序设计结构
- data数值设置 vue_怎么改变vue中data的数据
- 商用服务器系统比较好,商用服务器操作系统都用哪种
- c# 使用GDAL处理大图
- 圆章能随便刻吗_当归、人参、虫草熬成的养生汤,能随便销售吗?
- 深入学习理解UNIX网络编程
- Cropper详细笔记
- JS—— 常用图片后缀正则校验
- [Mybatis]复杂环境下的SQL
- 腾讯视频投屏显示无法连接服务器,腾讯视频投屏不能快进
- 32.字典练习---银行卡与初始密码
- java实现家庭关系图_左孩子右兄弟二叉树实现家族家谱
- 深度学习 实验三 logistic回归预测二分类
- 延长数据中心使用年限的低成本方法