读懂英文文章所需的单词量
简介
备考托福,GRE需要背上万单词,除去考试通关的因素,就想看看是不是真有必要花时间去背那么多单词。
实验使用从初中到GRE不同等级考试要求的单词表,代入Brown文本数据集,评估背会各等级单词后,能看懂多大比例的文本。比如:高中毕业要求4000左右单词量,背会后对于取自不同领域的各种文本,能看懂句中单词的比例是多少。
从实验结果可以看到,即使背会了GRE要求的15000+以上,还会有很多词不认识,如一些专业领域的词汇。当然,如果就认识200个词,那也确实太少了。因此,本文将讨论对于不同学习阶段,背多少词,背哪些词性价比最高。
数据和方法
资源数据集
使用初中,高中,大学四六级,专八,雅思,托福,GRE的单词表。另外,加入了初一上半学期(这个学期基本都在复习小学内容,可近似地视为小学毕业水平),以及Brown数据集中的高频单词。
评价数据集
使用自然语言处理NLTK自带的Brown语料库,它创建于1961年,包含来自五百多个不同来源的文本,包含新闻,社论等类型。是一个覆盖类型相对全面的语料库,其中包含5万多句子,116万多单词。
方法
- 语料库以句为单位,评价认识单词的比例。
- 将句子切分成单词,并做简单标准化处理,去掉标点符号,将’ing’,‘ed’,‘er’,‘es’,‘s’,‘d’,‘ment’,'ly’结尾的单词转换成其原型。
- 针对每一个句子评价每个等级应该认识的词占所有词的比例。
结果
对比不同频率的单词
图中横轴是句子,纵轴是认识的词所占句中单词的比例,比如图中蓝色线在30000的位置表示:如果只认识出现高频最高的500个单词,对于难度适中的句子(30000/50000),能看懂其中70%的单词。
对比不同考试等级
从图中黄线可以看到,如果是初一第一学期水平,几乎没什么句子是完全认识的(左上角),背完初中阶段所有单词(蓝色线),句中词全认识的也不多。
讨论
学会多少词性价比最高
- 个人觉得图-1的绿线(top2000)到红线(top3000)对于多数学生是性价比最高的选择,后面每多学1000个单词,进步空间都越来越有限,这也符合二八法则(即:最重要的只占少数)。
- 从图-2中可以看出,top2000(浅蓝)的水平和大学英语四级差不多,但是可以少背多半单词。
- 背高频单词可能是更高效的选择。
按书学习有什么问题
教科书,尤其是低年级的教科书往往是成体系的学习,比如某节课学衣服,就把上衣,裤子,鞋,袜子,短裤都给学了,但是在文本阅读中,“袜子”出现的概率很低。另外,如果某课出现了一个很少用的词,但是为了保持课程的完整性,也加入了单词表。比如初中第一学期单词表400多个,与高频2000词重合的只有200出头。所以此时,娃的常用单词量只有200多。
局限性
- Brown语料库虽然包含各种类型的文本,但并不能代表所有数据,结果可能有失公平,但它是目前我能找到的覆盖最广的数据集,且能展示相对关系。
- 高频词取自Brown,又参与到评测中来,可能有失公平,但是也在路透社数据集上做过评测,结果差不多。
- 您可能觉得更高等级考试的词汇也非常值得学习,其中包含的关键词汇,虽然只占句子内容的1/10,如果这个词不认识,句子意思就理解不了;另外高级别考试中虽然单词多,但很多是简单单词的组合,实际学习起来工作量并没那么大,还能学习一些规律;开卷有益…… 以上观点我都同意,暂不在这里讨论。
其它启发
- 如果把词根词缀考虑进去效果可能更好。
- 最好把词放在句子中背,不能只靠默写。比如学习字典中的例句(例句往往不包含其它难词,简短,意思明确且有翻译)。
- 每天背完要复习前N天的,每周复习,否则忘得很快。
- 无论大人小孩,名词动词形容词相对容易记忆,连词抽象词记了就忘,小技巧是:如果一个词有多个意思,第一次只记最容易记住或者最基础的意思;抽象词可以和其它词一起记忆,记住短例子(比如since记不住,记例句:I have’t eaten since breakfast),或者已知的近义词(比如however记不住,就记它比but意思弱一点)。
结论
以娃为例:学习最高频的前2000个单词是个学习的捷径,从中再去掉本来就会的单词,每天背10个,200天背完,除去周末,加上复习时间,一年怎么也背完了;这时候就能看一些简单的英文书;最后就可能进入一个自我进化的良性循环。
个人看法,仅供参考,至于实际效果如何,请关注我家大宝一年后的英语水平。以此送给刚上初中的宝宝和宝爸宝妈们~
读懂英文文章所需的单词量相关推荐
- 统计一篇英文文章中出现的 单词 和 词频
统计一篇英文文章中出现的单词和词频, 统计一篇英文文章中出现的单词和词频. 输入:某篇文章的绝对路径 输出:词典(词典中的内容为每一行都是一个"词频 单词 ") #include ...
- 福利 | 一文读懂系列文章精选集发布啦!
大数据时代已经悄然到来,越来越多的人希望学习一定的数据思维和技能来武装自己,虽然各种介绍大数据技术的文章每天都扑面而来,但纷繁又零散的知识常常让我们不知该从何入手:同时,为了感谢和回馈读者朋友对数据派 ...
- 知云文献翻译打不开_有了这几个软件,轻松读懂英文文献
科研路上,大家伙儿难免绕不开的结就是--阅读英文文献. 然而,当你问大神用的什么翻译软件时?大神会分分种藐视你,人家偶尔查个单词跟你要查整篇文章完全是两个概念,咱们跟大神面对的是不同的问题,这也是为什 ...
- 读懂JVM架构仅需一图
原文地址:http://geek.csdn.net/news/detail/131976 每个Java开发人员都知道字节码经由JRE(Java运行时环境)执行.但他们或许不知道JRE其实是由Java虚 ...
- 一文读懂开创性文章——贝叶斯个性化排序(BPR)
BPR绝对可以算是推荐系统领域的开创性文章之一,对于经典我们一定要好好体会和理解. BPR是一个基于pairwise的算法,在BPR之前大部分方法都基于pointwise的方法,这存在一定的问题,而B ...
- 终于能够轻松地读懂英文原版书了
以前看这些资料的时候,感觉很多很乱很慢,而且对翻译工具的依赖非常严重.但是自从在自学javascript,jquery的时候踏出了看英文书的第一步之后,到现在终于能像看中文那样看英文书了,而且对工具的 ...
- 一文读懂图卷积GCN
" 本文的内容包括图卷积的基础知识以及相关辅助理解的知识点,相信同学们看完后一定能平滑上手理解GCN!" 作者:苘郁蓁 来源:知乎专栏 郁蓁的机器学习笔记. 编辑:happyGir ...
- gcn 图卷积神经网络_复制一文读懂图卷积GCN
首发于郁蓁的机器学习笔记 写文章 一文读懂图卷积GCN 苘郁蓁 阿里巴巴 算法工程师 关注她 唯物链丶.小小将等 480 人赞同了该文章本文的内容包括图卷积的基础知识以及相关辅助理解的知识点,希 ...
- 如何找到英文文档读懂英文文档
老外写的书可不是一点负责任,完全是在旁边一个过来人的导师的感觉对你循循善诱 首先你不要一拿到书就一个字一个字的去读,多注意大的字体的单词,因为它们都是你接下来要读内容的索引,先了解他们,你就会对接下来 ...
最新文章
- java jdbc 表存在_使用JDBC查询是否存在某表或视图,按月动态生成表
- python walk 遍历文件夹 文件大小
- GD32F207移植FreeRtos,程序运行vTaskStartScheduler后进入HardFault_Handler死循环解决方法
- Linux下crontab乱码,Linux下crontab自动运行Java程序乱码解决方案
- 简单的php代理 Simple PHP Proxy
- 基于python的智能安防系统_基于Python语言的智能家居系统研究
- 【2011.9.29】得到明天的时间,得到明天某时刻和现在的时间差(毫秒)
- python 科学计算设计_Python程序设计与科学计算
- android file hascode,AndroidStudio集成Lombok
- 操作系统分区原理(笔记)
- 续:~英语 1038个词根 217个后缀!
- 【Linux命令】mergecap命令的用法
- 小红书4大主要人群的消费特征,你占了几个?
- iphone/ipad保存图片问题
- 重磅!《中国DevOps现状调查报告(2021年)》正式发布!(附报告获取方式)
- 分享一道美美美团面试题!
- 百度地图查看导航记录,导航路线,记录驾驶路线
- vue 汉字转拼音字母
- nginx正向代理访问微信接口502错误, Unable to tunnel through proxy. Proxy returns \“HTTP/1.1 502 Bad Gateway\
- qt文件逐行读取_QT平台文件逐行读取和字符串规律输出练习
热门文章
- 4.3.5 计算电费
- notepad删除包含/不包含的字符
- 【Unity】入门学习笔记180604——游戏动画设计(1)——概述/精灵对象动画
- [转载]我爱我妻----让男人看一遍哭一遍的文章
- 一键U盘装系统-【万能U盘启动盘制作工具】
- 计算机科学荣誉理学学士学位,伦敦大学金史密斯学院计算机科学本科讲述.pdf...
- 自媒体人如何积累素材?素材整理四步法get
- 中国智慧教育行业发展现状调研与前景战略分析报告2022-2028年版
- 图片实测:智能鉴黄,哪家强?
- 到底多少够用 11款USB设备供电大揭秘