Python 分析 35 年的考研英语真题词汇,解读孤独的考研大军!
作者 | 阿广
责编 | 郭芮
我们渐渐长大,从一开始的初生牛犊不怕虎到渐渐惧怕孤独,从一开始的单打独斗到渐渐合群躲避孤独。不巧的是,考研就是一个孤单修炼的事情,没有任何人能够去帮你,于是二十出头的我们,从“牛*吊炸天,我要改变全世界”逐渐蜕变成“我要适应这个世界,我要适应孤单”。过去总是赶赴一场又一场热闹,在觥筹交错间,推杯换盏时,说一些违心的话,做一些违心的事,慢慢失去自我。但愿,酒阑人散后,剩下的只有空虚落寞;但愿,灯火阑珊处,留下是考研最美好的回忆。
一、数据介绍
本文统计的对象为1980年以来英语试卷所包含的词汇,并对其进行了分析和总结。
二、实现过程
1、加载基础词汇
bw = open('data/basic_words.txt')
basicwords = []
for eachLine in bw:basicwords.append(sw.simplify_word(re.split("[^A-Za-z]", eachLine)[0].lower()))#print re.split("[^A-Za-z]", eachLine)[0]
print(len(list(set(basicwords))))
basicwords = list(set(basicwords))
2、加载超纲词汇
notindagang = np.zeros(33)
chaogangword = {}
for j in range(33):for k in wy.eywords[j]:if k not in dw.dagangwords and k not in bw.basicwords:#notindagang[j] += 1if chaogangword.has_key(k):chaogangword[k] += 1else:chaogangword[k] = 1for j in range(33):for k in wy.eywords[j]:if k not in dw.dagangwords and k not in bw.basicwords:if chaogangword[k] <= 2:notindagang[j] += 1
chaogangword = sorted(chaogangword.iteritems(), key = lambda e:e[1], reverse = True)
print('Chaogangword =',chaogangword)
pnotindagang = [float(x) / len(wy.eywords[i]) for i,x in enumerate(notindagang)]
3、词汇分析
def simplify_word(a):#如果已经可以判断是名词,动词,形容词,副词,连词if enumerate.is_noun(a) or enumerate.is_verb(a) or enumerate.is_adjective(a) or enumerate.is_adverb(a) or enumerate.is_connective(a):return atry:#测试是否为动词,如果是则返回enumerate.is_verb(enumerate.verb.present(a))return enumerate.verb.present(a)except:#否则继续检查pass#测试是否是名词if enumerate.is_noun(enumerate.noun.singular(a)):return enumerate.noun.singular(a)otherwordlist.append(a)#print areturn a
4、加载大纲词汇
dagang = open('data/5495大纲词汇.txt')
dagangwords = []
for eachLine in dagang:dagangwords.append(sw.simplify_word(re.split("[^A-Za-z]", eachLine)[0].lower()))#print re.split("[^A-Za-z]", eachLine)[0]
print(len(list(set(dagangwords))))
dagangwords = list(set(dagangwords))
5、考研英语真题单词数据可视化
x33 = 1980*np.ones(33)+range(33)
x32 = 1981*np.ones(32)+range(32)plt.figure('wordeachyear')
plt.plot(x33,wy.eywords_volume,'r--o',alpha = 0.5)
plt.grid(True)
plt.show()plt.figure('notindagang')
plt.plot(x33,cgw.notindagang,'o-', alpha = 0.5)
plt.grid(True)
plt.show()plt.figure('wn')
plt.plot(wy.eywords_volume,cgw.pnotindagang,'bo')
plt.show()plt.figure('pchaogang')
plt.plot(x33,cgw.pnotindagang,'o-', alpha = 0.5)
plt.grid(True)
plt.show()plt.figure('notinpast')
plt.bar(x33,nip.words_not_in_the_past, color = 'green', alpha = 0.5)
plt.grid(True)
plt.show()plt.figure('wordsAppearLastTime')
plt.plot(x32, walt.es, 'b--o', alpha = 0.5)
plt.grid(True)
plt.show()plt.figure('pwordsAppearLastTime')
#plt.axes([1980, 2013 , 0.35 ,0.6])
plt.plot(x32, walt.esr1, 'r-o')
plt.plot(x32, walt.esr2, 'b--o', alpha = 0.4)
plt.plot(x32, walt.esr3, 'y--o', alpha = 0.4)
plt.grid(True)plt.show()
三、考研英语真题词汇统计结果
1、第i+1年出现的从1980~i年间从未出现过的单词:
2、第一年真题中出现的单词数:
3、每一年都出现的单词:
and, have, other, most, last, all, year, way, hi, like, because, your, new, know, english, chinese, if, you, they, this, give, people, he, not, many, question, from, into, such, work, over, would, make, translation, up, in, no, then, an, will, some, section, we, with, these, it, there, which, by, so, one, when, do, those, can, four, be, that, must, of, say, should, than, a, become, at, write, who, on, the, only, to, but, about, or, for
4、相邻年份考研真题词汇重复数:
5、相邻年份考研真题词汇重复率:
6、计算35年来真题词汇超纲率:
7、拟合:
四、写在最后
时光如白驹过隙,世事如白云苍狗。转眼间,我们也迎来了继高考以来第二次决定命运的战斗——考研。
“考研是孤独的,孤独两个字拆开,有孩童,有瓜果,有小犬,有蚊蝇,足以撑起一个那年盛夏傍晚的巷子口,人情味十足。稚儿擎瓜柳蓬下,细犬逐蝶深巷中。人间繁华多笑语,唯我空余两鬓清风。孩童、水果、猫、狗、飞蝇当然热闹,可都与你无关,这就叫孤独,这就叫考研。”
我问了我考研同学的成绩了,只说了一句:“来,再开一局”……
用四个字形容考完研后的自己:“重在参与”。
我已经用了四年的时间证明了自己不是读书的这块料,但学校没有放弃我,给了我最后三天,让我证明了我自己,确实不是读书这块料。
考研就像参加超级女生,能坚持到最后的都是纯爷们!
考研英语,单词几乎是研考生心里永远的痛,今年又考倒了一大片,何必总是拿外国话来为难自己的同胞呢?
考研的都是勇士,考上去的是上士,考下去的是下士,还站着的是战士,考躺下的是烈士!
注:以上均为段子,希望每一位考研人本周六周日过过过!
作者:阿广,本文首发于个人公众号「视学算法」。「视学算法」是专注于大数据、人工智能和算法的学习平台,也是一个保送中科院软件研究所直博生的自留地。人生苦短,我愿做您最忠实的技术支持伙伴!一起用代码改变世界!
声明:本文为作者投稿,版权归作者所有。
热 文 推 荐
☞ 美团回应大规模裁员;ofo 戴威要为欠钱负责;高通要求禁售 iPhone X 系列 | 极客头条
惊了!AI 人才需求两年暴涨 35 倍,平均月薪 30K!
不止操作系统,智能手机才更需要开源!
☞ 程序员真的都不爱炫富吗?
☞ Elastic:Beyond Search!
☞ 会玩! 比特币诈骗手法升级, 从要钱到要命!
☞ 特斯拉加速“国产化”,上海工厂一期建设曝光
Python 分析 35 年的考研英语真题词汇,解读孤独的考研大军!相关推荐
- 用Python分析了1980~2015年考研英语真题词汇,原来考研英语应该这样考!
微信改版,加星标不迷路! 用Python分析了1980~2015年考研英语真题词汇,原来考研应该这样考! 作者:阿广 概述 前言 数据介绍 实现过程 考研英语词汇统计分析 搞笑一刻 阿广说 每日问题 ...
- 《Python数据分析与挖掘》实战项目 - Python程序设计(期末大作业、课程设计、毕业设计)2012-2021近十年考研英语一真题词汇词频统计与可视化(附代码)
<Python数据分析与挖掘> - 2012-2021近十年考研英语一真题词汇词频统计与可视化 声明 本文仅在CSDN发布,其他均为盗版.请支持正版! 正版链接: https://blog ...
- 考研英语真题-四六级真题-计算机二级真题分享
考研英语真题-四六级真题-计算机二级真题分享 准备的资料 给准备复习朋友准备了一堆资料,收集整理自网络,欢迎转发分享给你需要的朋友. 这次准备的资料分别有: •考研英语一和考研英语二,2009年至20 ...
- 考研英语真题笔记 2020
英语真题笔记 2020 阅读 Text1 阅读 Text2 阅读 Text3 阅读 Text4 2020 阅读 Text1 response more to actions than to looks ...
- python分词考研英语真题词频(附结果)——读取word、nltk、有道智云API
打算用python分析一次啊考研真题单词的词频,并加上翻译等内容,方便背诵 读取word文件 手头有近20年的考研英语一二真题word文件几十个,需要对每个文件的内容进行读取,并提取属于文章和题目的部 ...
- 2001年考研英语真题
目录 2001年全国硕士研究生招生考试 Text 1 first paragraph: second paragraph: third paragraph: fourth paragraph: htt ...
- 【考研精品词】历年英语真题词汇精析
[2008 Text1]one-shot deal 只有一次的交易. [真题例句]...they tend not to be one shot deals. 韦氏词典:something that ...
- 西安理工大学计算机考研专业课真题答案,2021西安理工大学考研历年真题
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 来源:http://fangcai.100xuexi.com/Ebook/DigitalLibrary/BookNew.aspx?BookName=%u8 ...
- in use 大学英语4word_考研英语真题干货 | run on
这是2019年,英语(一)的完形填空 But phones 2 on batteries, and batteries candie faster than we realize. 这句是两个句子, ...
最新文章
- set_origin_pose算子说明
- 将 Net 项目升级 Core项目经验:(一)迁移Net项目为Net Core\Standard项目
- WPF combox二级联动
- Atlas学习手记(9):异步调用Page Method
- 面试官:InnoDB中一棵B+树可以存放多少行数据?
- C++ 执行cmd命令 并获取输出
- 前端性能优化知识,包括css和js
- python 编程效率_如何有效提升数据分析效率?五大Python技巧
- 大数据时代的3V3高
- struts 通配符的使用
- 95-10-120-启动-GroupCoordinator
- python元组及文件
- ibatis 存储过程 结果集 map_大数据之MapReduce shuffle过程
- JUC与JVM并发编程学习笔记03
- BZOJ 2431: [HAOI2009]逆序对数列( dp )
- VHDL学习笔记——半加器 多路选择器 分频器
- imdisk虚拟光驱安装linux,ImDisk Virtual Disk Driver
- c语言加权成绩,[求助]写了一个计算加权平均分的程序,总是报错。大神啊~
- android 键盘挡住popupwindow,软键盘遮挡住popupWindow问题
- log4j.properties 使用说明
热门文章
- python示例异常处理与程序调试_Python错误处理及代码调试方
- html基础技术笔记
- java取set中的元素个数_java中的Set的使用以及各种遍历方法(较为全面)
- python 网络渗透_python 网络编程(渗透与编程一)
- 《推荐系统笔记(十五)》流行度以及基于流行度的推荐
- 聚合丁苯橡胶(SSBR)行业调研报告 - 市场现状分析与发展前景预测
- 2021年中国单输入K型温度计市场趋势报告、技术动态创新及2027年市场预测
- 惠普服务器装Linux7系统,如何安装惠普服务器操作系统
- java中创建对象的方式有哪些,Java中创建对象的四种方式
- c++两个数组对比去掉重复的元素_每日一道 LeetCode (8):删除排序数组中的重复项和移除元素...