通过R语言统计考研英语(二)单词出现频率

大家对英语考试并不陌生,首先是背单词,就是所谓的高频词汇。厚厚的一本单词,真的看的头大。最近结合自己刚学的R语言,为年底的考研做准备,想统计一下最近考研英语(二)真正单词出现的频率次数。

整体思路:

收集数据-->整理数据-->统计分析-->输出结果

使用工具:

`Rstudio,文本编辑器,CSV`

涉及到的包: "jiebaR"(中文分词引擎),“plyr",

第一步收集数据:

从网络搜索2013-2018考研英语二真题,存成txt格式。

第二步整理数据

针对每个文件进行简单整理,去除不必要的文字。 例如:”2017年全国硕士研究生入学统一考试英语“、”答案 “,或者乱码之类。手工完成。

第三步:统计分析

3.1 打开R语言,安装所需要的包

install.packages("jiebaRD") #安装jiebaR之前先安装"jiebaRD"

install.packages("jiebaR")

install.packages("plyr")-- 加载包--library(jiebaRD)

library(jiebaR)

library(plyr)

search()#查看已经安装的包

search() [1] ".GlobalEnv" "package:xlsx"[3] "package:xlsxjars" "package:rJava"[5] "package:wordcloud" "package:RColorBrewer" [7] "package:plyr" "package:jiebaR"[9] "package:jiebaRD" "tools:rstudio"[11] "package:stats" "package:graphics"[13] "package:grDevices" "package:utils"[15] "package:datasets" "package:methods"[17] "Autoloads" "package:base"

3.2加载文件,分析

setwd("d:/R") #设置文件所在根目录

--加载文件

test_file_2018

test_file_2017

test_file_2016

test_file_2015

test_file_2014

test_file_2013

test_file

test_file

cutter=worker() #设置分词引擎

segWords

--设置停顿词这里其实就是过滤词,一行一个单词,有些自认为很简单的词,比如:选项里 a,b,c,d,the,and,an 等等,或者先过滤这一步,等到统计频率出来,在根据需求一一添加即可。在相同的目录建一个文件"stopword.txt"f

stopwords

{

stopwords[i]

}

segWords

segWords ? @ [ \ ] ^ _ ` { | } ~”

tableWord

view(tableWord)

停顿词示例stopword.txt:

第四步、输出结果

write.csv(tableWord,"tableWord.csv",fileEncoding = "UTF-8")#处出结果存为tableWord.csv 文件。

参考来源:https://blog.csdn.net/zx403413599/article/details/46730801

考研大纲词汇mysql下载_通过R语言统计考研英语(二)单词出现频率相关推荐

  1. r语言 清空mysql表_用R语言做数据清理(详细教程)

    数据的清理 如同列夫托尔斯泰所说的那样:"幸福的家庭都是相似的,不幸的家庭各有各的不幸",糟糕的恶心的数据各有各的糟糕之处,好的数据集都是相似的.一份好的,干净而整洁的数据至少包括 ...

  2. c语言程序设计考研大纲,沈阳建筑大学2018年C语言程序设计考研初试大纲

    2018年硕士研究生考试初试C语言程序设计科目考试大纲 一.考查目标 1. 了解程序设计.算法等概念,掌握结构化程序设计的要求以及顺序.分支和循环三种基本结构; 2. 了解C语言源程序的基本构成.熟练 ...

  3. r语言平均值显著性检验_最全的R语言统计检验方法_数据挖掘中R语言的运用

    最全的R语言统计检验方法_数据挖掘中R语言的运用 统计检验是将抽样结果和抽样分布相对照而作出判断的工作.主要分5个步骤:建立假设 求抽样分布 选择显著性水平和否定域 计算检验统计量 判定 假设检验(h ...

  4. R语言统计代码运行耗时实战:计算代码运行时间、使用proc.time函数计算代码运行时间

    R语言统计代码运行耗时实战:计算代码运行时间.使用proc.time函数计算代码运行时间 目录

  5. R语言ggplot2可视化绘制二维的密度图:在R中建立二维散点数据的连续密度热图、2D密度估计、MASS包中的kde2d函数实现2D密度估计、geom_density2d函数可视化二维密度图

    R语言ggplot2可视化绘制二维的密度图:在R中建立二维散点数据的连续密度热图.2D密度估计.MASS包中的kde2d函数实现2D密度估计.geom_density2d函数可视化二维密度图 目录

  6. R语言统计方法-我常用的

    R语言统计方法-我常用的 文章目录 R语言统计方法-我常用的 一.数据与R 二.数据的描述统计量 三.方差分析 一.数据与R ①直接录入数据 names<-c(列名) data<-c() ...

  7. R语言glm函数构建二分类logistic回归模型、epiDisplay包logistic.display函数获取模型汇总统计信息(自变量初始和调整后的优势比及置信区间,回归系数的Wald检验的p值

    R语言glm函数构建二分类logistic回归模型(family参数为binomial).使用epiDisplay包logistic.display函数获取模型汇总统计信息(自变量初始和调整后的优势比 ...

  8. 【R语言文本挖掘】:分析单词和文档频率——TF-IDF

    [R语言文本挖掘]:分析单词和文档频率--TF-IDF

  9. R语言统计—多重比较(1)

    在我们实际数据分析中,通常会碰到两组以上定量数据的比较,对于这种需求我们不能再进行t检验,因为这样会增加一类错误的概率. t检验每次只能进行两组之间的比较,每次比较时犯一类错误的概率为α(0.05), ...

最新文章

  1. 用python下载文件的若干种方法汇总
  2. Linux下搜索文件常用方法
  3. Google MapReduce到底解决什么问题?
  4. 软件测试功能测试都有哪一些,【软件测试基础】功能测试常用方法都有哪些
  5. neo4jd3的使用流程(转载)
  6. Minor【 PHP框架】1.简介
  7. [Todo] 乐观悲观锁,自旋互斥锁等等
  8. 国产5G手机先行!英特尔5G调制解调器芯片2020年才上市
  9. linux oracle异常处理,Oracle SQL 异常处理
  10. TensorFlow windows安装
  11. 开发人员的U盘,最好是128G
  12. 如何解决您的虚拟主机中有文件触发了安全防护报警规则,可能存在webshell网页木马...
  13. 解决eclipse在编辑时字体变成繁体字的问题
  14. 运营小技能:订阅号文章排版教程(添加图片超链接、推文采集、往期推荐)
  15. 搜狗推送接口-搜狗推送口子
  16. [走过的路]联想时光——人艰不拆(店长篇)
  17. php 生成思维导图,JavaScript如何生成思维导图(mindmap)
  18. windows系统下怎么把图片变为ico格式?
  19. 每日启程——2019.12.11日(草木有本心,何求美人折)
  20. 连接字符串的几种方式

热门文章

  1. Arm 进击自定义指令集,成立自动驾驶计算联盟!
  2. 微信版花呗将上线;苹果在华支持以旧换新;谷歌推出 Flutter1.9 | 极客头条
  3. @程序员,如何用最少的字节编写 C64 可执行文件?
  4. 《复联》里的黑科技距离现实有多近?
  5. 终于有人把 5G 和边缘计算的关系说清楚了! | 技术头条
  6. 动辄年薪 25 万只是白菜价的人工智能黄了?
  7. Github 平均 Star 为 3558 的机器学习开源项目,你错过了哪些?
  8. 如何化身BAT面试收割机?不愧是大佬
  9. java objective-c_Objective-C基础教程学习笔记(附录)从Java转向Objective-C
  10. 冒泡排序java jsp_冒泡排序实现原理