在之前的推文中,我向大家分别介绍了简单随机抽样、系统抽样、任意抽样、整群抽样和分层抽样。详情在此不再赘述,没有相关基础的同学可以查看这部分的历史推文。

统计基础:【12】统计抽样方法总结

这5种抽样方法中,除了任意抽样这种非随机抽样方法以外,其他4种抽样方法都要用到简单随机抽样这一抽样方法。

因此,今天的文章主要教大家如何用Excel和R语言实现抽样。

利用Excel抽样

Excel表格中记录了B班的期末考试成绩。20名学生学号分别是1-20,表中分别记录了这20名学生的语文和数学成绩。如下图:

现在,B班班主任想从这20名学生中,利用简单随机抽样方法抽选5名学生进行家访,操作步骤如下:

选择“数据”—“数据分析”,在分析工具中选择“抽样”,点击“确定”。

在弹出的对话框中,在“输入区域”选择学号序列,即$A$2:$A$21,如果选择了“学号”这个列名称,则勾选“标志”栏,否则不用勾选。

选择“抽样方法”为随机样本数为5。

“输出区域”即选择的样本存放位置;数据量不大的情况下,直接在源工作表中选择某个空白单元格即可。

设置完成后,点击确定。

在输出区域会出现5个数据,即为20名学生中随机抽取的学生学号。如下图框选部分:

如果B班班主任希望使用系统抽样方法在20名学生中抽选出5名学生,则组距为4,将20名学生分为了5个部分。在第1部分的4名学生中选采用简单随机抽样方法,抽选出1名学生,假如抽选的学生学号为X,则从学号X开始,每隔4个学号抽选1个样本,即可得到一个容量为5的学生样本。

整群抽样步骤和随机抽样方法一样,只是抽取的样本不再是单一的个体,而是一个个的群体。

在这个案例中,如果使用分层抽样方法分别从男女生中抽选学生,则需要先将男生和女生进行归类。如下图:

选择需要排序的表格,点击“数据”—“排序”,选择主要关键词为“性别”,其他选择默认值即可,点击确定。排序结果如下图:

排序后得到上表,不难看出,男生有14人,女生有6人。B班班主任决定利用非比例分配法,从男生中随机抽选出3名学生,从女生中随机抽选出2名学生。

接下来的操作步骤和前述的抽样步骤一样,只是需要分别对男生和女生进行两次随机抽样。

利用R语言抽样

在Excel中进行少量简单的随机抽样并没有什么问题。但如果抽取的样本相对总样本来说足够大,比如在10个数据中随机抽取6个样本,那么你很可能会发现,利用Excel抽选的数据中会出现重复样本,即利用上述方法在Excel中进行的随机抽样是重复抽样。但很多时候,这并不是我们的本意。

如果想要快速利用不重复的简单随机抽样方法抽取数据,那我建议大家使用R语言。

在R语言中,生成一组从1到20的数据,保存在x中,用来表示学生学号:

x <- 1:20

在x这个总体中,利用R语言内置的sample函数即可完成简单随机抽样方法。sample函数的具体使用方法可在R语言的帮助文档中查看。

如果B班班主任想利用简单随机抽样方法抽选5名学生,则输入代码为:

sample(x,5)

得到的抽样结果如下:

[1]  8 11 18 16 19

在sample函数中,如果不进行参数限制,则默认为不重复抽样,上述就是一个不重复简单随机抽样。

如果想要对总体进行重复简单随机抽样,则添加参数了“replace = TRUE”即可:

sample(x,5,replace = TRUE)

得到的抽样结果如下(有时候,由于抽取的数据量太小,得到的数值并不总会出现重复值):

[1]  4 20  3 19 20

在上述进行的所有抽样演示中,我们最终抽选的都是单一的数据,比如,我们抽选到了5个学生的学号,但他们的性别和成绩并没有一起抽选出来。

如果想要对数据集进行抽选,则需要使用dplyr包中的sample_n函数

我们先查看一个R语言中自带的数据集women:

women

women数据集如下图:

这个数据集包含2个变量和15行数据,记录了30-39岁美国女性的平均身高和体重。

接下来,我想要从women中随机抽选出5行数据。

首先加载dplyr包:

library(dplyr)

然后利用sample_n函数从x总体中抽选出5行数据:

sample_n(women,5)

得到的结果如下:

同sample函数一样,sample_n函数如果不进行参数限制,则默认为不重复抽样;如果想要对总体进行重复简单随机抽样,则添加参数了“replace = TRUE”即可。

上述介绍了如何用Excel和R语言

对数据进行抽样,

本文节选自《妙趣横生的统计学》课程,

如果阅读本文后依然没有学懂,

可以点击文末阅读原文

学习视频版内容!

往期回顾

统计基础:【14】观察研究

统计基础:【15】设计实验时需要考虑哪些问题

统计基础:【16】(Meta analysis)综合分析简介

统计基础:【17】你的统计研究可信吗?

r语言实现sem_统计基础:【18】使用Excel和R语言来实现抽样相关推荐

  1. 东北大学c语言在线作业,东北大学18春学期《C语言及程序设计》在线作业1资料...

    18春学期<C语言及程序设计>在线作业1 / g8 H: N4 e* ]' c ; A5 O2 \* J' f2 k( f  R% @一.单选题:3 E; V& D% o' E- ...

  2. r型聚类分析怎么做_利用Excel实现R型聚类分析

    © 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.    http://www.c ...

  3. mytrader-开源股票期货金融软件+支持C/C++/Python/Excel/VBA/麦语言的量化分析交易平台

    mytrader致力于为量化交易.算法交易.程序化交易以及技术分析爱好者打造最极致的行情分析交易平台. mytrader是一款基于ZQDB构建的量化分析交易平台. mytrader是绿色免安装版本,您 ...

  4. r语言读取excel数据_R语言操纵Excel进行数据透视与批处理

    作者:黄天元,复旦大学博士在读,热爱数据科学与开源工具(R),致力于利用数据科学迅速积累行业经验优势和科学知识发现,涉猎内容包括但不限于信息计量.机器学习.数据可视化.应用统计建模.知识图谱等,著有& ...

  5. 批量读取和写出excel数据#R语言#

    运用R语言处理数据时总会遇到大批量excel数据读取和写入的问题,以R中的iris数据集举例,主要有以下几种形式(直接上代码): 读入数据: 1.将多个excel数据批量读入R环境中(读入csv格式文 ...

  6. 2020互联网数据分析师教程视频 统计学分析与数据实战 r语言数据分析实战 python数据分析实战 excel自动化报表分析实战 excel数据分析处理实战

    2020互联网数据分析师教程视频 统计学分析与数据实战 r语言数据分析实战 python数据分析实战 excel自动化报表分析实战 excel数据分析处理实战

  7. r语言library什么意思_医学统计与R语言:百分条图与雷达图

    微信公众号:医学统计与R语言如果你觉得对你有帮助,欢迎转发 百分条图-输入1: library(ggplot2) 结果1: year 输入2: percentbar <- gather(perc ...

  8. 语言nomogram校准曲线图_医学统计与R语言:Meta 回归作图(Meta regression Plot)

    微信公众号:医学统计与R语言如果你觉得对你有帮助,欢迎转发 输入1: install.packages("metafor") library(metafor) dat.bcg 结果 ...

  9. 五大数据分析软件对比:Python、Excel、R、SPSS、SAS

    本文转载自:中国统计网 1 Excel Microsoft Excel是微软公司的办公软件Microsoft office的组件之一,是由Microsoft为Windows和Apple Macinto ...

最新文章

  1. 多master mysql_使用 Rotate Master 实现MySQL 多主复制
  2. NRF52 UICR寄存器读写
  3. 干货:从0到1搭建「推荐策略产品」的深度思考
  4. 组态王怎么做超级曲线_鸭肉怎么做?大叔教你红烧鸭块,香气扑鼻,简单易做,超级好吃...
  5. LeetCode 1817. 查找用户活跃分钟数(哈希)
  6. 详解:设计模式之-策略设计模式
  7. 日文邮件变成乱码解决方案
  8. 计算机网络|UDP用户数据报服务
  9. linux初始化TCP服务失败,深入Linux系统追踪TCP初始化
  10. 何登成 MYSQL 博客
  11. python flag格式_Python 字符串格式化之 printf-style
  12. 教你Java 代码性能优化小妙招,速速来看
  13. JavaWeb框架-Spring(基本概念)
  14. OpenG 编程指南英文整理
  15. 计算机驱动程序恢愎,如果意外卸载了计算机鼠标驱动程序,该怎么办_解决方案,以不小心卸载鼠标驱动程序...
  16. 百度webuploader上传到阿里OSS
  17. uva 815 Flooded!
  18. 风青杨:马云为何被浙商“炮…
  19. MySQL查询之分组查询
  20. 4-5 zookeeper四字命令

热门文章

  1. Centos npm 安装JDK及配置环境变量
  2. JSON解析中获取不存在的key
  3. 从无到有整合SpringMVC-MyBatis项目(3):整合SpringMVC+Mybatis
  4. python urllib3 request 无返回结果_python urllib request urlopen请求网页返回bytes类型
  5. html设置下拉筛选可以多选,select下拉框(支持筛选、多选)
  6. Linux文本复制到记事本文本文件乱码,解决“在windows里的记事本里编辑的汉字文本文件,上传到linux服务器上出现乱码“问题...
  7. 自己动手构造编译系统:编译、汇编与链接2.1.4 语义分析
  8. 南阳14(会场安排问题)
  9. Outlook2010新建域内Exchang邮箱的另一种方法
  10. 给自己看的squid服务器配置笔记