R语言随机抽样及分层抽样

  • 问题
  • 1、计算层次个数
  • 2、固定随机提取
  • 3、随机抽样
    • 看完如果对你有帮助,感谢点赞支持!
    • 如果你是电脑端,看到右下角的 “一键三连” 了吗,没错点它[哈哈]

问题

> dim(ml_data)
[1] 201253     11
  • 场景:20万行数据中,抽取每个月中的任意一天的数据,即,2019-9-6/2019-9-7/2019-9-8…

1、计算层次个数

  • dplyr包中count函数计算出每天的数据量,然后dim查看数据列346行,346个层次,346天。
> bb <- count(ml_data,date)
> > head(bb)date    n
1 20190906  568
2 20190907 1130
3 20190908  514
4 20190909  529
5 20190910  568
6 20190911  114
> dim(bb)
[1] 346   2

2、固定随机提取

  • set.seed(1)固定随机取数
  • sampling包中strata函数
  • 合并日期date向量下抽取,时间缩短
strata(data,stratanames=NULL,size,method=c("srswor","srswr","poisson","systematic"),pik,description=FALS)
#stratanames: 进行分层所依据的变量名称。
#size: 各层中要抽出的观测样本数。
#method: 选择4中抽样方法,分别为无放回、有放回、泊松、系统抽样,默认为srswor。
> set.seed(1)
> #注意size,每层抽取1个数,如果两个或者三个。。。
> sample_day <- strata(ml_data,stratanames = c("year","month","day"),size = rep(1,346),method="srswor")
> head(sample_day)year month day ID_unit         Prob Stratum
129  2019    09  06     129 0.0017605634       1
1498 2019    09  07    1498 0.0008849558       2
2207 2019    09  08    2207 0.0019455253       3
2683 2019    09  09    2683 0.0018903592       4
3040 2019    09  10    3040 0.0017605634       5
3323 2019    09  11    3323 0.0087719298       6
  • 两个相同
> set.seed(1)
> sample_day <- strata(ml_data,stratanames = "date",size = rep(1,346),method="srswor")
> head(sample_day)date ID_unit         Prob Stratum
129  20190906     129 0.0017605634       1
1498 20190907    1498 0.0008849558       2
2207 20190908    2207 0.0019455253       3
2683 20190909    2683 0.0018903592       4
3040 20190910    3040 0.0017605634       5
3323 20190911    3323 0.0087719298       6

3、随机抽样

sample(x, size, replace = FALSE, prob = NULL)
x:为向量
size:为样本容量
replace:表示是否为有放回的抽样,是一个逻辑值,默认为FALSE,即默认为无放回抽样;
prob:为权重向量,即x中元素被抽取到的概率,是一个取值0~1的向量,其长度应该与x的长度相同。
  • 举例
> sample(1:20, 5)
[1] 19 16 15 20  1
> sample(1:20, 5)
[1] 19 14  6 11  8
> set.seed(2)
> sample(1:20, 5)
[1] 15  6 19  8  1

看完如果对你有帮助,感谢点赞支持!

如果你是电脑端,看到右下角的 “一键三连” 了吗,没错点它[哈哈]

R语言随机抽样及分层抽样相关推荐

  1. R语言随机抽样sample

    在模拟实际数据情况时,常常会使用随机抽样函数来从整体中挑出部分样本数据.随机抽样又分为重复随机抽样和不重复随机抽样两种.重复抽样是指:本次从整体中抽取出的数据样本,在下一次抽取时同样有机会被抽取.不重 ...

  2. R语言对dataframe(data.table)数据分层随机抽样实战

    R语言对dataframe(data.table)数据分层随机抽样实战 目录 R语言对dataframe(data.table)数据分层抽样实战 #仿真数据 #分层抽样

  3. 求问R语言 分层抽样 合并两个数据框为什么出现了空集

    求问R语言 分层抽样 合并两个数据框为什么出现了空集 rbind计算不了 #分层抽样 mydata <- read.csv("dat.csv") #simsample 简单随 ...

  4. 分类树/装袋法/随机森林算法的R语言实现

    原文首发于简书于[2018.06.12] 本文是我自己动手用R语言写的实现分类树的代码,以及在此基础上写的袋装法(bagging)和随机森林(random forest)的算法实现.全文的结构是: 分 ...

  5. r语言实现sem_统计基础:【18】使用Excel和R语言来实现抽样

    在之前的推文中,我向大家分别介绍了简单随机抽样.系统抽样.任意抽样.整群抽样和分层抽样.详情在此不再赘述,没有相关基础的同学可以查看这部分的历史推文. 统计基础:[12]统计抽样方法总结 这5种抽样方 ...

  6. R语言数据挖掘实战系列(4)

    R语言数据挖掘实战系列(4)--数据预处理 数据预处理一方面是要提高数据的质量,另一方面是要让数据更好地适应特定的挖掘技术或工具.数据预处理的主要内容包括数据清洗.数据集成.数据变换和数据规约. 一. ...

  7. 基于R语言的随机森林算法运用

    有关数据挖掘中的分类算法有很多,如贝叶斯判别法.Fisher判别法.决策树.支持向量机和随机森林等,本文将对随机森林做一个介绍,并使用R语言实现该算法的应用. 随机森林算法的实质是基于决策树的分类器集 ...

  8. R语言 CHAR 01

    第一章 数据与R语言 文章目录 第一章 数据与R语言 一.数据与统计学 1.1 什么是统计学 1.2 变量与数据 1.3 数据来源 二.R语言初步使用 2.1 下载.安装.更新 2.2 对象赋值与运行 ...

  9. R语言基本统计分析——抽样

    R语言基本统计分析--抽样 简单随机抽样 简单随机抽样是指从数据总体中任意抽取指定数量的数据作为样本,其中每个可能被抽取中的样本概率相等.可以用R语言中的sample()函数进行随机抽样.抽取方法分为 ...

  10. 我与R语言的相识与相知

    作者:张宜峤,刚入职场的小白,自学R语言两年 1 相识 第一次听说R语言,来自我的大学老师,她说她的学生都用R语言,她劝编程零基础的我试试,只要踏实,一步一个脚印,不管多么简单的代码都要亲手实践,那么 ...

最新文章

  1. 怎么给html页面添加网格线,html – 如何使用css制作网格(如图纸网格)?
  2. 二维码Data Matrix编码、解码使用举例
  3. 【codeforces 768F】 Barrels and boxes
  4. 给Linux添加新用户,新建用户,新建帐号
  5. 【机器学习】数据挖掘算法——关联规则(二),挖掘过程,Aprioir算法
  6. STM32使用IIC总线通讯协议在OLED屏幕上显示字符串、汉字、图像(硬件IIC)
  7. python程序设计搜题软件下载_智慧职教云课堂APPPython程序设计答案搜题公众号
  8. 对$()与``区别的理解
  9. 蚂蚁金服数据库性能超甲骨文引热议;三大运营商 5G 预约用户接近 930 万;苹果发布新版 Mac 系统| 极客头条...
  10. spark 算子使用类变量_SparkCore的常用算子
  11. 麒麟操作系统激活相关问题
  12. 计算机中ms-dos什么意思,msdos是什么意思
  13. 软件工程之系统架构图和系统架构描述
  14. python opencv 识别圆角矩形_OpenCV—Python 轮廓检测 绘出矩形框(findContours\ boundingRect\rectangle...
  15. react18的SSR
  16. 解决报错Duplicate keys detected
  17. 微信账号和系统账号绑定
  18. 软件各生命周期所用的工具
  19. 计算机作文 六年级,我和电脑600字_六年级作文_小学作文 - 265学校教育网
  20. 第二期金牌网管师100%就业培训班招生简章

热门文章

  1. Android开发——监听Android手机的网络状态
  2. 有损压缩、无损压缩(图片、音频、视频)
  3. 云原生爱好者周刊:KubeSphere 3.3.0 Alpha 版发布
  4. 作为一个面试官如何准备一场面试
  5. python输入单词显示长度_Python按长度打印单词
  6. 风云崛起之matlab求解电路状态方程
  7. C#.NET生成条形码(Code39和Code128)
  8. 树莓派python 简介_自己动手实现智能家居之树莓派GPIO简介(Python版)
  9. 跳跃表(Skip list)原理
  10. ble mesh 学习笔记(9)telink的mesh-lpn代码分析