大数据抽样- 概率抽样,随机采样
在统计学中,抽样(Sampling)是一种推论统计方法,是指从目标总体(Population,或称为母体)中抽取一部分个体作为样本(Sample),通过观察样本的某一或某些属性,依据所获得的数据对总体的数量特征得出具有一定可靠性的估计判断,从而达到对总体的认识。
概率抽样方法
简单随机抽样(simple random sampling),也叫纯随机抽样。从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的概率被抽中。特点是:每个样本单位被抽中的概率相等,样本的每个单位是完全独立,彼此间无一定的关联性和排斥性。简单随机抽样是其它各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。
系统抽样(systematic sampling),也称等距抽样。将总体中的所有单位按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位。先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k、r+2k……等单位。这种方法操作简便,可提高估计的精度。
分层抽样(stratified sampling),将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。从而保证样本的结构与总体的结构比较相近,从而提高估计的精度。
整群抽样(cluster sampling),将总体中若干个单位合并为组,抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。抽样时只需群的抽样框,可简化工作量,缺点是估计的精度较差。
非概率抽样方法
方便抽样(Convenience Sampling),调查者以自己方便的方式抽取偶然得到的样本,最典型的方便抽样是“街头拦人法”。方便抽样的优点是易于实施,代价较小,缺点是样本代表性差,有很大的偶然性。
定额抽样(Quota Sampling),调查者先将总体按某种特征划分成不同的组,然后在配额内以主观判断选定样本作为研究对象。定额抽样和分层抽样的相同之处是对总体进行分组,不同之处是分层抽样按概率原则在层内抽选样本,而定额抽样选取样本是主观的。定额抽样的优点是能够缩小抽样范围,减少抽样成本,缺点是确定额度困难,需多次探索。
判断抽样(Judgement Sampling),研究人员根据调查目的和主观经验,从总体中选择最具代表性的样本。判断抽样的优点是可以用于总体难以确定的研究对象,缺点是受研究人员的主观倾向性影响大,一旦主观判断失误, 则易引起较大的抽样偏差。
滚雪球抽样(Snowball Sampling),先选取若干符合特征的样本构成最初的调查对象,然后依靠他们提供新的调查对象,随着调查的推进,样本如同滚雪球般由小变大,滚雪球抽样方法的优点是能够很方便地找到被调查者,用于探索性研究,缺点是样本之间必须存在联系且愿意保持和提供这种联系。 [2]
抽样数据方式
通常,可通过实验测试来对学习器的泛化误差进行评估并进而做出选择,测试样本是从样本真实分布中独立同分布抽样而得,测试集应该尽可能与训练集互斥,即测试样本尽量不在训练集中出现,未在训练过程中使用。
留出法(hold-out)
方法:直接将数据集D划分为两个互斥的集合,训练集合S和测试集合T,在S上训练模型,用T来评估其测试误差。注意:训练/测试集的划分要尽可能保持数据分布的一致性,避免因为数据划分过程引入额外的偏差而对最终结果产生影响。
缺点与改进:单次使用留出法得到的估计往往不够稳定可靠,在使用留出法时,一般要采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果
实际运用:实际中一般将大约2/3~4/5的样本用于训练,剩余样本用于测试。 [3]
交叉验证法(cross validation)
方法:先将数据集D划分为k个大小相似的互斥子集.每个子集Di都尽可能保持数据分布的一致性,即从D中通过分层采样得到 .然后每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集,这样就可以获得k组训练/测试集,从而可以进行k次训练和测试,最终返回的是这k个测试结果的均值。
实际运用:一般而言k的取值为10,常用的还有5、20等
自助法(bootstrap)
问题引出:我们希望评估的是用D训练出来的模型,但是留出法和交叉验证法中,由于保留了一部分样本用于测试,因此实际评估的模型所使用的训练集比D小,这必然会引入一些因训练样本规模不同而导致的估计偏差,为此提出自助法。
方法:它以自助采样(bootstrap sampling)为基础.给定包含m个样本的数据集D,我们对它进行采样产生数据集 D′:每次随机从D中挑选出一个样本,将其拷贝放入D′, 然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采样到;这个过程重复执行m次后,我们就得到可包含m个样本数据的数据集D′,这就是自助采样的结果.样本在m次采样中始终不被采到到概率为
由此可知通过自助采样,初始数据集D中约有36.8%的样本未出现在采样数据集D′中。于是我们可将D′ 用作训练集,D∖D′用作测试集。
优缺点:自助法在数据集较小,难以有效划分训练/测试集时很有用,但是,自助法改变了初始数据集的分布,这会引入估计偏差,所以在数据量足够时,一般采用留出法和交叉验证法。
=============================================================================================
随机抽样
随机抽样是在全部调查单位中按照随机原则抽取一部分单位进行调查,根据调查结果推断总体的一种调查方式。
具有以下几个基本特点。
(1)按照随机原则抽选调查单位。所谓随机原则就是指样本单位的抽取不受任何主观因素及其他系统性因素的影响,总体的每个单位都有一定的机会被抽选为样本单位。
(2)对部分单位调查的目的是为了推断总体指标。根据数理统计原理,抽样调查中的样本指标和对应的总体指标之间存在内在联系,而且两者的误差是可以计算出来的,因此提供了用实际调查部分信息对总体数量特征进行推断的科学方法。
(3)抽样误差可以事先计算并加以控制。以样本资料对总体数量特征进行推断,不可避免会产生代表误差,但抽样调查的代表性误差是可以根据有关资料事先计算并进行控制,故可以保证推断结果达到预期的可靠程度。
最主要的优点是,由于每个样本单位都是随机抽取的,根据概率论不仅能够用样本统计量对总体参数进行估计,还能计算出抽样误差,从而得到对总体目标变量进行推断的可靠程度。但随机抽样比较复杂,对调查人员的专业技术要求高,调查中需要抽样框,而构建和维护一个高质量的抽样框费用很高,抽样单位可能非常分散,而且不能轻易更换样本单位,增加了调查费用。
分类
单纯随机抽样
纯随机抽样必须有一个完整的抽样框,即总体各单位的清单。总体太大时,制作这样的抽样框工作量巨大,加之有许多情况,使总体名单根本无法得到。故在大规模社会调查中很少采用纯随机抽样。
分层抽样
系统抽样
系统抽样要防止周期性偏差,因为它会降低样本的代表性。例如,军队人员名单通常按班排列,10人一班,班长排第 1名,若抽样距离也取10时,则样本或全由士兵组成或全由班长组成。
整群抽样
多阶段抽样
优缺点
优点
第一,单纯随机抽样方法简单、直观,是随机抽样理论中最基本的组织形式,是抽样理论的基石。例如,日常生活中经常进行的挑选购物,某种商品短缺时的抓阄认购等,均是单纯随机抽样的简单原型。
第三,单纯随机抽样是衡量各种抽样方式效果好坏的一个比较标准。用样本指标估计、推断相应的总体指标,随着所采取的组织形式的不同,其对同一个调查指标估计结果的有效程度就不同。 [2]
缺点
第一,采用单纯随机抽样,一般需要对总体单位加以编号,而当总体包含的个体数目很大时,编号工作就很困难,逐一编号无法做到。例如,对于连续不断生产的大量产品进行质量检验,就不能对全部产品进行编号抽样。
第二,当总体的标志变异程度较大,即总体单位标志值之间差异很大时,单纯随机抽样的代表性就不如经过分层后再抽样的代表性高(详见以下的“分层抽样”)。
第三,当调查对象范围很广,即总体中各单位较为分散时,调查所需的人力、物力、财力就较大。因此,单纯随机抽样适用于总体容量不太庞大,以及总体分布比较均匀的调查对象。
大数据抽样- 概率抽样,随机采样相关推荐
- QCustomplot怎么实现对大数据量的自适应采样显示不卡顿
我在之前使用QCustomplot时候,当时需要特别大的数据量的显示,结果图像显示的特别卡顿,CPU占用率也特别高,然后当时在解决时候是自己写了采样抽取数据的函数,最后解决的. 然后这回在阅读手册时候 ...
- 大数据预测实战-随机森林预测实战(四)-模型微调
接下来介绍下一位参赛选手--GridSearchCV(),它要做的事情就跟其名字一样,进行网络搜索,也就是一个一个地遍历,不能放过任何一个可能的参数组合.就像之前说的组合有多少种,就全部走一遍,使用方 ...
- 大数据预测实战-随机森林预测实战(四)-模型调参
之前对比分析的主要是数据和特征层面,还有另一部分非常重要的工作等着大家去做,就是模型调参问题,在实验的最后,看一下对于树模型来说,应当如何进行参数调节. 调参是机器学习必经的一步,很多方法和经验并不是 ...
- 大数据预测实战-随机森林预测实战(一)-数据预处理
数据读取 气温预测的任务目标就是使用一份天气相关数据来预测某一天的最高温度,属于回归任务,首先观察一下数据集∶ # 数据读取 import pandas as pdfeatures = pd.read ...
- 大数据预测实战-随机森林预测实战(三)-数据量对结果影响分析
下面对比一下特征数量对结果的影响,之前两次比较没有加入新的天气特征,这次把降水.风速.积雪 3 项特征加入数据集中,看看效果怎样∶ # 准备加入新的特征 from sklearn.ensemble i ...
- 大数据预测实战-随机森林预测实战(三)-数据与特征对模型的影响
数据与特征对随机森林的影响 带着上节提出的问题,重新读取规模更大的数据,任务还是保持不变,需要分别观察数据量和特征的选寸结果的影响. 导入工具包 import pandas as pd 读取数据 fe ...
- 数据处理 过采样与欠采样 SMOTE与随机采样 达到样本均衡化
文章目录 ✌ 过采样与欠采样 1.✌ 采样介绍 2.✌ 过采样 2.1 随机采样: 2.2 SMOTE采样: 3.✌ 欠采样 4.✌ 代码演示 1.1 ✌ 创建数据 1.2 ✌ 随机采样 1.3 ✌ ...
- 《大数据时代(BIG DATA)》
--豆瓣链接-- 第一部分:大数据的时代思维变革 不是随机样本,而是全体数据 小数据时代的随机采样,最少的数据获得最多的信息 采样分析的精确性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大 ...
- RANSAC(随机采样一致算法)原理及openCV代码实现
<RANSAC(随机采样一致算法)原理及openCV代码实现> 原文: http://www.lai18.com/content/1046939.html 本文转自:http://b ...
- 大数据时代 书评及书摘
三天的零碎时间把这本书读完了,内容本身其实很简单,也谈不上特别精彩,五分制的话我只能打三分. 我的理解,数据一生应该是包含了三个阶段:收集,分析,最后是预测.我们总能根据现有的数据(或者经验)预测未来 ...
最新文章
- 微信小程序电子画板canvas2d签名小程序插件绝对可用
- linux 编译mysql_linux下编译MYSQL
- redis php 书,php中redis的使用
- Excel告诉你身份证号码里藏着de秘密
- [Golang]计算一个文件的MD5值
- 实战HPUX 11.31 MC/SG更换锁盘
- 最大矩形面积(C++实现)
- Android文件的读写
- GeoTrans2.4.1 用户手册 之 入门
- 小水智能-智能楼宇智慧建筑3D可视化系统,实现对实时数据的整合处理
- python语言包含的错误_Python3十大经典错误及解决办法
- 算法笔记 A+B 输入输出练习VIII
- android打开教程,Android 打开网络上pdf文件
- 关于be of noun的用法
- opencv h264压缩视频
- 全局地址池和接口地址池
- web项目修改favicon.ico图标
- 谈谈能带来高薪报酬的软件技术有哪些?
- 【Kaggle项目实战记录】狗的品种识别
- QT/C++从新手到老手系列之QT中级篇-李浩林-专题视频课程
热门文章
- 魔王语言解释器C语言,[数据结构]魔王语言解释c语言实现
- chronodex怎么用_滴答清单使用全攻略:如何把手帐搬到滴答清单上,提升效率?...
- 微信公众号怎么创建?
- Ae 入门系列之十二:形状动画
- java excel 打勾_在excel中如何打钩
- Mysql CPU占用100%查询
- 根据相机旋转矩阵求解三个轴的旋转角/欧拉角/姿态角 或 旋转矩阵与欧拉角(Euler Angles)之间的相互转换,以及python和C++代码实现
- 邮箱超大附件最大是多少?什么邮箱能发超大附件?
- sublime 3207 激活
- 数据分析师的职业发展路径是怎样的?