用八种抽样技术,解决数据科学最大障碍之一
全文共3210字,预计学习时长6分钟
你一定经历过这种情况:下载了一个大型数据集,开始进行分析并建立机器学习模型。但在尝试加载数据集时,计算机突然显示“内存不足”错误。
这是数据科学中面临的最大障碍之一——用运算能力有限的计算机处理大量数据。
那么如何克服这个长期存在的问题呢?是否有一种方法可以选择数据的子集进行分析,还可以很好地表示整个数据集呢?
有的!这种方法称为抽样法。在学校或大学期间,甚至在职业生涯中,都经常碰到这个术语。抽样是收集数据子集并进行分析的好方法。但是,是否应该随机挑选子集呢?
本文将探讨八种不同类型的抽样技术,及其适用的情况。这是一篇适合初学者的文章,其中一些描述性统计的知识也很有用。
目录
1. 什么是抽样?
2. 为什么需要抽样?
3. 抽样的步骤
4. 不同类型的抽样技术
5. 概率抽样的类型
6. 非概率抽样的类型
什么是抽样?
首先,抽样的定义如下。
抽样是一种可以基于总体子集(样本)的统计信息来获取总体信息,而无需分别调查每条信息的方法。
上图完美地说明了什么是抽样。可以通过示例更直观地了解抽样。
比如,求德里所有成年男性的平均身高。德里的人口大约为3千万,男性大约为1500万(这些只是该例的一种假设,因此请不要信以为真!)。可以想象,要知道德里所有男性的平均身高几乎是不可能的。
也不可能接触到所有男性,因此无法真正地分析整个人口。那么能做什么呢?可以提取多个样本,计算所选样本中个体的平均身高。
但是,接下来又有一个问题:如何取样呢?应该随机抽样吗?还是必须询问专家?
假设调查者可以去篮球场,以所有职业篮球运动员的平均身高作为样本。这不是一个好样本,因为一般而言,篮球运动员的身高要比一般男性高,这样对平均男性身高的估计不准确。
有一个潜在的解决方案:在随机情况下寻找任意的人,这些人的样本不会因为身高问题产生偏差。
为什么需要抽样?
你一定知道答案。
进行抽样是为了从样本中得出有关人群的结论,以便通过直接观察群体的一部分(或样本)来确定该人群的特征。
· 与选择群体中的每个个体相比,选择样本所需的时间更少
· 样本是一种经济高效的方法
· 与分析整个群体相比,对样本进行分析简单方便而且更加实用
抽样步骤
通过将概念可视化可以记得更牢固。因此,下面以流程图的形式呈现抽样的各个步骤。
可进行一个有趣的案例研究,并按照以下步骤进行抽样。几个月前,印度举行了大选。当时每个新闻频道都在跟进民意测验:
这些结果涵盖了印度所有9亿选民的意见,还是仅考虑了一小部分选民的意见呢?一起看看这是如何进行的。
第1步
抽样过程的第一步是明确目标人群。
因此,为了进行民意调查,投票机构仅考虑18岁以上且有资格进行投票的人群。
第2步
抽样框架:构成抽样样本的个体或人群的列表。
因此,抽样框架会将所有选民姓名都写在某选区选民名单上。
第3步
通常,使用概率抽样方法是因为每个投票人都具有同样的价值,并且任何人都可以被包括在样本中,而不管其种姓、社区或宗教信仰如何。从该国家不同地区选取不同样本。
第4步
样本数量——样本中要采集的个人或物品的数量,要足够对这一人群做出精准的推断。
样本量越大,对这一人群的推断就越准确。
对于民意测验而言,机构试图让有不同背景的人群尽可能多地包括在样本中,因为这将有助于预测一个政党可以赢得的席位数。
第5步
一旦确定了目标人群、抽样框架、抽样技术和样本数量,下一步就是从样本中收集数据。
在民意测验中,机构通常会向人们提一些问题,例如要投票给哪个政党或之前的政党做了什么工作等等。
根据答案,各机构会试图解读出选民将投票给谁,以及某个政党大约可以赢得多少席位。这项非常令人兴奋,对吧?
不同类型的抽样技术
这是另一个图解说明,介绍了不同类型的抽样技术:
· 概率抽样:在概率抽样中,群体中的每个人都有被选择的平等机会。概率抽样提供了一个真正代表群体的样本。
· 非概率抽样:在非概率抽样中,群体中的每个人都没有被选择的平等机会。因此,可能出现非代表性样本,这种样本无法产生概括性的结果。
例如,假设某个人群有20个人。每个人从1到20进行编号,并用特定的颜色(红色、蓝色、绿色或黄色)表示。每个人在概率抽样中被选出的几率为20分之一。
对于非概率抽样,这些几率并不相等。一个人可能比别人更有可能被选中。现在,已经对这两种抽样类型有了一个概念,再深入了解每种抽样类型,了解每个部分下的不同抽样类型。
概率抽样的类型
简单随机抽样
这种抽样技术十分常见。在简单随机抽样中,每个人都是被偶然选出来的,群体中的每个成员被选中的机会均等。
简单的随机抽样可减少选择偏差。
该技术的一大优势在于这是概率抽样的最直接方法。但有一个警告——可能无法选择出具有所需特征的足够多的个体。蒙特卡洛方法通过重复随机抽样来估计未知参数。
系统抽样
在这种抽样方式中,第一个个体是随机选择的,而其他个体则使用固定的“采样间隔”来进行选择。举一个简单的例子来理解这一点。
假设某一群体的规模是x,需要选择的样本量为n。然后,选择的下一个个体将是第一个个体的x / n个间隔。可以用相同的方式选择其余样本。
假设从3号开始,需要的样本数量为5。因此,接下来将选择的第二人与第三人的间隔为(20/5)=4,或7 (3+4), 等等。
3, 3+4=7, 7+4=11, 11+4=15, 15+4=19 = 3,7, 11, 15, 19
系统抽样比简单随机抽样更加方便。但是,如果存在某种潜在模式,则可能导致偏差(尽管这种情况发生的机率非常小)。
分层抽样
在这种类型的抽样中,根据性别、类别等不同特征将群体分为多个子分组(称为阶层)。然后,从以下子分组中选择样本:
首先根据红色、黄色、绿色和蓝色这些不同颜色将群体分为多个子分组。然后,从每种颜色数字在群体中的比例选出个体。
当需要该群体所有子分组的典型代表时,可以使用这种类型的抽样。但是,分层抽样需要了解一定的群体特征。
聚类抽样
在聚类样本中,使用群体的子分组作为抽样单位,而不是个体。群体分为多个子分组,可称为聚类,随机选择某个聚类以进行研究:
上例中将群体分为5类。每个聚类由4个个体组成,在样本中采用了第4个聚类。根据样本量,可以包括更多的聚类。
当需要关注特定地区或区域时,可以使用这种类型的抽样。
非概率抽样的类型
方便抽样
这可能是最简单的抽样方法,根据个人的可用性和参与意愿来选择样本。
假设编号为4、7、12、15和20的个人希望参与抽样调查,那就把他们包含在样本中。
方便抽样容易产生明显的偏差,因为样本可能无法代表某些特征,例如群体的宗教、性别等特征。
配额抽样
配额抽样根据群体的预定特征选择项目。比如在本例中,必须选择数字为四的倍数的个人作为样本:
因此,编号为4、8、12、16和20的个人已经成为预定样本。
在配额抽样中,所选样本可能无法较好地呈现未考虑的群体特征。
判断抽样
也称为选择性抽样。对样本的选择取决于专家的判断。
假设,专家认为,应该将编号为1、7、10、15和19的个人作为样本,因为这些样本可以帮助更好地推断这一群体。可以想象,配额抽样也容易受到专家的影响,也不一定具有代表性。
雪球抽样
这种抽样技术要求现有抽样人员推荐更多自己所认识的其他人员,以便样本的数量像滚雪球一样增加。当抽样框架难以识别时,这种抽样方法很有效。
例如,随机选择了1号人员作为样本,然后他(她)推荐了6号人员,6号人员又推荐了11号人员,依此类推。
1-> 6->11-> 14-> 19
雪球抽样也可能存在选择偏见,因为被选择的个体与推荐他们的个体具有共同的特征。
留言 点赞 关注
我们一起分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”
(添加小编微信:dxsxbb,加入读者圈,一起讨论最新鲜的人工智能科技哦~)
用八种抽样技术,解决数据科学最大障碍之一相关推荐
- 八种显示器技术(放映机、投影仪、CRT显示器、LCD显示器、LED显示器、PDP等离子显示器、激光显示器、VR显示器)
最近一直在关注显示器方面的资料,经过一段时间的学习,从网上整理了八种显示技术的资料,方便学习理解,可能不够全面和正确,希望各位大师批评指正,发现错误将及时更正. 一.放映机 放映机是把影片上记录的影像 ...
- JVM出现OOM的八种原因及解决办法
本文源自转载:JVM出现OOM的八种原因及解决办法 目录 一.堆溢出 1.1 原因 1.2解决方法 二.永久代/元空间溢出 2.1 原因 2.2 解决方法 三.GC overhead limit ex ...
- 爬动漫网站数据_通过这三种动漫爱上数据科学和技术
爬动漫网站数据 Yes, it might seem weird to mention anime, data science, and technology in the same breath. ...
- 大数据数据科学家常用面试题_想要成为数据科学家,解决数据科学面试的简单指南...
大数据数据科学家常用面试题 Choose a job you love, and you will never have to work a day in your life. - Confucius ...
- 计算机科学与技术与数据科学与大数据技术哪个好
学计算机学与技术好还是学大数据好? 本人认为学大数据好一些.首先,当前计算机科学与技术和大数据这两个专业的热度都比较高,这两个专业本身也没有所谓的好坏之分,而且这两个专业本身也有非常紧密的联系,当前计 ...
- 获取会话名称时错误 5_5种可重复的数据科学工具
使用这些工具开发协作,可信赖和高效的数据科学项目 科学中可重复性的定义是"重复进行实验时获得一致结果的程度". 数据,尤其是数据保存在数据库中的位置,可能会发生变化. 此外,数据科 ...
- windows7没pdf打印机_公司中常见的八种打印机故障解决方法
前面我们学习了打印机共享的基础知识.怎么共享打印机,可是在使用过程中却发现经常会出现无法打印的情况,这是什么原因导致的了,来跟我一起了解下公司中八种常见的打印机无法打印的故障现像与处理方法吧,这是在公 ...
- 智能科学与技术与数据科学与大数据技术哪个好
大数据和人工智能那个好学,学那个比较好就业呢? 选择一门学科学习,我们不能从哪个好学开始,我们得从自身的兴趣和技能优点出发,做一个客观的决定.下面我们先好好捋一捋大数据和人工智能的概念和研究方向. 1 ...
- 用区块链技术解决数据与征信的痛点,他们想让公民自己管理信用数据
本堂茜 渡鸦区块链专栏记者 内容预读 消费信贷的市场规模 你的信息有多不安全? 黑客KK最近接的一单生意,是盗取"企查查"的数据.企查查是一家企业工商信息查询平台,其核心数据服务器 ...
最新文章
- Machine Learning week 5 quiz: programming assignment-Multi-Neural Network Learning
- mysql语句的左外链接_MySQL中的JOIN连接
- PyCharm----快捷键
- tomcat如何访问非webapp下的资源文件
- php设计模式之——建造者模式
- DOM操作案例之--全选与反选
- BEC translation exercise 4
- 一道计算时间的机试题
- mysql 常用字段类型_mysql 常用字段类型
- html设置请求头host,Http请求头Host字段作用
- 你在项目中做过哪些安全防范措施?
- wincap linux部署
- 华为鸿蒙系统卡片,18个月不卡?这四款华为2年还流畅,支持鸿蒙OS
- 华为“扫地僧”纯手打《趣谈—网络协议.pdf》,看完只剩一个字:香
- Linux系统磁盘的挂入和装载
- Rocket Pool 、InfStones 、Lido 三种质押服务浅析
- 计算机工作日志小学,班主任工作日志记录 小学班主任工作计划合集
- 怎么样关闭计算机的操作音,电脑报警音怎么关闭
- python童年_一行代码玩童年小游戏
- cdr保存的内容计算机搜不到,CorelDRAW自动保存的文件在哪里?