常用的统计学原理及案例
公众号后台回复“图书“,了解更多号主新书内容
作者:冬至
来源:首席数据科学家
“ 统计学相关的知识,是数据科学的重要基础之一。”
之前咱们分享过很多数据应用相关的内容,从《用户画像》到《数据采集》、《BI系统》等等。今天开始系统分享一些和基础理论相关的内容,包括统计学、概率论等学科。
01
—
总体、样本与抽样
统计学,其实本质就是研究样本与总体的学科。
(1)关于总体
首先,什么是总体呢?
总体,就是我们想研究的对象的全体。比如,我们要研究淘宝的所有用户,那淘宝的所有7亿用户就是总体。总体用户中的每一个人,就是一个个体。
如果总体是有限个,就是有限总体,无限个就是无限总体。
对于总体,我们给出一个随机变量X,随机变量的分布就是总体分布。
(2)关于样本
研究总体的过程中,我们就发现一个问题,总体的数量往往过多。比如针对淘宝网所有用户,想研究所有用户的满意度,咋办?要一个一个人全部调查一遍嘛?显然不现实。这时就有了抽样以及样本的价值。
什么是抽样?
简单来说,抽样就是将总体中取一部分。比如全部淘宝用户抽1000人,这1000人就是样本,抽取的过程就是抽样。1000人就是样本大小,也叫样本容量。
对于抽了n个样本X1,X2,……Xn,我们通常用以下表示样本变量:
如果发生了抽样,那每个样本都有一个具体的值,比如样本X1的取值是x1,那我们就把x1叫观测值,全部样本的观测值则用以下表示:
总结而言,大写表示的是变量,小写表示的是确定的数值(因为已经抽取出来并测量了)。
(3)关于抽样
关于抽样,我们要求的是简单随机抽样。有以下几个要求:
同分布。要求每个样本被抽到的机会都是均等的
相互独立。抽到某个个体对其他个体被抽到是没有影响的。
当然了,简单随机抽样是比较理想的情况,实际操作中比较困难。
(4)样本的分布
由于样本的抽取是独立的,所以样本的概率函数就等于每个样本的联合概率分布。
02
—
统计量
了解了总体和样本,我们再看看看统计量。
(1)统计量的定义
首先看一下定义:不含任何未知参数的样本的函数,就叫统计量。
说白了,统计量就是由我们取的样本、构造的一个不含未知参数的函数。函数可以是任意的,随意构造,只要保证不含未知参数即可(可以含已知参数)。
比如,我们求样本的和,求样本平方之后的和,这些都是统计量。
(2)常见统计量
这里介绍一下常见的统计量。
样本均值:
样本方差(修正过的):
注意,这里的样本方差是修正过的。细心的朋友应该也已经发现了,这里的系数分母是n-1(未修正的样本方差的分母是n,也是我们初中高中一直用的方差的定义)。修正的主要目的是为了使得样本方差是总体方差的无偏估计。关于无偏估计,后续再阐述。
样本标准差:
样本K阶原点矩:
当这里的k=1的时候,一阶原点矩就是均值。
样本K阶中心矩:
当这里的k=2的时候,就是未修正的样本方差。
03
—
样本均值和方差的性质
上面讲到了很多统计量,用的比较多的,其实依旧是样本均值和方差。因此,针对样本均值和方差的一些性质,进行详细阐述。
(1)样本均值的期望是总体均值
啥意思呢,举例说明。
假设全体7亿淘宝用户对网站的平均满意度是80分(这个是未知的),抽样了1000个淘宝用户,统计了这1000个用户每个人的满意度,并求均值。那这个样本均值的期望就应该等于80分。
(2)样本均值的方差是总体方差的n分之一
从这里,我们可以看出来。样本均值的方差比总体方差变小了。而且样本数量越大,均值的方差越小。为啥呢?
其实是这样。方差反映的是数据的波动程度。当我们选样本的数量越多的时候,那么越接近总体的数量,人数越多数据的波动性越小。这个道理也是比较容易理解的。
(3)样本方差的期望等于总体方差
这里具体证明过程就不展开了。
关于总体、样本、统计量相关的内容,就先介绍到这。下回继续分享抽样分布相关的内容,欢迎继续关注。
◆ ◆ ◆ ◆ ◆
麟哥新书已经在当当上架了,我写了本书:《拿下Offer-数据分析师求职面试指南》,目前当当正在举行活动,大家可以用相当于原价5折的预购价格购买,还是非常划算的:
数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。管理员二维码:猜你喜欢● 卧槽!原来爬取B站弹幕这么简单
● 厉害了!麟哥新书登顶京东销量排行榜!
● 笑死人不偿命的知乎沙雕问题排行榜● 用Python扒出B站那些“惊为天人”的阿婆主!
● 你相信逛B站也能学编程
常用的统计学原理及案例相关推荐
- AI之NLP:自然语言处理技术简介(是什么/学什么/怎么用)、常用算法、经典案例之详细攻略(建议收藏)
AI之NLP:自然语言处理技术简介(是什么/学什么/怎么用).常用算法.经典案例之详细攻略(建议收藏) 目录 NLP是什么? 1.NLP前置技术解析 2.python中NLP技术相关库 3.NLP案例 ...
- Py之re:re正则表达式库的简介、常用函数、经典案例之详细攻略
Py之re:re正则表达式库的简介.常用函数.经典案例之详细攻略 目录 re正则表达式库的简介 1.正则表达式元字符表集合--正则表达式的pattern re正则表达式库的常用函数 1.re.comp ...
- Matlab:Matlab中常用的函数、案例详细攻略
Matlab:Matlab中常用的函数.案例详细攻略 目录 常用函数 1.与文件相关 2.MATLAB GUI不同控件函数间变量传递方法 常用函数 Matlab中的bwmorph函数解释 bwmorp ...
- 可视化篇(二)———使用matplotlib绘制常用3D图形及案例
可视化篇(二)---使用matplotlib绘制常用3D图形及案例 摘要 (一)添加matplotlib 3D模块 (二)3d图中绘制曲线 (三)3d图中绘制散点图 (四)3d图中绘制线框图 (五)3 ...
- RabbitMQ常用操作命令和入门案例(一对一的简单模式)
RabbitMQ常用操作命令和入门案例(一对一的简单模式) 一.RabbitMQ常用操作命令 常见命令列表: # 前台启动Erlang VM和RabbitMQrabbitmq-server # 后台启 ...
- 二级VB培训笔记06:窗体与常用控件综合案例【个人信息注册】
二级VB培训笔记06:窗体与常用控件综合案例[个人信息注册] 一.常用控件属性与方法思维导图 二.综合案例--个人信息注册 1.创建工程,修改名称为"个人信息注册",窗体名称设置为 ...
- SQL常用函数及使用案例
SQL常用函数及使用案例 分组排序函数 CONCAT连接函数 MERGE LEN RIGHT LEFT SUBSTRING ISNULL COALESCE GETDATE YEAR MONTH DAY ...
- AI之NLP:自然语言处理技术简介(是什么/学什么/怎么用)、常用算法、经典案例之详细攻略(建议收藏)daiding
AI之NLP:自然语言处理技术简介(是什么/学什么/怎么用).常用算法.经典案例之详细攻略(建议收藏) 目录 NLP是什么? 1.NLP前置技术解析 2.python中NLP技术相关库 3.NLP案例 ...
- [SVA]SystemVerilog Assertion常用操作符总结及案例
SystemVerilog Assertion常用操作符总结及案例 前言:在数字电路验证中,常常需要对某一组信号之间的关系做检查,此时就要用到SystemVerilog Assertion.用过能掌握 ...
最新文章
- centOS防火墙中端口的开启和关闭
- Spring中事务内部调用引发的惨案
- [SUCTF2018]babyre [ACTF新生赛2020]fungame
- 执行计划--为查询指定查询计划
- J2EE从头开始__EJB3
- react实战项目_React实战之React+Redux实现一个天气预报小项目
- zookeeper删除节点的权限_Zookeeper使用超级用户删除带权限的节点
- php替代eval_PHP:需要eval()的替代方法来动态构建多维数组
- python end用法_8种高级的Python列表使用技巧,都给你整理好啦(附实操代码)
- 在netbeans中使用tomcat服务器的web应用,在NetBeans中创建Apache—Tomcat-web服务器
- 即时通讯IM的安全性比较
- C/C++语言IDE_开发工具
- 服务器电脑cpu性能排行,服务器cpu性能排行,小编教你服务器cpu性能排行
- Ubuntu虚拟机镜像下载及创建
- Latex 求职简历模版
- ftm模块linux驱动,飞思卡尔K60 FTM模块详解【二】
- 快手和抖音怎么打开微信小程序
- JavaWeb酒店管理系统
- 27英寸显示器多大 长宽多少厘米
- 微信公众号里放XLS链接教程