数据分析需要知道的统计学知识
文中的大部分概念知识来自于《商务与经济统计学》,推荐有时间的朋友认真去读一读,相信会很有帮助!
目录
数据集的描述方法
概率分布
基于单样本的统计推断:置信区间和假设检验
相关性与回归分析
因果推断
数据集的描述方法
- 位置度量
集中趋势:平均数、加权平均数、中位数、众数;百分位数、四分位数、标准分位数
a1.平均值:平均值也称为均值(mean),它是一组数据相加后除以数据的个数得到的结果。平均值不适用于分类数据和顺序数据的集中趋势。
a2.中位数:中位数是一组数据中间位置上的代表值,不受极端值影响。中位数主要适合衡量顺序数据的集中趋势度。(中位数在面对具有极大、极小等异常值的数据时,衡量数据的集中趋势时比平均值更合理;但反之,平均值更为合理。)样本总数为奇数时,中位数为第(n+1)/2个值;
样本总数为偶数时,中位数是第n/2个,第(n/2)+1个值的平均数;
a3.众数:众数是一组数据分布的峰值,不受极端值影响。其缺点是具有不唯一性。众数只有在数据较多时才有意义,同时众数主要适合作为分类数据的集中趋势测度值。
b1.百分位数: 如果将一组数据从大到小排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。(处于p%位置的值称第p百分位数)
b2.四分位数:第25百分位数又称第一个四分位数(First Quartile),用Q1表示;第50百分位数又称第二个四分位数(Second Quartile),用Q2表示;第75百分位数又称第三个四分位数(Third Quartile),用Q3表示。
b3.标准分位数:标准分位数代表了某个元素距离数据集平均值的距离,其单位为标准差,即某个元素和数据集均值间隔了几个标准差。标准分位数可取正负,取正表示改元素大于数据集平均值,反之表示小于数据集平均值。 - 变异程度
离散程度:极差、四分位数间距、方差、标准差;标准差系数
a.极差:极差即最大值-最小值。极差是描述数据离散程度的最简单的测度值,但是易受极端值的影响。
b.四分位数间距:求四分位数,需要先将数据集从小到大排列起来,按数据量平均分为四份,分别计算分割点两侧数字的平均值为Q1、Q2、Q3。间距IQR = Q3-Q1,四分位数一般配合箱线图进行可视化,用来对比不同数据集的分布情况。
c.方差:方差等于每个数据点距离平均值距离的平方。方差越大,数据集靠近中心的程度就越低。
对于全量数据来说: ;
对于抽样数据来说:
d.标准差:标准差等于每个数据点距离平均值距离的平均值。标准差不同于方差的是,标准差具有量纲,即单位。e.标准差系数:标准差系数又称均方差系数。反映标志变动程度的相对指标。总体标准差系数的计算公式为
- 偏度
分布形态、切比雪夫定理、经验法则
a.分布形态:包括左偏分布、右偏分布、正态分布。
频数分布直方图是向左偏还是右偏取决于偏度为正还是负,偏度由计算机计算,负为左偏,正为右偏,利用平均数和中位数的大小也可以判断偏度为左还是右,右偏时平均数大于中位数,左偏是,中位数大于平均数。
b.切比雪夫定理:任意一个数据集中,位于其平均数m个标准差范围内的比例(或部分)总是至少为,其中m为大于1的任意正数,适用于任何分布。
c.经验法则:在正态分布中,距平均值小于一个标准差、二个标准差、三个标准差以内的百分比,更精确的数字是68.27%、95.45%及99.73%。 - 五位概括
最大、最小、中位数、下四分位数、上四分位数。箱形图是五数概括法的数据图形汇总。箱形图也称盒形图、盒须图、盒式图。用作显示一组数据的分散情况。
- 变量关系
a.协方差:用于计算两变量间的线性关系,大的正值表示强的正线性相关关系,大的负值表示强的负线性相关关系。
b.相关系数:由于计量单位的变化会出现协方差变大,但是相关关系并无变化。为避免这种情况,我们使用相关系数代替协方差。相关系数在-1和+1之间,值得我们注意的是,相关系数提供的是线性关系而不是因果关系。相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差。
概率分布
离散型概率分布
a.二项分布:进行n次伯努利试验,成功概率为p,且成功了x次,发生上述情况的概率为:
1、每次试验只有两种可能的结果(“成功”、“不成功”)
2、每次试验前成功的概率为p,则不成功的概率为(1-p)
3、每次试验相互独立b.泊松分布:指在连续时间或空间单位上发生随机事件次数的概率,根据过去单位时间段内随机事件的平均发生次数,推断未来相同单位时间内随机事件发生不同次数的概率。泊松分布由二项分布转化而来,当n>=100且p<=0.05时,用泊松分布近似二项分布的效果最好。
1.泊松分布是一种描述和分析稀有事件的概率,样本量n必须足够大。
2.λ是泊松分布所依赖的唯一参数。λ值越小,分布越偏倚,随着λ的增大,分布趋于对称。c.超几何分布:感兴趣可查阅相关资料。
连续型概率分布
a.指数分布:主要应用在随机事件之间发生的时间间隔的概率问题。泊松分布是描述某一区间内发生随机事件次数的概率分布,而指数分布是描述两次随机事件发生时间间隔的概率分布。因此,两种分布有着密切的关系,在管理科学中经常将两者结合起来共同解决排队理论等有关问题。
(1) 随机变量X的取值范围是从0到无穷;
(2) 极大值在x=0处,即f(x)=λ;
(3) 函数为右偏,且随着x的增大,曲线稳步递减;
(4) 随机变量的期望值和方差为=1/λ,σ2=1/λ2。b.正态分布:表明被测事物处于稳定的状态下,测量数据的波动由偶然因素引起。
1、服从正态分布,经验法则指68.3%数据落在一倍标准偏差之内,95.4%数据落在二倍标准偏差之内,99.7%数据落在三倍标准偏差之内;
2、只有当连续型随机变量服从正态分布时,其Z变换才能转换为标准正态分布;
3、二项分布、泊松分布的正态近似
基于单样本的统计推断:置信区间和假设检验
置信区间(confidence interval):用一个区间范围来估计总体参数,和点估计对比。一般情况下,取95%的置信度。
置信系数(confidence coefficient):置信区间包含总体参数的概率。
置信水平(confidence level):显著性水平是估计总体参数落在某一区间内,可能犯错误的概率。置信系数的百分比表示形式。一般情况下,取5%的置信水平。
零假设和备择假设:一个研究者想证明自己的研究结论是正确的,备择假设的方向就要与想要证明其正确性的方向一致;同时将研究者想收集证据证明其不正确的假设作为原假设H0。
假设检验中的概率:
α=P(第I类错误的概率)=P(当H0正确时拒绝H0)
β=P(第II类错误的概率)=P(当H0错误时接受H0),要计算β值,备选假设需要一个关于样本统计量的具体数值
1-β=统计检验功效=P(当H0错误时拒绝H0)
假设检验的步骤:
1. 确定目标检验参数
2.确定原假设H0和备选假设Ha
3. 计算检验统计量
4. 根据显著性水平α确定拒绝域
5. 将检验统计量计算值与拒绝域进行比较,得出结论
常用假设检验的类型:
总体均值的假设检验:正态z统计量--大量样本(n>=30);
相关性与回归分析
b.Logistic回归:当因变量的类型属于二元(1 / 0、真/假、是/否)变量时,我们就应该使用逻辑回归。这里,Y 的取值范围是从 0 到 1。
多项式回归:对于一个回归等式,如果自变量的指数大于1,那么它就是多项式回归等式。
回归结果诊断——空间聚类、倾向性、冗余、性能、效果
因果推断
数据分析需要知道的统计学知识相关推荐
- 关于数据分析用到的统计学知识
需要了解和掌握的统计学知识如下: 基本统计量:均值.中位数.众数.百分位数.极值等 其他描述性统计量:偏度.方差.标准差.显著性等 其他统计知识:总体和样本.参数和统计量.ErrorBar 概率分布与 ...
- 数据分析入门需要了解的统计学知识【持续更新】
大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师.欢迎大家跟我一起走进数据分析的世界,一起学习! 感兴趣的朋友可以关注我或者我的数据分析专栏,里面有许多优质的文章跟大家分享哦. 最近一直 ...
- 【数据分析】数据分析需要掌握的统计学理论基础知识
数据分析需要掌握的统计学理论基础知识 最近在阅读徐麟老师的<数据分析师求职面试指南>,这本书系统性地描述了数据分析师的知识技能框架,非常值得阅读.对于一个数据分析师来说,统计学理论基础知识 ...
- 数据分析必备的统计学知识(一)
数据分析师的必备技能栈里,除了熟悉业务.掌握业务分析思维和工具外,还有一个特别重要的知识点,就是统计学,无论在简历的技能描述中还是实际的面试过程中,统计学都是必备的基础知识. 为什么对于数据分析师来说 ...
- 学好这些统计学知识,帮你入门数据分析
前言 数据分析是目前数据时代的热门方向,统计学又是数据分析必备的基础知识. 本文简单总结了一下需要的统计学知识. 基础的统计学知识 1.集中趋势(Central Tendency) 2.变异性(Var ...
- [数据分析自学帮手]数据分析必备的统计学知识大梳理,还不赶紧收藏?
目录 写在前面的话 今天的主题是数据分析要用到的统计学知识 如何学到统计学知识? 概率与概率分布 样本空间 随机事件 概率 概率分布 用图表演示数据 1.数据类型 2.统计表 3.统计图 数据的概括性 ...
- 数据分析之 —— 常用的统计学指标
文章目录 集中趋势 算术平均数 中位数 众数 差异量数 样本方差 样本标准差 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数 ...
- 统计学知识大梳理(三)
统计量及其抽样分布 抽样容易理解,抽样分布不容易理解. 抽样是从整个研究中抽取一部分个体作为我们真正的研究对象.我们可以简单地把样本理解为整体的一个子集,并通过样本的结果来推断整体情况.例如,我们想知 ...
- 数据分析(1)——统计学中的各种分布
数据分析(1)--统计学中的各种分布 1. 离散概率分布 1.1 二项分布 1.1.1 二项分布的定义及其公式 1.1.2 二项分布的性质(适用情况) 1.1.3 例题 1.2 伯努利分布 1.2.1 ...
最新文章
- java培训:Java的十大算法
- C#中HashTable的用法
- OpenCASCADE可视化:3D演示之图形基元
- Silverlight 2 DispatcherTimer和通过XAML创建UI元素
- AT3957-[AGC023F]01 on Tree【贪心,堆】
- Lucene概述第一部分:创建索引
- jQuery插件imageTick实现复选和单选框转化为图片
- 电梯调度需求调研报告
- Spring+SpringMVC+MyBatis深入学习及搭建(九)——MyBatis和Spring整合
- 【Flink】Flink反压(背压)网络流控
- 联合国儿童基金会投资六家区块链初创企业,目标是解决“全球性挑战”
- React路由配置:React Router
- Atitit 知识管理之 经济学概论 attilax 学习心得
- 通过 IDEA 黑掉你
- ApacheCN 编程/大数据/数据科学/人工智能学习资源 2019.12
- 沐川中学2021级高考成绩查询,沐川县中学2021年排名
- 防火墙的目标地址转换和源地址转换
- 苹果6S怎么录屏_苹果6s来电没声音怎么回事
- 魅族刷机教程【最简单】
- 《安富莱嵌入式周报》第221期:2021.07.12--2021.07.18
热门文章
- 被通知一个月离职,我修改了项目中的所有注释……
- Laravel基础二之Migrations和验证
- ShaderLab自学笔记(1):法线贴图和法线空间
- android OTA
- Python 遗传算法求解Stackelberg均衡问题(带概率约束)
- 【STC15库函数上手笔记】8、比较器
- Java项目:景区旅游管理系统(java+SpringBoot+html+layui+bootstrap+jQuery+mysql)
- java查询学生信息_JAVA学生信息管理系统
- dreamweave
- Dreamweaver网页设计与制作100例——HTML5期末考核大作业——票务网站整套网页