数理统计与描述性分析

一、样本
- 1.1 定义
- 1.2 样本均值和方差
- 1.3 有关证明
二、描述性统计
- 1.1 中位数、众数、分位数
- 1.2 方差、标准差、变异系数
- 1.3 偏度、峰度

一、样本

1.1 定义

定义：在数理统计中，称研究对象的全体为总体，通常用一个随机变量表示总体。组成总体的每个基本单元叫个体。从总体 XXX 中随机抽取一部分个体 X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn ,称 X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn 为取自 XXX 的容量为 nnn 的样本。

样本具有两重性，即当在一次具体地抽样后它是一组确定的数值。但在一般叙述中样本也是一组随机变量，因为抽样是随机的。一般地，用 X1,X2,...，XnX_1,X_2,...，X_nX1,X2,...，Xn , 表示随机样本，它们取到的值记为 x1,x2,...，xnx_1,x_2,...，x_nx1,x2,...，xn 称为样本观测值。

样本分布取决于总体的性质和样本的性质。

1.2 样本均值和方差

样本均值
设 X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn 是总体 XXX 的一个简单随机样本，称 X‾=1n∑i=1nXi\overline X = \frac{1} {n} {\sum_{i=1}^{n}X_i} X=n1i=1∑nXi 为样本均值。通常用样本均值来估计总体分布的均值和对有关总体分布均值的假设作检验。

样本方差
设 X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn 是总体 XXX 的一个简单随机样本，X‾\overline XX 为样本均值，称 S2=1n−1∑i=1n(Xi−X‾)2S^2 = \frac{1} {n-1} {\sum_{i=1}^{n}(X_i-\overline X)^2} S2=n−11i=1∑n(Xi−X)2 为样本方差。通常用样本方差来估计总体分布的方差和对有关总体分布均值或方差的假设作检验。

1.3 有关证明

设 x1,x2,...，xnx_1,x_2,...，x_nx1,x2,...，xn，为总体的一个样本，且其样本均值为X‾\overline{X}X，样本方差为S2S^{2}S2，总体方差为σ²σ²σ²，总体期望为μμμ。

证明1：样本期望等于总体期望。
对于简单随机抽样的样本：x1,x2,...，xnx_1,x_2,...，x_nx1,x2,...，xn与总体X是同分布的，所以各样本的期望均为总体期望。
E(X‾)=E(1n∑i=1nxi)=1n∑i=1nE(xi)=1n∗n∗E(X)=μE(\overline{X})=E(\frac{1} {n}{\sum_{i=1}^{n}x_i})=\frac{1} {n}{\sum_{i=1}^{n}E(x_i})=\frac{1}{n}*n*E(X)=μE(X)=E(n1i=1∑nxi)=n1i=1∑nE(xi)=n1∗n∗E(X)=μ

证明2：样本均值的方差等于σ2n\frac{ \sigma^2}{ n}nσ2。
D(X‾)=D(1n∑i=1nxi)=1n2∑i=1nD(xi)=σ²nD(\overline{X})=D(\frac{1} {n}{\sum_{i=1}^{n}x_i})=\frac{1} {n^2}{\sum_{i=1}^{n}D(x_i})=\frac{σ²}{n}D(X)=D(n1i=1∑nxi)=n21i=1∑nD(xi)=nσ²

证明3：样本方差的期望等于总体的方差$。

方差公式：

因此：

由此得到：

二、描述性统计

1.1 中位数、众数、分位数

Python实现：

import numpy as np
import pandas as pd
a=[np.random.randint(1,10) for i in range(0,20)]
a_mean = np.mean(a)  #均值
a_med = np.median(a)  #中位数
print("a的平均数:",a_mean)
print("a的中位数:",a_med)
ser = pd.Series(a)
a_m2 = ser.mode()
print("a的众数:",a_m2)
a_quan=ser.quantile(0.75)   #四分之三分位数
print(a_quan)

1.2 方差、标准差、变异系数

变异系数：
CV=100∗sX‾CV=100*\frac{s} {\overline{X}}CV=100∗Xss:标准差s:标准差s:标准差X‾:平均值\overline{X}:平均值X:平均值
优点：可以消除测量尺度和量纲的影响。
缺点：当均值接近于0时，微小的变化也会对变异系数造成巨大的影响；另外，它无法发展出类似于均值的置信区间的工具。

Python实现：

import numpy as np
a=[np.random.randint(1,10) for i in range(0,20)]
a_var = np.var(a)  #方差
a_std = np.std(a) #标准差
a_mean = np.mean(a)  #均值
a_cv =  a_std /a_mean #变异系数
print("a的方差:",a_var)
print("a的标准差:",a_std)
print("a的变异系数:",a_cv)

1.3 偏度、峰度

偏度（peakedness;kurtosis)也称为偏态，是统计数据分布偏斜方向和程度的度量，是统计数据分布非对称程度的数字特征。直观看来就是密度函数曲线尾部的相对长度。偏度刻画的是分布函数（数据）的对称性。关于均值对称的数据其偏度系数为0，右侧更分散的数据偏度系数为正，左侧更分散的数据偏度系数为负。

正态分布的偏度为0，峰度为3。

左偏:
若以bs表示偏度。bs<0称分布具有负偏离，也称左偏态；
此时数据位于均值左边的比位于右边的少，直观表现为左边的尾部相对于与右边的尾部要长；
因为有少数变量值很小，使曲线左侧尾部拖得很长；

右偏：

bs>0称分布具有正偏离，也称右偏态；
此时数据位于均值右边的比位于左边的少，直观表现为右边的尾部相对于与左边的尾部要长；
因为有少数变量值很大，使曲线右侧尾部拖得很长；

峰度（peakedness;kurtosis）说明的是分布曲线在平均值处峰值高低的特征数。直观看来，峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量，如果峰度大于三，峰的形状比较尖，比正态分布峰要陡峭。反之亦然。峰度刻画的是分布函数的集中和分散程度。
注：由于计算方法的不同，pandas中正态分布的峰度为0。

Python实现：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
data = list(np.random.randn(10000))
#生成标准正态分布的随机数（10000个）
plt.hist(data,1000,facecolor='g',alpha=0.5)
'''
plt.hist(arr, bins=10, facecolor, edgecolor,alpha，histtype='bar')
bins：直方图的柱数，可选项，默认为10
alpha: 透明度
'''
plt.show()
s = pd.Series(data) #将数组转化为序列
print('偏度系数',s.skew())
print('峰度系数',s.kurt())

数理统计与描述性分析相关推荐

《数学建模：基于R》——1.1　数据的描述性分析
1.1 数据的描述性分析在建立随机模型之前,首先要分析数据的主要特征,也就是数据的数字特征.这些特征通常是均值.方差,或者是数据服从什么分布.只有在确定了这些特征之后,才能建立起符合实际的模型. 本 ...
python 描述性分析_描述性分析-1对被解释变量进行描述
描述性分析-1对被解释变量进行描述描述性分析-1对被解释变量进行描述如果应用需要使用数据库,必须配置数据库连接信息,数据库的配置文件有多种定义方式. 配置文件在全局或者应用配置目录(不清楚配置目录 ...
莱鸟学spss数据分析之第六章---描述性分析
第6章描述性分析数据的分布特征主要有三个:数据分布的集中趋势.数据分布的离散趋势.数据频数的分布形态. 6.1.1 集中趋势集中趋势的目的是找到最能代表整个数据的数值. 1．适用类型 ● 若为定 ...
招聘网探究分析报告（以描述性分析为主）
招聘网探究分析报告(以描述性分析为主) 1 引言记得在我中学时,就听到过"大学生一毕业就失业"的言论.网上资料显示是大学扩招,书本理论知识与岗位真实需求脱节严重,善于纸上谈兵而 ...
【沃顿商学院学习笔记】商业分析——Customer Analytics：01 描述性分析 Descriptive Analytics
商业进阶--描述性分析本章主要是从描述性分析的三个层面来进行学习,主要包含探索性研究 Exploratory Research.描述性研究Descriptive Research和因果性研究Caus ...
SAS常用基础代码例子-数据描述性分析
SAS常用基础代码例子-数据描述性分析 1. 计算均值.方差.标准差.变异系数.偏度.峰值: 2. 计算中位数.上下四分位数.四分位极差.三均值: 3. 作出直方图,茎叶图: 4. 进行正态性W检验. ...
【转】第5章数据的描述性分析
文章来源于:炼数成金:摘自<数据分析:R语言实战> 第5章数据的描述性分析通过前面两章的学习,我们知道,数据收集是取得统计数据的过程,数据预处理是将数据中的问题清理干净,那么接下来的步 ...
【原创】描述性分析思维的一些基本思路与见解
数据说·思维季无论明日,有多落魄,至少今天,没有蹉跎.--卡耐基<人性的优点> 前言之前梳理了"数据思维"概念.培养锻炼以及应用的一些相关的内容,现在我们将开始梳理 ...
python数据分析的四阶段以及电商数据描述性分析和探索性分析
目录数据分析的四阶段 1 需求数据情况需求产出 2 数据规整(数据预处理,数据清洗,数据重构) 2.1 数据预处理 2.1.1 发现错误的对策 2.1.2 修正缺失值 2.2 修正错误数据方 ...
数据分析报告——经典统计量的描述性分析：平均数方差、偏度峰度
描述性分析一.数据报告二.变量说明表三.统计量描述位置的度量 1. 平均数 2. 中位数和分位数 3. 两者的对比 4. 最大值和最小值变异程度的度量 1. 方差和标准差 2. 极差和四分位 ...

数理统计与描述性分析

数理统计与描述性分析

一、样本

1.1 定义

1.2 样本均值和方差

1.3 有关证明

二、描述性统计

1.1 中位数、众数、分位数

1.2 方差、标准差、变异系数

1.3 偏度、峰度

数理统计与描述性分析相关推荐

最新文章

热门文章

数理统计与描述性分析

数理统计与描述性分析

一、 样本

1.1 定义

1.2 样本均值和方差

1.3 有关证明

二、 描述性统计

1.1 中位数、众数、分位数

1.2 方差、标准差、变异系数

1.3 偏度、峰度

数理统计与描述性分析相关推荐

最新文章

热门文章

一、样本

二、描述性统计