数理统计与描述性分析

  • 一、 样本
    • 1.1 定义
    • 1.2 样本均值和方差
    • 1.3 有关证明
  • 二、 描述性统计
    • 1.1 中位数、众数、分位数
    • 1.2 方差、标准差、变异系数
    • 1.3 偏度、峰度

一、 样本

1.1 定义

定义:在数理统计中,称研究对象的全体为总体,通常用一个随机变量表示总体。组成总体的每个基本单元叫个体。从总体 XXX 中随机抽取一部分个体 X1,X2,...,XnX_1,X_2,...,X_nX1​,X2​,...,Xn​ ,称 X1,X2,...,XnX_1,X_2,...,X_nX1​,X2​,...,Xn​ 为取自 XXX 的容量为 nnn 的样本。

样本具有两重性,即当在一次具体地抽样后它是一组确定的数值。但在一般叙述中样本也是一组随机变量,因为抽样是随机的。一般地,用 X1,X2,...,XnX_1,X_2,...,X_nX1​,X2​,...,Xn​ , 表示随机样本,它们取到的值记为 x1,x2,...,xnx_1,x_2,...,x_nx1​,x2​,...,xn​ 称为样本观测值。

样本分布取决于总体的性质和样本的性质。

1.2 样本均值和方差

样本均值
设 X1,X2,...,XnX_1,X_2,...,X_nX1​,X2​,...,Xn​ 是总体 XXX 的一个简单随机样本,称 X‾=1n∑i=1nXi\overline X = \frac{1} {n} {\sum_{i=1}^{n}X_i} X=n1​i=1∑n​Xi​ 为样本均值。通常用样本均值来估计总体分布的均值和对有关总体分布均值的假设作检验。

样本方差
设 X1,X2,...,XnX_1,X_2,...,X_nX1​,X2​,...,Xn​ 是总体 XXX 的一个简单随机样本,X‾\overline XX 为样本均值,称 S2=1n−1∑i=1n(Xi−X‾)2S^2 = \frac{1} {n-1} {\sum_{i=1}^{n}(X_i-\overline X)^2} S2=n−11​i=1∑n​(Xi​−X)2 为样本方差。通常用样本方差来估计总体分布的方差和对有关总体分布均值或方差的假设作检验。

1.3 有关证明

设 x1,x2,...,xnx_1,x_2,...,x_nx1​,x2​,...,xn​,为总体的一个样本,且其样本均值为X‾\overline{X}X,样本方差为S2S^{2}S2,总体方差为σ²σ²σ²,总体期望为μμμ。

证明1:样本期望等于总体期望。
对于简单随机抽样的样本:x1,x2,...,xnx_1,x_2,...,x_nx1​,x2​,...,xn​与总体X是同分布的,所以各样本的期望均为总体期望。
E(X‾)=E(1n∑i=1nxi)=1n∑i=1nE(xi)=1n∗n∗E(X)=μE(\overline{X})=E(\frac{1} {n}{\sum_{i=1}^{n}x_i})=\frac{1} {n}{\sum_{i=1}^{n}E(x_i})=\frac{1}{n}*n*E(X)=μE(X)=E(n1​i=1∑n​xi​)=n1​i=1∑n​E(xi​)=n1​∗n∗E(X)=μ

证明2:样本均值的方差等于σ2n\frac{ \sigma^2}{ n}nσ2​。
D(X‾)=D(1n∑i=1nxi)=1n2∑i=1nD(xi)=σ²nD(\overline{X})=D(\frac{1} {n}{\sum_{i=1}^{n}x_i})=\frac{1} {n^2}{\sum_{i=1}^{n}D(x_i})=\frac{σ²}{n}D(X)=D(n1​i=1∑n​xi​)=n21​i=1∑n​D(xi​)=nσ²​

证明3:样本方差的期望等于总体的方差$。


             
             
方差公式:


因此:


由此得到:

二、 描述性统计

1.1 中位数、众数、分位数

Python实现:

import numpy as np
import pandas as pd
a=[np.random.randint(1,10) for i in range(0,20)]
a_mean = np.mean(a)  #均值
a_med = np.median(a)  #中位数
print("a的平均数:",a_mean)
print("a的中位数:",a_med)
ser = pd.Series(a)
a_m2 = ser.mode()
print("a的众数:",a_m2)
a_quan=ser.quantile(0.75)   #四分之三分位数
print(a_quan)

1.2 方差、标准差、变异系数

变异系数:
CV=100∗sX‾CV=100*\frac{s} {\overline{X}}CV=100∗Xs​s:标准差s:标准差s:标准差X‾:平均值\overline{X}:平均值X:平均值
优点:可以消除测量尺度和量纲的影响。
缺点:当均值接近于0时,微小的变化也会对变异系数造成巨大的影响;另外,它无法发展出类似于均值的置信区间的工具。

Python实现:

import numpy as np
a=[np.random.randint(1,10) for i in range(0,20)]
a_var = np.var(a)  #方差
a_std = np.std(a) #标准差
a_mean = np.mean(a)  #均值
a_cv =  a_std /a_mean #变异系数
print("a的方差:",a_var)
print("a的标准差:",a_std)
print("a的变异系数:",a_cv)

1.3 偏度、峰度

偏度(peakedness;kurtosis)也称为偏态,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。直观看来就是密度函数曲线尾部的相对长度。偏度刻画的是分布函数(数据)的对称性。关于均值对称的数据其偏度系数为0,右侧更分散的数据偏度系数为正,左侧更分散的数据偏度系数为负。

正态分布的偏度为0,峰度为3。

左偏:
若以bs表示偏度。bs<0称分布具有负偏离,也称左偏态;
此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于与右边的尾部要长;
因为有少数变量值很小,使曲线左侧尾部拖得很长;

右偏:

bs>0称分布具有正偏离,也称右偏态;
此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于与左边的尾部要长;
因为有少数变量值很大,使曲线右侧尾部拖得很长;

峰度(peakedness;kurtosis)说明的是分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。样本的峰度是和正态分布相比较而言统计量,如果峰度大于三,峰的形状比较尖,比正态分布峰要陡峭。反之亦然。峰度刻画的是分布函数的集中和分散程度。
注:由于计算方法的不同,pandas中正态分布的峰度为0。

Python实现:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
data = list(np.random.randn(10000))
#生成标准正态分布的随机数(10000个)
plt.hist(data,1000,facecolor='g',alpha=0.5)
'''
plt.hist(arr, bins=10, facecolor, edgecolor,alpha,histtype='bar')
bins:直方图的柱数,可选项,默认为10
alpha: 透明度
'''
plt.show()
s = pd.Series(data) #将数组转化为序列
print('偏度系数',s.skew())
print('峰度系数',s.kurt())

数理统计与描述性分析相关推荐

  1. 《数学建模:基于R》——1.1 数据的描述性分析

    1.1 数据的描述性分析 在建立随机模型之前,首先要分析数据的主要特征,也就是数据的数字特征.这些特征通常是均值.方差,或者是数据服从什么分布.只有在确定了这些特征之后,才能建立起符合实际的模型. 本 ...

  2. python 描述性分析_描述性分析-1对被解释变量进行描述

    描述性分析-1对被解释变量进行描述描述性分析-1对被解释变量进行描述 如果应用需要使用数据库,必须配置数据库连接信息,数据库的配置文件有多种定义方式. 配置文件 在全局或者应用配置目录(不清楚配置目录 ...

  3. 莱鸟学spss数据分析之第六章---描述性分析

    第6章 描述性分析 数据的分布特征主要有三个:数据分布的集中趋势.数据分布的离散趋势.数据频数的分布形态. 6.1.1 集中趋势 集中趋势的目的是找到最能代表整个数据的数值. 1.适用类型 ● 若为定 ...

  4. 招聘网探究分析报告(以描述性分析为主)

    招聘网探究分析报告(以描述性分析为主) 1 引 言 记得在我中学时,就听到过"大学生一毕业就失业"的言论.网上资料显示是大学扩招,书本理论知识与岗位真实需求脱节严重,善于纸上谈兵而 ...

  5. 【沃顿商学院学习笔记】商业分析——Customer Analytics:01 描述性分析 Descriptive Analytics

    商业进阶--描述性分析 本章主要是从描述性分析的三个层面来进行学习,主要包含探索性研究 Exploratory Research.描述性研究Descriptive Research和因果性研究Caus ...

  6. SAS常用基础代码例子-数据描述性分析

    SAS常用基础代码例子-数据描述性分析 1. 计算均值.方差.标准差.变异系数.偏度.峰值: 2. 计算中位数.上下四分位数.四分位极差.三均值: 3. 作出直方图,茎叶图: 4. 进行正态性W检验. ...

  7. 【转】第5章 数据的描述性分析

    文章来源于:炼数成金:摘自<数据分析:R语言实战> 第5章 数据的描述性分析 通过前面两章的学习,我们知道,数据收集是取得统计数据的过程,数据预处理是将数据中的问题清理干净,那么接下来的步 ...

  8. 【原创】描述性分析思维的一些基本思路与见解

    数据说·思维季 无论明日,有多落魄,至少今天,没有蹉跎.--卡耐基<人性的优点> 前言 之前梳理了"数据思维"概念.培养锻炼以及应用的一些相关的内容,现在我们将开始梳理 ...

  9. python数据分析的四阶段以及电商数据描述性分析和探索性分析

    目录 数据分析的四阶段 1 需求 数据情况 需求 产出 2 数据规整(数据预处理,数据清洗,数据重构) 2.1 数据预处理 2.1.1 发现错误的对策 2.1.2 修正缺失值 2.2 修正错误数据 方 ...

  10. 数据分析报告——经典统计量的描述性分析:平均数方差、偏度峰度

    描述性分析 一.数据报告 二.变量说明表 三.统计量描述 位置的度量 1. 平均数 2. 中位数和分位数 3. 两者的对比 4. 最大值和最小值 变异程度的度量 1. 方差和标准差 2. 极差和四分位 ...

最新文章

  1. Go 学习笔记(53)— Go 标准库之 path(判断绝对路径、拆分目录和文件、组合路径、返回路径目录、获取路径最后文件名、获取文件扩展名、路径匹配规则)
  2. 什么才是软件开发的葵花宝典?
  3. 学会理解并编辑/etc/fstab
  4. 【数理知识】第8章-图-《离散数学及其应用》Kenneth H. Rosen
  5. springboot java.util.NoSuchElementException: No value present 异常处理
  6. 3.1.10 OS之基本分段存储管理(段表、地址变换、信息共享)
  7. 智能工作:人工智能将如何重塑远程工作
  8. 手动创建两个文本文件text1.txt和text2.txt,按要求创建text3.txt
  9. java 货架高度摆放最优算法_商铺内部空间摆放竟暗藏玄机
  10. python中side什么意思_python – 在PySide中区分信号源
  11. 手册-网站-仙客传奇团队博客
  12. php操作mysql数据库的基本类
  13. New Concept English Two 5
  14. asp.net在前台web页面中使用Javascript调用RTX腾讯通的聊天窗口
  15. vba随机抽取人名不重复_excel如何实现随机抽取且不重复
  16. win10中的depends walker不兼容问题
  17. 形式语言与自动机第二课
  18. win10系统 双击bat文件无法运行,只是以普通txt文件打开该文件,简单解决
  19. 波浪线html,js中的波浪线符号作用(按位非(~)符号)
  20. 银行计算机岗位职称,银行职称有哪些,等级是如何划分的

热门文章

  1. JS禁止右键、CTRL+C、查看源文件
  2. init: wait for '/dev/block/bootdevice/by-name/cache' timed out and took 5007ms【学习笔记】
  3. 连接计算机硬盘usb,使用移动硬盘时电脑显示:“如果您将此USB设备连接到高速USB2.0端口,可以提升其性能”...
  4. Java中对象方法的调用过程动态绑定(Dynamic Binding)
  5. 搜狗新闻语料库 python正则表达式 新闻内容提取
  6. 用Python模拟同步时钟
  7. Word恢复忘记保存的文件(打开任意.asd文件)
  8. 为BIG网站建立历史记录页面
  9. AutoCAD快速入门(二十九):视口
  10. python人民币转大写_Python人民币大写转换代码