1.描述性统计基础概念

1.1 总体和样本

1.总体（母体）
所要研究事物的全体，我们所获得的数据称为参数（总体统计量）。

2.样本
是研究的总体中的一部分，我们所获得的数据成为统计量。

1.2 数据类型

1.2.1分类型数据

定性、质的数据。
1.分类
a.名义型
没有顺序的范围。
如：性别，血型，是否，对错，地区

b.顺序型
有相对排序的范围
如：喜好度，满意度

2.描述图表

a.频率分布表

b.柱状图

c.饼图

d.帕累托图
按频率从大到小排序

帕累托法则
全部结果的80%是从全部原因的20%中产生的现象。

例如：
微信聊天中的80%聊天记录是通讯录中的20%的联系人
经常穿的衣服中的80%只不过是挂在衣柜中衣服的20%

e.列联表
2 个范畴型变量

1.2.2 数值型数据

定量的数据。

1.分类
a.离散型
有限的整数
如：学生数

b.连续型
可以被划分成无限个数字
如：体重，身高，时间

2.描述图表
a.直方图
1）原始数据

2）确定组数，组宽度
比如，组数为6，那么组宽 = （282-8） /6 ≈ 46
3）频率分布表

4）excel绘制直方图
一般在Excel安装完成之后，为了提高Excel的运行速度，不常用的加载项，都会被禁止的。例如“分析工具库”

–通过数据分析–选择直方图

–选择输入区域（源数据）

–选择接收区域（划分好的区间）

–勾选图标输出

b.茎叶图

c.时间序列图

c.散点图
两个数值型变量

d.箱型图
分类型&数值型

1.3 集中趋势参数

1.平均值
算数平均：各数之和除以数据个数—对异常值敏感。
几何平均：各数据成绩开n次方

调和均值：各数字倒数之和的倒数

样本均值和总体均值
总体均值

样本均值

2.中位数
奇数：最中间的数字。
偶数：中间两个的平均数。

3.众数
出现次数最多的数字（可能有多个）。
注意：当每个数字出现的频率相同，那么就没有众数。

1.4 不对称测量参数

1.4.1 偏斜

描述数据是否集中于一侧。

1.平均数>中位数>众数（右侧尾巴长）：正倾或者右倾（数据大多在左侧，异常值在右侧）

2.平均数=中位数=众数：0偏斜或者无偏差—正态分布

3.平均数<中位数<众数（左侧尾巴长）：负倾或者左倾（数据大多在右侧，异常值在左侧）

1.5 离散统计量

1.方差
测量均值周围数据点的分散情况。
a.总体方差：

b.样本方差：

注意：
n-1是为了体现较高的可变性，向上调整样本方差。
简单的回答，是因为均值你已经用了n个数的平均来做估计在求方差时，只有(n-1)个数和均值信息是不相关的。

而你的第ｎ个数已经可以由前(n-1)个数和均值来唯一确定，实际上没有信息量。所以在计算方差时，只除以(n-1)。

2.标准差
各自方差开根。

3.变动系数
当需要比较两组数据离散程度大小的时候，如果两组数据的测量尺度相差太大，直接使用标准差来进行比较不合适，这时候就需要通过变动系数比较离散程度。

1.6 百分位数（位置统计量）

1.百分位数
a.定义
如果将一组数据从小到大排序，并计算相应的累计百分位，则某一百分位所对应数据的值就称为这一百分位的百分位数。可表示为：一组n个观测值按数值大小排列，处于p%位置的值称第p百分位数。

b.特性
百分位数提供了有关各数据项如何在最小值与最大值之间分布的信息。
第p百分位数是这样一个值，它使得至少有p%的数据项小于或等于这个值，且至少有(100-p)%的数据项大于或等于这个值。

2.四分位数
按照大小排序的数据四等分时。

四分位距（IQR）= 3分为数 - 1分位数 = Q3-Q1

例如：
1.数据总数为奇数
6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49
Q1_index = （n+1）*0.25 = (11+1) * 0.25 = 3
Q1 = 15

Q3_index = （n+1）*0.75 = (11+1) * 0.75 = 9
Q3 = 43

IQR=Q3-Q1 = 43 - 15 = 28

2.数据总数为偶数
7, 15, 36, 39, 40, 41

Q1_index = （n+1）0.25 = (6+1) * 0.25 = 1.75 (离第二个数字近)
Q1 = 70.75 + 15*0.25 = 13

Q3_index = （n+1）0.75 = (6+1) * 0.75 = 5.25
Q3 = 400.75 + 47*0.25 = 40.25

IQR=Q3-Q1 = 40.25 - 13 = 27.25

1.7 多个变量分析指标

1.协方差
a.协方差定义
在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。

b.有了方差，为什么还需要协方差
方差和标准差一般用来描述一个变量的数据，但是生活中可能还存在多个变量的数据，比如房价和房屋大小的关系。

方差计算公式：

那么协方差公式：

c.协方差结果的意义
例如房价和环境
1）当结果为正值时，说明二者是正相关的，也就是说，房子越大越好，房价越贵；
2）当结果为0时，说明二者是相互独立的；
3）当结果为负值时，则说明二者是负相关的。

d.性质

2. 推论统计

基于概率论和分布。

2.1 估计值

2.1.1 点估计

样本均值就是总体均值μ的一个点估计值
样本方差就是总体方差的一个点估计值

2.1.2 置信区间估计

如果说公司成员的平均身高为175cm，可能不太实际。
那么，如果说公司95%的成员身高在165~180之间，那么可信度比较高。
1.置信度
置信度又称显著性水平，意义阶段，信任系数等，是指估计总体参数落在某一区间时，可能犯错误的概率，用符号α （0≤α1≤1）表示。

比如：平均价格位于这一区间的置信度为95%，那么α为5%。

2.置信区间
总体均值所在的区间范围。

置信区间计算公式
a.总体标准差已知（精确度较大）

其中Zα/2为相关系数。

标准正态分布表（Z分布）
1.比如我们想看95%置信区间对应的值
95%置信区间对应的α是0.05，因此我们寻找α/2 （即0.025）所对应的Z值，那么我们需要找到1-0.025（0.975）对应的Z值关联值。

我们可以看到对应1.9和0.06，那么Z0.25 = 1.9+0.06=1.96

b.样本标准差已知(总体方差未知，精确度小)

t分布表
比如，我们同样找95%置信区间，样本包括9个观察值，那么自由度为8（n-1），因为α=0.05， α/2=0.025，查表可得到相关系数tn-1,α/2 = 2.306

2.2 相依样本置信区间

比如，实验室要测试一种药物对人体血液中镁元素浓度进行观察，那么服用前和服用后就是两个相依样本。

实例
原始观测数据

将两个变量变换为一个变量（After-Before）

置信区间=（0.01，0.65）

总结：

95%的情况下，服用药物前后差异的真实的平均数介于0.01~0.65之间
服用药物前后差异的真实的平均数都是正数，我们有95%确信受试者体内的镁浓度上升

结论：基于小样本，我们可以确定该药物可以提升人体镁浓度

2.3 独立样本置信区间

原始数据（两个科目的成绩）

注意事项：
a.总体呈正态分布
b.总体方差已知
c.样本容量不同

1.两个平均值之间的误差方差

2.置信区间（总体方差已知）
a.假设样本容量足够大，用Z分布

b.总体方差未知，但是假设相等
无偏估计值

置信区间

c.总体方差未知，但是假设相等

估计自由度

3.1 假设检验

检验步骤
1.提出一个假设
2.为假设确定一个正确的检验
3.进行检验
4.根据结果得出结论

3.1.1 什么是假设

根据事实提出的假定说明,必须经过检验证明才能得到结论。

例如：
假设数据科学家的工资是11.5万。
对应两个假设：
1.零假设： H0—数据科学家的工资是11.5万（在检验之前，认为假设是正确的。）
2.备择假设：H1/HA —数据科学家的工资不是11.5万

3.1.2 一类错误和二类错误

1.一类错误
一类错误指的是当你拒绝一个真零假设时–也称为假阳性
换句话说：H0假设实际上时正确的，但是我们做出的决定是拒绝H0假设（即：拒绝原假设）
犯错概率是显著性水平α。

2.二类错误
二类错误指的是当你接收一个真零假设时
犯错概率用β表示：β主要取决于样本容量和影响大小。

举例：比如光头强喜欢一个女生，假设女生喜欢光头强。

[学习笔记]数据与科学训练营之三：统计学相关推荐

[学习笔记]数据与科学训练营之五：机器学习
1.机器学习概述 1.1 分类监督学习(Supervised Learning) 无监督学习(Unspervised Learning) 强化学习(Reinforcement Learning) 1 ...
【Vue】学习笔记-数据交互
[Vue]学习笔记-数据交互概述安装axios 通过axios向后台获取数据数据交互的实现常见错误总结概述基于Vue的web项目显示的所有服务端数据,都是通过Ajax获取的.官方推荐使用A ...
Matlab学习笔记——数据文件定位
写在这里的初衷,一是备忘,二是希望得到高人指点,三是希望能遇到志同道合的朋友. 目录数据文件定位 1.fseek函数 2.ftell函数 3.feof函数数据文件定位 1.fseek函数用于改变 ...
数据挖掘学习笔记-数据预处理部分（一）
数据挖掘笔记-数据预处理部分(一) 数据预处理-年数据部分设置索引与标记异常值与缺失值处理股票行为标记归一化 onehot特征编码数据预处理-日数据部分导入数据与标记缺失数据处理数据简 ...
学习笔记 | 数据采集系统基本结构及参数
数据采集系统基本结构及参数引言数据采集系统结构框图 1.通讯接口 2.输入类型 1)接口类型 2)输入信号 3)其他 3.模拟电路 1)输入阻抗 2)单端与差分 3)抗混叠滤波 4)高通滤波 4. ...
python绘制三维地形_【学习笔记】Python科学计算三维可视化(黄天羽、嵩天)（学习中。。）|python基础教程|python入门|python教程...
0 导学目的:掌握利用三维效果表达科学和工程数据的能力传播一种思想:可视化技术是数据之眼内容组织: 流体数据的标量可视化.矢量可视化实例三维扫描数据(模型/地形)可视化实例三维地球场景可视化 ...
python三维数组可视化_【学习笔记】Python科学计算三维可视化(黄天羽、嵩天)（学习中。。）...
0 导学目的:掌握利用三维效果表达科学和工程数据的能力传播一种思想:可视化技术是数据之眼内容组织: 流体数据的标量可视化.矢量可视化实例三维扫描数据(模型/地形)可视化实例三维地球场景可视化 ...
Spark学习笔记:数据读取和保存
spark所支持的文件格式 1.文本文件在 Spark 中读写文本文件很容易. 当我们将一个文本文件读取为 RDD 时,输入的每一行都会成为 RDD 的一个元素. 也可以将多个完整的文本文件一次 ...
2016/1/4 学习笔记数据类型转换注释语句
⑤ 数据类型转换自动转换: 一般在算术运算过程中进行自动转换为数字类型比较大的类型由低级到高级转换 ...

[学习笔记]数据与科学训练营之三：统计学