2022-07-12 读书笔记:《写给所有人的极简统计学》
2022-07-12 读书笔记:《写给所有人的极简统计学》
该系列文章系个人读书笔记及总结性内容,任何组织和个人不得转载进行商业活动!
本书作者:永野裕之
一直想学习一下数理统计的基础内容,查了下有人推荐了这本书,希望仔细阅读后能有所收获;
目录
- 第1章 数据整理的基础知识
- 第2章 数据分析的基础知识
- 第3章 用于研究关联性的数学
- 第4章 分析离散数据的数学
- 第5章 分析连续数据的数学
序言
能够理解并表达出通过统计学运算得出的结论,是一项有用的能力;理解和学习统计学需要一定的数据基础知识;统计数学是必须掌握的数学能力;
本书涵盖了学习统计学所需的初中阶基础数学知识,主要目标是为了读者理解,练习题也有必要做做;本书还介绍了这些数学知识在统计学中的应用范围与具体方法;
总结来说,通过阅读本书,可以学习到 对收集的数据加以分析的统计方法,以及 从部分数据中推算出整体情况的推测统计的入门知识;
- 平均值
- 中位数:数据从小到大排列,等分数据数量处的数据值;
- 方差
- 标准差
- 协方差:第一组数据的偏差(指各数值与平均值的差)与第二组数据偏差的乘积的平均数;
- 相关系数
- 柱状图
- 箱型图
第1章 数据整理的基础知识
1
统计就是将收集到的数据(数值)进行整理并加以分析的学问;
平均、比例、图表:
- 平均数的意义;
- 比例 除法 概率间的联系;
- 合理选用图表有助于理解;
这三者都是 日常整理数据所需的基础工具;
平均数:
- 平均数
*
个数=
总数 - 平均数
=
总数/
个数
在统计学中,作为显示数据特征的数值,除了平均数,还会使用中位数与众数;
除法的意义:
- 将一个整体平分:将a分成n等份,则每份有p个【等分除:距离 除以 时间 等于 速度】
- 将整体平均分成数个等份:将a按照每份有n个等分,则可以分成p份【包含除:距离 除以 速度 等于 时间】
比例:
- 比例
=
比较量/
基准量 - 相同单位的比例为包含除;
- 不同单位的比例为等分除,一般的,等分除概念中的比例表示的是
单位量
; - 明确 比较量 和 基准量 是 计算比例的重要基础;
2
图表:
- 选择介绍最具代表性的4种图表:柱状图、折线图、饼图与带状图;
- 柱状图:表示大小;
- 折线图:表示变化;
- 饼图:表示比例;
- 带状图:比较比例;
柱状图:
- 是一种用于比较数量大小的图表;
- 展示91
~
08年强风次数,按月统计绘制图表,可以看出7~
10月为强风多发期;
折线图:
- 是一种表示数据变化与推移的图表;
- 纵轴数据间隔区间的选择,会改变读者对数据变化程度的印象;(柱状图也有类似的地方)
- 如果变化量相同,拉长横轴数值的间隔,会使变化看起来更平稳;
饼图:
- 适用于表示在一个整体中每个项目各占多少比例;
- 一般从时钟的12点位置开始,按照比例从大到小顺序将各个项目进行排序(也可以按照其他条件排序);
带状图:
- 通常用于根据年份等条件,比较同一项目的占比变化情况;
- 横轴是比例0~100%,纵轴是各个年份;图表展示的是每个年份项目中不同元素所占的数据比例,如不同年龄段的人口占比(和为100%);
- 值得注意的是:带状图中占比的增加(减少)并不代表绝对数值增加(减少);如果整体数值不同,则无法从占比的增减来判断绝对数值的增减;
3
目前的数学知识 与 接下来学习的统计学知识间的联系:
- 除法的两个意义
->
比例->
频数分布表
- 各种图形
->
矩形图
、箱型图
- 平均值
->
代表值
->
箱型图
统计学基础概念:
- 数据与变量:多个数据,单个的即为变量;
- 数据分为:
- 实质型数据:也被称为分类数据,无法用数字来衡量的变量(实质变量)所组成的数据;
- 量化数据:当一些变量做加减运算有意义时,由这些变量组成的数据被称作量化数据;量化数据还可以细分为:
离散型数据
和连续型数据
;
- 量化数据分为:
- 离散型数据:指两个相邻的项之间没有可取值的数据,如骰子的点数、汽车的数量;
- 连续型数据:指两个相邻的项之间,不管怎么细分,永远都有更多可取数值的数据;
整理数据的基本步骤:
- 整理频数分布表
- 制作矩形图
频率分布表:
- 术语解释:
- 组:将数据以相同间隔分开的区间;
- 组中值:各组上下限中间的数值;如上限是20,下限是10,那么组中值就是15;
- 频数:各组中包含数值的数量;
- 相对频数:各组数据频数在总频数中的占比;
- 累计相对频数:逐级相对频数相加的和;
- 频率分布表就是将每组中的 频数、相对频数、累计相对频数 做成一张表;
操作实例:
- 分数数据从小到大排序;
- 每5、10或20分一组;需要注意,每组的数值范围太小的话,表格会变得过于复杂;反之数值范围过大则无法清楚滴看出数据的倾向特征;一般将组数控制在5~20之间,10分组也很常用;
组 | 组中值 | 频数 | 相对频数 | 累计相对频数 |
---|---|---|---|---|
0~50 | 25 | 1 | 0.25 | 0.25 |
50~100 | 75 | 4 | 0.75 | 1.0 |
注意:
- 频数分布表 无法提现数据中每个项目的具体数值;因为只展示了组中值,相当于该组数由组中值代表;
- 相对频数
=
该组的频数/
频数的总数 - 如果想知道 在这组数据以上(或以下)的数,在数据总体中所占的百分比为多少,就需要看累计频数;
矩形图:
- 矩形图是将频数分布表的组用横轴表示;
- 将频数用纵轴表示所绘制的柱状图;
- 还可以增加使用折线图,在同一张图中标记出不同组的累计相对频数变化;
代表值:
- 相对矩形图,代表值是一种更简洁的表示数据倾向特征的方法;
- 平均数、中位数、众数 都可以作为代表值;
中位数:
- 将数据大小排列时,位于最中间的数值(奇个数就是最中间值,偶个数就是中间两个数的均值);
在数据中存在偏离值(明显偏大或偏小的值)的情况,平均数会受影响而变得偏大或偏小;这种情况,使用中位数作为代表值更合适;
众数:
- 一组数据中出现次数最多的数值;
- 众数是出现次数最多,即频数最高的数据的
值
,注意是数据值,不是频数;
量化数据中,一般不会统计某个具体的数的频数,一般的,会在确定组间隔后,取频数最高的组数的频数;
众数在概率分布中具有更重要的意义;在正太分布中:
中位数=众数=平均数
;
数据的离散性:
- 要知道数据的离散性,常用的有
- 方差、标准差;
- 最大值、最小值、范围:最大值与最小值的差值;
- 四分位数:
- 将数据从小到大排列并分成4等份,处于三个分割点上的数,分别称为第一四分位数、第二四分位数、第三四分位数;
- 第二四分位数 = 中位数
四分位数的求法:
- 找出数据的中位数
- 求出中位数前半部分的中位数
- 求出中位数后半部分的中位数
研究数据整体的离散性时,最小值、3个四分位数、最大值 被称为5大要数
;
5大要数间隔范围 越大 说明 这部分的数据越离散;
箱型图:
- 将5大要数列出来 可以绘制出箱型图;
- 被5大要数切分成的各区间,包含了整个数据值的约
25%
; - 若每个区间长度均等,则意味着数据整体离散性是均匀的;否则说明离散程度有所偏离;
- 图形类似:
|——口口——|
- 图形中可以使用
+
号标记出平均分;
对比矩形图,矩形图中显示频数高的部分,在箱型图中的长度比较短;
第2章 数据分析的基础知识
第1章我们学习了 整理数据的基本方法;本章主要目的是掌握“标准差”,即数据相对于平均值的离散程度;
1
平方根:
- 如果一个数的平方等于a,这个数叫做a的平方根;
- 平方根有正负两个;
- 对于平方根为整数的数字,称为平方数(也叫完全平方数);
- 除去平方数,其他数的平方根无法用有限小数及分数表示;
数学归纳法:《写给全人类的数学魔法书》
根号:
- 使用
√
表示平方根; √a * √b = √(a * b)
多项式运算:(因式分解)
(x + a)(x + b) = x^2 + (a+b)x + ab
(x + a)^2 = x^2 + 2ax +a^2
罗友书社:vx dedao555
上述数学知识在统计学中的应用:
- 即作为 方差 标准差 偏差值的数学基础;
我们已经知道:四分位数与箱型图都是以中位数为基准来表示数据离散程度的;本章将要学习的方差、标准差等 是以平均数为基准来表示数据的离散程度;
2
方差:
- 以一组学生分数为例;
- 考虑平均数的另一种求法:
平均数 = 基准值 + 与基准值差的平均数
- 分数
-
平均分 的结果中 有正有负,相加之后会相互抵消,无法得出数据与平均数之间的差距; - 为了使负数也能显现出差距,将
分数 - 平均分
的值平方之后,再取平均值,即方差
;
方差求法:
- 求出均值
- 计算 各数值
-
平均值 的值 - 计算(各数值
-
平均值)的平方 的平均值;
标准差:
- 方差的数值有时候会过大,而且单位会变成原来的平方;
- 方差开根号后的值叫做
标准差
; - 标准差较小时,表示数据大多集中在平均值附近;
利用方差的计算公式可以推到出 方差的简单计算公式:
方差 = 平方的平均数 - 平均数的平方
注意:在
多峰性分布
的数据中,难以考证方差与标准差,因为,在这种数据中,会有很多数值与平均值相差较大,以平均数为基准的数值难以确切表明数据与平均值的关系;
偏差:
- 一般以50为标准,将分数与均分的差距和标准差相比后扩大10倍;
- 计算公式:
偏差 = 50 + (指定的值 - 平均值)/ 标准差 * 10
偏差的优点在于,可以比较和测量标准不同的数据;
比如100分的同学的偏差值如果很大,说明他们的确很优秀,比大多数人都要好;如果100分同学的偏差很小,则说明 他们并没有和大多数同学拉开差距;可以用偏差衡量与平均数的差距;
一般的全域成绩和高斯分布(正太分布)很接近,在高斯分布中,所有数据中有68.26%的数据标准偏差 小于1
,在-1 ~ +1
之间;
---- -- -- |68.26 | -- --- ----- | 95.44 | ---
-- --
-------------------------------
0 10 20 30 40 50 60 70 80 90 100
70%就是我们所说的普通人,都在标准偏差
-1 ~ +1
的范围内;
第3章 用于研究关联性的数学
本章会学习一些基础的统计方法:点位图 与 关联性,以研究数据的关联性;
中心内容就是“函数”,对原因与结果的关系的理解和对函数的理解其实是存在关联的;
1
函数:
- y作为x的函数成立的条件
- 对应x的y值有且仅有一个;
- x(在一定范围内)可以取任意值;
统计学上,有
y是x的函数 + 误差
,即y虽然不是x的函数,但可以通过x的值预测y的值,这种情况下使用的分析方法叫做回归分析;
回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法;
一次函数:
y = ax + b
- 图形为直线,a为斜率,b为y轴截距;
以下内容将主要围绕统计学概念:
相关系数r值的范围在-1~1之间
的理解,而进行数学知识的学习;
二次函数
y=ax^2 + bx +c
,抛物线- a为正数,向上开口,a为负数,向下开口;
二次函数的平移:
y = ax^2
,x方向+p
,y方向+q
;- 新的点为
X = x+p
,Y = y+q
,将x、y带回二次函数得 Y = a(X - p)^2 + q
,即移动后图形的式子;- 原来的抛物线定点为
(0,0)
,平移后变为(p,q)
;
配方法基础
x^2 + 2kx = (x + k)^2 - k^2
配方法:
y = ax^2 + bx +c = a[(x + b/2a)^2 - b^2/4a^2] + c
- 去掉中括号得
y = a(x + b/2a)^2 - (b^2 - 4ac)/4a
- 从这个式子可以得到
y = ax^2 + bx +c
的图像顶点为 (-b/2a, - (b^2 - 4ac)/4a)
二次函数图像画法:
- 先找顶点
- x为0时的y轴截距
- 按照抛物线形状链接顶点和 截距点
- 左右对称绘制另一半
二次方程求解:
ax^2 + bx + c = 0
- 因式分解
- 公式求解:
a(x + b/2a)^2 - (b^2 - 4ac)/4a = 0
x = (-b ± √(b^2 - 4ac))/2a
当a大于0时,
b^2 - 4ac < 0
是图像与x轴没有交点的条件(x无实数解),此时无论x取和值,y均大于0;
- 如果
b^2 - 4ac > 0
,有两个实数解;- 如果
b^2 - 4ac = 0
,有一个实数解;- 如果
b^2 - 4ac < 0
,有零个实数解;
后续会用到这个与x轴不想交的条件,证明相关系数r的范围在-1~1之间
;
二次不等式:
x^2 <= 1 的解为 -1 <= x <= 1
2 在统计学中的应用
现实中,很少有两个变量之间的关系像前面学习的函数一样严密,但很多事务间存在一方增加另一方也增加的大致关联,接下来看,如何将这种关系的强弱以数学的方式加以表示和研究;
我们已经学习的 矩形图 与 箱型图 适用于针对单个变量数据加以整理,并表示其倾向特征的图像;
使用点位图
(又称 散布图)可以抓住两个变量之间的倾向特征
点位图:
- 使用两个变量的值作为坐标值,画在坐标轴上;
如果点位图上点位集中在呈上升趋势的一个狭窄区域内(有点像斜率为正的一次函数),在统计学上被称作两个变量之间呈强正相关
,类似的有:
- 强正相关(呈上升趋势的一个狭窄区域)
- 弱正相关(呈上升趋势的一个椭圆区域)
- 不相关(无法呈现趋势的一个圆形区域)
- 弱负相关(呈下降趋势的一个椭圆区域)
- 强负相关(呈下降趋势的一个狭窄区域)
相关关系注意点:
- 研究得到的相关关系无法作为两个变量之间的一般关系来处理,即倾向特征非一般特征;(存在偶然性)
- 两个变量之间的相关关系 不能视为 两个变量之间的因果关系;
对从所有数据的一部分样本中得到的结果,其是否可以代表所有数据特征的方法被称为
推测统计
;
相关系数
:
- 是统计学中专门表示相关关系的正负和强弱的数值;
- 求相关系数,需要用到 x的标准差,y的标准差,以及协方差;
协方差公式:x与y的协方差写作C:
C = (∑(x - x.mean())*(y - y.mean()))/n
相关系数 r = C / (Sx * Sy)
,其中C为协方差,Sx、Sy分别为x,y的方差;
之前提到的 相关系数r的范围是
-1 ~ 1
,指的就是这个相关系数;
r值判断相关关系:
r值min | r值max | 以x、y均值划分4象限 | |
---|---|---|---|
强负相关 | -1.0 | -0.7 | 2、4象限分布多 |
中负相关 | -0.7 | -0.4 | 2、4象限分布多 |
弱负相关 | -0.4 | -0.2 | 2、4象限分布多 |
无相关 | -0.2 | 0.2 | 1、2、3、4象限普遍分布 |
弱正相关 | 0.2 | 0.4 | 1、3象限分布多 |
中正相关 | 0.4 | 0.7 | 1、3象限分布多 |
强正相关 | 0.7 | 1.0 | 1、3象限分布多 |
相关系数的理论背景:
- 要证明 r 在
-1~1
之间 - 等价于
r^2 <= 1
- 等价于
∑XiYi <= √(∑(Xi^2)) * √(∑(Yi^2))
,这里Xi = xi - x.mean()
;
证明过程很有意思,但实际上最后要证明的不等式,我们在初高中阶段其实都证明过,不禁觉得自己曾经也很厉害;
X1 / Y1 = Xi / Yi
时,r = 1
或 -1
,此时点位图上的点全部都在通过均值点的直线上;
第4章 分析离散数据的数学
两个重点:概率 和 ∑
符;
统计学大致就是从诸多偶然中提炼规律,推测总体情况的一门学问,推测过程中,概率必不可少;
数学知识:排列组合、阶乘、集合、二项式分布、二项式系数、二项式定理、重复实验;
最终目标是理解:二项分布、和的方差、随机变数的标准差;
1 阶乘
4! = 4 * 3 * 2 * 1
排列:考虑顺序
的运算;组合:不考虑顺序
的运算;
从5个人中 选出3个担当不同的职务?
- 排列方式:
A53 = 5*4*3 = 5!/ 2! = 5! / (5-3)!
排列:
- 从不同的n个单位中选出r个的排列的一般式
Anr = n * ... * (n - r + 1) = n! / (n-r)!
0! = 1
组合:
Cnr = Anr / r!
,除以r!
就是在去除r的排列;- 且,
Cnr = Cn(n-r)
,C53= C52;
ABC的排列有6种 但组合只有一种;
A53 = 5! / (5-3)!C53 = 5! / ((5-3)! * 3!)从5个顶点中选择3个顶点的情况 = 从5个顶点中选择(或是不选择)余下两个顶点的情况;C100 98 = C100 2 = 100 * 99 / 2 = 4950特别的:Cn0 = Cnn = 1
即,从n个单位中选出n个的组合只有一种情况;
2 二项系数
(a + b)^3 = a^3 + 3a^2b + 3ab^2 + b^3
=
(a + b)(a + b)(a + b)
- 相应的
a*a*b
的组合方式 就有1种,排列方式 则有3种,因此得到的对应项是3a^2b
; - 相当于 从3个字符中,选出一个b的情况;
基于此,考虑(a + b)^10
中a^7b^3
项的系数是多少?
- 即,从10个数中选择3个b的情况,
C10 3
结果为120;
二项系数
:
(a + b)^n
中a^(n-k)b^k
项的系数为Cnk
(从n个不同单位中选出k个时的组合数);- 使用二项系数,就可以展开
(a + b)^n
了;
试着求一下
(x - 2y)^8
的展开式中 x3y5的系数吧,使用二项系数是不是很简单!
3 集合 、概率
即,集中在一定范围内的数据,集合中每一个单位被称为“集合的要素”;
注意:范围一定要清晰!
表示集合的方法:
A = {1,2,3,4,6,8,12,24}
A = {x|x为24的正约数}
概率:
- 掷骰子出现偶数的概率
3/6
; - 每掷一次的行为叫做一次
试验
;- 可以反复进行,并且结果具有偶然性的行为;
- 骰子可能出现的所有数字叫
样本空间
;- 某个试验可能得到的所有结果的集合;
- 出现偶数被称为
现象
(也叫事件);- 样本空间的一部分(子集);
概率P(E) = m/n
- m为 事件E中包含的要素数(可能发生的情况数);
- n为 样本空间U中包含的要素数(可能发生的所有情况数);
0 <= m <= n, 0 <= P(E) <= 1;
研究概率问题有一个非常重要的前提:样本空间中每一个要素的发生概率相同;
示例:从装有4个黑球与2个白球的袋子里取两个球,那么这两个球都是黑色的概率?
- 黑球中取俩取法: C42
- 所有中取俩取法: C62
C42/C62
=6/15
小知识:质数,也叫素数,是指“除了自身与1以外,没有约数且大于2的整数”;
如果一个试验中有A与B两个事件,“A与B至少有一个事件发生”的事件被称为A与B的和事件
;“A与B同时发生”的事件被称为积事件
;
二者关系:P(A或B) = P(A) + P(B) - P(A且B)
在A与B之间,其中一方发生时,另一方不可能发生的情况,则A与B相互排斥
,此时P(A且B) = 0
;
示例:袋中装有5个黑球和3个白球,从中取3个球,取出球中同时有黑球和白球的概率?
- 样本空间 C83 = 56
- 被白球同时取出 包含两个事件:
- 取出2黑1白:C52 * C31 = 30
- 取出2白1黑:C51 * C32 = 15
- 而这两个事件不可能同时发生,为互斥事件,因此概率为 (30 + 15)/56;
独立试验
:有/无放回的抽签
- 对于两个试验,一个试验的结果与另一个试验的结果没有关系时,我们就说二者是相互独立试验;
- 独立试验积事件的概率:
P(A且B) = P(A) * P(B)
;
重复试验
:
- 每次独立试验结果对其他结果无影响,反复进行的独立试验,被称为重复试验;
- 在某项重复试验中,事件A发生的概率为P(A),此试验反复n次,事件A发生k次的概率为:
Cnk * P(A)^k * (1-p)^(n-k)
;
示例:连续投掷骰子4次,数字1出现两次的概率?
- 四次中两次1,即C42 = 6种;
- 每种的概率为:
1/6 * 1/6 * 5/6 * 5/6
- 这6中是相互排斥的,因此要求的概率就是 6个概率值的和;
示例:5道4选1的单选题,完全猜,答对一半以上的概率是?
- 答对 5、4、3 三种情况
- 试着自己计算下吧,结果为 106/1024;
4 ∑ 符号、数列
∑ 符号
表示“零散数据的和”(注∑ 读作“西格玛”)- 数列 = “零散数据的排列”
等差数列
- 等差数列一般项:
An = A1 + (n-1)d
, A1为首项, d为公差; - 等差数列和:
Sn = n(A1 + An) / 2
,(初项+末项)* 项数 / 2
:
等比数列
- 等比数列一般项:
An = A1 * r^(n-1)
, A1为首项, r为公比; - 等比数列和:
Sn = n * a1 (r = 1时)
Sn = a1(1 - r^n) / (1 - r) (r != 1时)
大学生最容易忘记的3个公式:点与直线的距离公式、等比数列前n项和、二项式定理;
∑ 符号
的基本性质:
- 分配率:在计算随机变数的平均数与方差时会被频繁运用到;
为了现实中的各种事情可计算,就必须将其数值化,且作为变数来处理;而这种将变数与概率结合的方法就叫做“随机变数”
5 随机变数与概率分布
投掷骰子1次,若出现的数字以X表示,则X是取1~6的整数的“变数”,而X取各个值的概率是一定的;像这样变数X取特定值的概率一定时,X被称作随机变数
;
- X是变数
- X可以取值的范围 一定
- X取特定值的概率 一定
统计学是一门可以把被关注的现象用概率函数加以表现,并进行推算和预测的学问;
随机变数X的值与概率P的关系,被称为概率分布
;即,将随机变数 可以取的值与其概率一一对应起来表示的方法被称为概率分布
对于只取“间隔较大”值的随机变数 被称为离散型随机变量概率分布
;
注意:所有X概率的和为1;
随机变数也有平均值,被称作期待值 E(x)
;
- 一般的x的概率分布表为: x1 p1、 x2 p2 、… xn pn;
- 则随机变数x的平均值(或期待值)
E(x) = ∑i=1,n xi*pi = x1p1 + x2px ... + xnpn
;
随机变数是关于某个事件以一定概率而发生的变数,所以值并非确定;
示例:抽奖袋中有10个红球、20个篮球、30个黄球,抽出红球得600,抽出篮球得300,抽出黄球无奖励,那么,可获得奖金的期待值是多少?
- 使用随机变数求解
- 抽出红球概率
1/6
、篮球2/6
、黄球3/6
; - 设所得奖金的随机变数为X,则X的分布为
X | 0 | 300 | 600 |
---|---|---|---|
概率 | 1/6 | 2/6 | 3/6 |
E(X) = 0 * 3/6 + 300 * 2/6 + 600 * 1/6 = 200
aX + b的平均数:
- 定义随机变数X 的一次函数Y,如何计算Y的平均值;
E(Y) = aE(X) + b
随机变数的方差和标准差:
- 方差variance
V(X) = ∑i=1,n (xi - mean(x))^2 * pi
- 标准差standart
s(X) = √V(X)
- 随机变数方差计算公式:
V(X) = E(X^2) - E(X)^2
, 即平方均值减去均值的平方;
随机变量的方差和标准差表示“随机变量可取值的离散程度”;
对于Y= aX+b:
- V(Y) = a^2 * V(X)
- s(Y) = a * s(X)
随机变数的标准化:
Z = (X - E(X)) / s(X)
(是不是很熟悉! 这不就是减均值 除标准差嘛)- 为什么是这个式子呢
- 计算Z的均值 是0
- 计算Z的标准差 是1
- 那为什么要进行标准化呢
- 只要研究清楚均值0标准差1的随机变数性质,就可以广泛应用;
和的平均值:
- 对于 随机变数X和Y,定义Z= X+Y;
- E(Z) = E(X) + E(Y)
积的平均值:
- Z= X* Y
E(Z)= E(X) * E(Y)
,成立的条件是 X与Y相互独立
和的方差:
V(X + Y) = V(X) + V(Y)
,随机变数相互独立时;
6 二项分布
二项分布:一种离散型数据分布;
一般来说,成功概率为p的试验,独立重复n次后的成功次数为X的概率分布,被称为关于发生概率p、次数为n的二项分布(哪二项,即 p和 1-p),写作B(n, p)
;
X= k(k=0、1、2…n)的概率:(注意k是从0开始的)
- n次重复中k次成功,n-k次失败:
- 成功概率为 p
- 失败概率为 1-p
- 概率为:
Cnk * p^k * (1-p)^(n-k)
对于结果为 成功/失败 胜负 正反等,结果二选一的试验,被称为伯努利试验,在伯努利试验中,已知其中一个结果发生的概率时,此试验重复n次时,其事件的发生次数遵循二项分布;
遵循二项分布的随机变数X的平均值与方差:
E(X) = np
V(X) = np(1-p)
s(X) = √(np(1-p))
最后学习的二项分布,将n放大到无限,就和连续型数据分布中 最重要的正太分布 联系上了;
第5章 分析连续数据的数学
ε
读作 伊普西龙;δ
读作 德尔塔;
极限lim:
- 若x无限放大,则函数f(x)无限接近于定数p,这种情况下,p被称作f(x)的极限值;
欧拉常数e(自然对数的底):
- 考虑数列
bn = (1 + 1/n)^n
- 当
n->∞
时,数列越趋近于一个特定的值(2.718…),一般的这个定数用e表示; - e被称作
欧拉常数
(也被称作自然对数的底);e是无理数;
函数
e^x
在微分之后式子是不变的,即微分之后得到的函数还是e^x
;而积分是微分的逆运算,所以e^x
积分之后的函数也是e^x
;
在用数学探索自然时,一般会构建各种函数的微分或积分,别的函数经过微分或积分,式子都会变化,只有e^x
不发生改变,因此很多问题中都能看到e的身影;
y = e^x 表示的指数函数在x=0时切线斜率为1
x在接近0时,e^x 接近于 1+x这种简单的函数
e = ∑ n=0,∞ 1/n! = 1 + 1/1!+ 1/2!+ 1/3! + ... + 1/n! + ...
欧拉公式:
e^(i*θ) = cosθ + i * sinθ
;
将θ代入π,得到e^(i*π) + 1 = 0
,e是欧拉常数、i是虚数单位、π是圆周率、1是乘法单位元、0是加法单位元,这些非常重要的中心元素之间的关系在这个式子中都得到了表示;
示例:计算 lim h->0 (1 + 2h)^(1/h),结果用e表示;
lim h->0 (1 + 2h)^(1/h)设 h = 1/n则 lim h->0 (1 + 2h)^(1/h)
= lim n->∞ (1 + 2/n)^n
= lim n/2->∞ (1 + 1/(n/2))^(2n/2)
= lim n/2->∞ (1 + 1/(n/2))^(n/2)*2
= e^2
1 积分
积分:英语中是Integration,具有整合整理的意思,积分的本质就是将细分后的单位累计(相加)起来;
最早提出与今天积分有关的求积法的人是阿基米德;
△
读作“德尔塔”,相当于表示差(Difference),表示有限的差时经常用到;
- 面积
≈ ∑ k=1,n f(xk) * △x
- 将n无限放大,面积就无限接近真实面积了;
- 面积
= lim n->∞ ∑ k=1,n f(xk) * △x
- 为了简化使用
∫
替代了lim
和∑
,读作:sum,是拉丁文summa首字母的拉长; - 面积
= ∫ab f(x) * dx
,dx表示△x
的极限值,a b是x可取的边界值;
f`(a) = lim b->a (f(b) - f(a))/(b - a)
表示点 a,f(a)切线的斜率,同时也被称作 f(x)关于 x=a的微分系数;
示例:证明对很小的h,(e^h - 1)/h ≈ 1
设h = 1/n,h->0时,n->∞由欧拉常数e的定义: lim n->∞ (1+1/n)^n = e则, lim h->0 (1+h)^(1/h) = e将e代入到需要证明的式子中即可;
这个证明代表了:
- 当f(x)=e^x时,关于x=0的微分系数
- y=e^x点 0,1的切线斜率为1
2 在统计学中的应用
- 连续型概率分布的 平均值 方差 标准差、正态分布(概率密度函数)
- 相比离散型概率分布讨论某个特定值的概率,连续型概率分布讨论的重点是数据在x1以上 x2以下的概率;
连续型随机变数与概率密度函数
- 取连续型数据的随机变数Xσμ
- 概率 就是 局部面积比上全部面积,求面积 就要用到积分;
- 使用积分可以将概率密度函数一般化;
概率密度函数:
- 连续型随机变数X取值范围为a到b,其概率P为
P(a<=X<=b) = ∫ab f(x) * dx
(实际就是在计算面积); - 此时,f(x)被称为X的概率密度函数;
概率密度函数性质:
- f(x)总是大于等于0
∫-∞∞ f(x) * dx = 1
- 如果x被限定在a b之间,则
∫ab f(x) * dx = 1
连续型随机变数的平均值和方差
E(X) = ∫ab xf(x) * dx
V(X) = ∫ab (x - u)^2 * f(x) * dx
, u是平均;
这两个可以 通过将 X的概率密度函数图像变成近似于阶梯形状,然后取某个很窄范围内的X值并用其中间值为代表做成随机变数,这样处理后的连续型随机变数X就变成了离散型随机变数
X`
,计算其均值方差而得到;
3 正态分布
呈正态分布的概率密度函数;
大致上,呈现带有误差现象的数据大多可用正态分布来表示;
正态分布的概率密度函数:
- 这个式子很复杂,
f(x) = 1/√(2πσ^2) * e^(-(x-μ)^2/2μ^2)
- σ(西格玛)表示标准差
- μ表示均值
- 这个式子表示 随机变数X呈 平均值为μ、方差为
σ^2
的正态分布,表示为N(μ, σ^2)
标准正态分布:
- 平均数为0,标准差为1的正态分布N(0, 1)被称为标准正态分布;
当随机变数X呈正态分布,则
Z= (X - μ)/σ
- 随机变数Z呈 N(0, 1)的标准正态分布;
- 此时
f(x) = 1/√(2π) * e^(-x^2/2)
,函数曲线呈吊钟型;
正态分布表:
- x在 0~μ 之间的概率是0.4750(查阅正态分布表所得),对应的μ是1.96
- 标准正态分布根据y周对称,因此 -μ~μ之间的概率是 0.950
- 即随机变数Z呈标准正太分布N(0, 1)时,-1.96<=Z<=1.96的面积占全体面积的95%;
推测统计:
- 1.研究样本对母集団做出概率推测的推算;
- 2.针对已知差值,找出产生差值原因的检验;
示例:使用标准差为100g的体重计测体重,某次测量为72kg,推测真实体重的可信度范围
- 仪器测量都会产生误差,这个误差往往符合正太分布,因此可以使用标准正太分布进行推算;
- 真实的体重约等于重复测量之后的平均值μ
- 将数据变形为标准正太分布的数据,
Z= (X - μ)/σ
- 95%可信度的Z取值范围为
[-1.96,1.96]
,X代入72kg,则可以计算u的范围是[71.804,72.196]
- 即,真实体重有95%的可信度在71.804~72.196kg之间;
95%的置信区间:指由样本统计量所构成的总体参数的估计区间;
μ的95%置信区间是a<=μ<=b:是指在母集団中随机检测与这一次相同数量的数据,且用同样的方式重复确定置信区间的话,那么在100次中大概有95次,μ的值落在
[a,b]
之间;
统计学中的检验是一种合理判断数据是否存在异常的手段;一般来说有95%概率发生的事件被视为“发生概率较大”的事件,此外的被视为异常;
示例:上班平均时间30分钟,标准差5分钟,问上班耗时39分钟是否异常?
- 将数据标准化
Z= (X - μ)/σ
- -1.96 <= Z <= 1.96,从而计算X的范围是
[20.2, 39.8]
,因此结果可信;
t检验:
- t检验利用了t分布(实际工作中 标准差是未知的,常用S作为σ的替代值,称为t变换)进行检验;
- t检验,亦称student t检验(Student’s t test),主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。
2022-07-12 读书笔记:《写给所有人的极简统计学》相关推荐
- 读书笔记-写给所有人的逻辑思维课
百度脑图地址
- 2022.07.12 第九小组 高小涵 学习笔记
JS: 1.for循环: 1.let i = 0;初始化条件,当i=0时,循环开始 2. i < 10;判断条件,会和初始化条件配合循环的执行,决定了循环什么时候停止 3. 循环体:循环在重复做 ...
- 读书笔记-偷影子的人
读书笔记一篇,纪念酒店隔离的日子,漫长的一周终于是过去了,平安的回来了,真是幸福的一件事. 偷影子的人也就是男主.从小父母感情出现矛盾,他能够敏感地感受到氛围的变化,所以有了"影子" ...
- 读书笔记—写给大家看的PPT设计书
作者:[美]Robin Williams 第一部分 写在设计之前 在现实生活中你可以表现得不可思议地愚蠢,你的话可以让人听得毫无兴致,昏昏欲睡,但是在这个演讲的舞台上,你却是一个明星!同时你还承担着让 ...
- 2022.07.25 学习笔记
学习笔记 使用in查询效率慢 当使用sql进行查询的时候,某些时候使用in,即使in的集合元素数量比较少,数据库中数据较少,但是查询的速度还是很慢,如下: SELECTcreatetTimer,ip, ...
- 读书笔记∣写给大家看的设计书
第一部分 第1章 约书亚树 1.四大基本设计原则:CRAP (1)对比contrast 避免页面上的元素太过相似,如果元素(字体.颜色.大小.线宽.形状.空间等)不相同,那就干脆让他们截然不同. (2 ...
- 2022/07/12
今天 时间安排基本没变 就是本来该跑步了早上下雨没跑步就爬了楼梯, 今天学的iframe,换行,横线,target属性,行寄标签,块级标签 图片显示,音频显示,视频显示,段落与标题,列表,然后做了对应 ...
- 《算法导论》读书笔记之第9章 中位数和顺序统计学
摘要: 本章所讨论的问题是在一个由n个不同数值构成的集合中选择第i个顺序统计量问题.主要讲的内容是如何在线性时间内O(n)时间内在集合S中选择第i小的元素,最基本的是选择集合的最大值和最小值.一般情况 ...
- 【读书笔记】用技术人的眼光看世界
持续学习&持续更新中- 守破离 用技术人的眼光看世界-程序员技术指北 用技术人的眼光看世界 一些总结 参考 用技术人的眼光看世界 对技术人员而言,技术是根本,所以有人认为单纯技术好就可以了,这 ...
最新文章
- 终于能用Google的TPU跑代码了,每小时6.5美元
- linux jdk安装_linux运维 - 用脚本快速安装jdk
- react日期格式化实例
- 电信级的RSA加密后的密码的破解方法
- 设计素材|剪纸风新年春节烫金PSD分层模板,牛气!
- 如何更好地利用JavaScript数组
- python中怎么打印出表格_怎么使用python脚本实现表格打印?
- MVC框架运行流程和目录结构
- DataGridView的属性、事件、方法
- 单指标时间序列异常检测——基于重构概率的变分自编码(VAE)代码实现(详细解释)
- Seata异常:endpoint format should like ip:port
- 【shell编程】基础篇
- SqlYog创建数据库
- 【web系列十五】Ubuntu系统部署Web项目
- 机器人领域十大前沿技术
- JeeWx捷微3.3 版本发布—JAVA开源微信管家
- 实战项目002-LED音乐频谱时钟
- π-Day快乐:Python可视化π
- 使用C#制作批量解锁和加密Excel工作簿的小程序
- cherry键盘维修记
热门文章
- 跌倒智能监测警报系统市场现状及未来发展趋势分析
- 【BLE】TLSR8258开发记录之7--SPI驱动W25Q16U
- 天文学家发现“超级地球”
- 80%的人都不知道在Excel中掐头去尾求平均分用这个函数
- 小白练习cocos creator——property用法记录
- Elasticsearch:Ingest pipeline 介绍
- FFmpeg音频解码-音频可视化
- VS Code编写HTML-CSS-JS等——代码格式化
- java高仿新浪微博短链接地址生成工具ShortUrlGenerator.java
- 网上书店系统/书店管理系统的设计与实现