8个非常重要的公式,请务必转给你身边的人

原创 paperClub paperClub 2022-07-05 23:58 发表于江苏

这18个非常重要的公式,请务必转给你的好朋友。

1. 方差: 组内差异,一般为一维数据

标准差(均方差、均方根差)【总方差】: 反映检测值与样本平均值间的偏差,为有偏估计。

在实际情况中,总体均值很难得到,往往通过抽样来计算,于是有样本方差S(无偏估计)

2. 数学期望E(xi)

数学期望:离散型随机变量 xi 和对应概率的乘积。公式如下:

应用场景

3.协方差:组间差异,描述多维数据

概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。

X, Y 协方差为4.0 ,是正相关,从上面的图像我们也可以看到像x,y 变化是一致的。

协方差矩阵:[[2. 4.] [4. 8.]], 既然协方差反映了相关性,那我们怎么衡量呢?皮尔逊相关性, 很简单,用协方差除以标准差即可,就是协方差归一化的过程:

4. 协方差与相关性:

我们都知道协方差 可以用来评判多因素间是否具有一相关性,相关相关性的度量也就是皮尔逊系数,皮尔逊系数:

皮尔逊相关性是两个变量之间的协方差与标准差的商, 那怎么去理解呢?通过公式我们来理解一下,是去中心化后的数学期望标准差的商, 分母非负,我们主要关注分子部分就好了,每个点与组内平均值的差就是归一化的思想,所以我们就是看最后的数学期望对应的向量是不是为正,就可以判断两个变量是不是正相关,为了呈现这个过程,我们来看一个例子,数据如下:

这是一组数据,total_bill代表消费者就餐账单总额,tip为 小费,一般理解,就餐费用越高的消费者会提供更多的小费给服务员,因此账单总额和小费应该是正相关的,我们按照上面的理解来推演一下:

我们看到 xy_mean 的平均值为 8.29 ,是大于0的,根据猜想应该是正相关,而我们计算的皮尔逊相关系数为 1.0,为强正相关,和猜想一致。通过下面的拟合我们可以很清楚地发现,整体上 total_bill 与 tip是正相关的。

当然,我们还可以计算sperman相关性。此外,也可以通过卡方检验等方法来进行相关性验证。

5.标准误:衡量抽样误差,越小代表抽样数据越能反映总体的特征

6. 均方误差(Mean Squared Error,MSE):均方误差是指参数估计值与参数真值之差平方的期望值。

7. 均方根误差(Root Mean square Error, RMSE): MSE的平方根,反映真实值和预测值间的偏差。

8.平均绝对误差(Mean absolute Error, MAE): 真实值与预测值绝对误差的平均值,与标准差相比,MAE离差被绝对值化,不会出现正负相抵消的情况,更好地反映预测值误差的实际情况。

9. 伯努利分布:

伯利分布它是一个单词试验,结果只有0 和 1两种情况,1代表成功、0代表失败,例如:女朋友生气、你打电话‘’安慰‘’,她接电话 vs 不接电话,今天下雨 vs 不下雨, 买彩票中奖 vs 未中奖等都属于两种结果的分布,因此也被称为两点分布,概率图像如下:

(1)  伯努利概率:

伯努利概率分布图

(2)伯努利期望和方差:

(3)条件:伯努利分布为离散分布,结果只有两种0 vs 1, 1代表成功,概率为p,0代表失败,概率为 1 - p。

10. 二项分布

n次重复伯努利试验,得到的k次概率分布即为二项分布, 例如:一天内你给女朋友打100次电话,有 k 次她接到电话的概率分布,再如 抛硬币n次,有k 次硬币正面朝上的概率等等。

(1) 概率质量函数:

(2)二项分布期望和方差:

(3)条件:发生次数 n 是固定的,其n次试验间相互独立,每次事件发生的只有两种结果,发生概率不变,即发生成功概率每次都为p。

上图告诉我们:

(1)n=10-p=0.3 , n=10-p=0.5 , n=10-p=0.7: 单次事件概率p越大, 分布越接近对称,图像也越朝向中间

(2)n=10-p=0.3, n=25-p=0.3, n 越大越接近正态分布;

比较常见的例子:车间有10台机器,每台机器的功率为10kw, 已知每台机器工作时,1小时内平均开机时间为12分钟,且开动与否相互独立。因当地供电紧张,供电部门只能提供50kw电力,那么:这10台机器正常工作的概率是多少?另外,在一天8小时内,不能正常工作的时间大约是多少?这个就涉及到了二项分布概率的问题。

11.几何分布:

单次事件发生概率为p, 独立重复试验n 伯努利次,直到第 k 次才成功的概率分布即为几何分布,记为X~GE(p)

(1)几何分布概率质量函数:

我们来绘制概率分布图:

(2)几何分布数学期望及方差:

应用的例子:已知患有某种罕见病的患者在某地区总人数的比例是0.25%,那么:检测出一位患者、至少需要检测25人的概率是多少?为检测一个患有罕见病的概率不小于0.9,至少需要检测多少人?这类问题就属于几何分布。答案:概率0.94、需要检测920人。

以上都是基于伯努利分布衍生的统计学分布,其前提都是离散分布,且每次单事件发生概率恒定,其中:伯努利分布是单次试验的概率分布,二项分布是多次重复伯努利试验得出的概率分布,而几何分布强调的是首次发生。

12.超几何分布

超几何分布是描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的次数(放回),称为超几何分布,记为X~H(N,M,n)。

(1)超级分布概率质量函数:

(2)超几何分布数学期望和方差:

应用例子:箱子里面有10个红球、20个白球,那么:不放回的从中拿去5个球,抽中4次为红球的概率是多少?至少抽到4个红球的概率是多少?等等都属于超几何分布。

13. 泊松分布

泊松分布是指单位时间(或单位面积)内随机事件的平均发生次数,为小概率事件。

(1)泊松分布概率函数:λ称为泊松分布的参数,指的是单位事件或面积内随机事件发生的平均次数。

(2)泊松分布的数学期望和方差:数学期望和方差均为 λ。

泊松分布例子:如下是某蛋糕店周一 ~ 周日某型蛋糕的平均销量,那么每周需要‘’备货‘’多少此款蛋糕能最大程度满足需求,同时既不浪费又能充分供应??

我们可以看到周一 ~周日平均日销量为 5,如果按照日平均数5,周一、周四、周日肯定卖不完,周三又不够,那到底该准备多少个蛋糕的原料呢?我们就可以考虑泊松分布。

既然图中是周一到周五的周平均销量,那么就能反映出日销售量,即平均值,我们认为此类蛋糕销售为小概率事件,可以认定每日销售量为 5,利用泊松分布就可以得到:

我们看到 日供应为10时,90%以上的销售日均能被满足。

14.正态分布

正态分布又称高斯分布(Gauss Distribution),X∼N(μ,σ2)。

(1)正态分布概率密度:

(2)正态分布数学期望和方差:期望为 μ, 方差为 σ**2

由上图可知:

(1)正态分布的图像是对称的,其对称轴为μ ,即μ 控制了正态分布图像的位置;

(2)正态分布图像是“高瘦”还是“矮胖”,取决于σ ,σ 越大,图像越“矮胖”

15、卡方分布

卡方分布是指符合标准正态分布的样本总体,每个样本的平方和构成的新随机变量称为卡方分布,记为χ2∼χ2(n)。

(1)卡方分布概率密度函数:

(2)卡方分布的期望和方差:E(X)=n,D(X)=2n

(3)概率分布质量函数:

其对应为卡方检验,卡方x2检验可用于拟合性检验和相关性分布,其核心原理在于根据样本数据估计总体频率和期望频率间是否存在限制性差异。

(4)显著性分析应用例子:某咖啡厅通过统计获得如下一组数据,老板想看看不同的职业和咖啡口感间是否存在限制性差异

咖啡统计

卡方值=138.2050, p值=0.0000, 可知 不同职业和咖啡口感间不独立,存在显著差异。当然,我们从上面的柱状图也可以明显看出,不同职业对咖啡的口感喜爱是不一样的。

再比如,男性、女性对化妆品的统计数据如下,那么:性别和化妆与否是否存在显著差异?也可以使用卡方检验来解释。

16. t-分布:

t-分布又称学生氏分布,常用于根据小样本来估计呈正态分布且方差未知的总体的均值。

(1)t-分布概率质量函数:

(2) t-分布概率图:

t-分布所用的检验方法为t-检验,  t-检验分为3种:

(1) 单样本t检验:

单样本检测是指用来确定的样本均值和总体总体均值在统计学上是否存在显著差异。

如: 随机抽取某款汽车的进行尾气检测,数据如下,请问此款汽车尾气是否显著大于 20?

某款汽车随机抽样汽车尾气检测结果

汽车尾气数据分布

很显然是不显著的,t-value=3,  p-value=0.0149。

再比如:已知新生儿平均体重 3.31 kg,从某高寒缺氧区域抽取30例新生儿,平均体重3.21kg, 标准差0.5,请问该地区新生儿体重符合正常标准吗?

我们也可以使用单样本t-检验:p = 0.07079, 我们可以认定根据现有数据信息,不能确定该地区新生儿体重异常。

(2)配对样本t检验

配对样本t检验目的是在检验样本差数的均数与0之间的差别的显著性。

比如:某医院研究某款咖啡对成人心肌血流量的研究时,随机抽选12名健康成人进行心肌血流量检测,数据如下,那么,此咖啡对心肌血流量是否有影响?我们就可以使用配对t-检验进行分析了。

心肌血流量数据

心肌血流量数据直方图

t-检验双尾p-value = 0.0032, 有显著差异。

(3) 独立样本t-检验

独立样本t-检验目的是判断两个样本均数所对应的总体均数是否有差别。例如,A 和 B工人同一机床上加工轴承零件的直径数据如下,请问A、B加工产品有显著性差异吗?

A、B 机床加工轴承数据

A、B 加工轴承直径分布

独立样本t-检验 p-value=0.4081>0.05, 我们可以认为两人加工精度无显著差异。

18. F-分布

F分布是两个服从卡方分布的独立随机变量各除以其自由度后的比值的抽样分布,是一种非对称分布且位置不可互换的分布,对应的F检测也称为方差比率检验、方差齐性检验。

(1)F分布概率函数:

(2)F分布期望和方差:

(3)F分布概率分布

F检验主要是考察两组数据的稳定性,我们还是以上面A工人和B工人加工零件的例子来尝试。

F-检验 p-value = 0.9269, 说明两组数据稳定性无显著性差异,反应了A工人和B工人加工零件的稳定性相当。

以上18个数学公式(分析统计方法)是日常频率极高,也是平时工作、学习备考的需要重点掌握的知识点,欢迎大家转发给身边有需要的朋友。

今天就分享到这里,  我是 paperClub,获取最新内容请微信关注 paperClub

———————————————————————————————

1. 感谢各位小伙伴的关注, 您的点赞、鼓励和留言,都是我深夜坚持的一份动力,无论褒贬,都是我们行进途中最好的回馈,也都会被认真对待。

2. 我将持续分享各类、好玩且有趣的算法应用及工程和项目,欢迎分享和转发。沟通、学习和交流,请与我联系,虽然平时忙,但留言必回,勿急,感谢理解!

3. 分享内容包括开源项目和自研项目,如在引用或使用时,考虑不周、遗漏引用信息或涉及版权等,请您及时联系。如果您对某些内容感兴趣,我们可以一起讨论、交流和学习。

8个非常重要的公式,请务必转给你身边的人相关推荐

  1. 生而为人,请务必善良

    生而为人,请务必善良.谨以此文警醒自己,做个善良的人,但是你的善良要有锋芒. 人生境界百态,不管怎样都有令人反感的人,不要做令所有人都讨厌的人. 1.不要做白眼狼. 什么叫白眼狼?即那种拿了别人东西还 ...

  2. 6 种激活函数核心知识点,请务必掌握!

    点击上方"AI有道",选择"置顶公众号" 关键时刻,第一时间送达! 我们知道,神经网络模型中,各隐藏层.包括输出层都需要激活函数(Activation Func ...

  3. OSChina 周日乱弹 —— 请务必让我分担他们的痛苦!

    Osc乱弹歌单(2019)请戳(这里) [今日歌曲] @clouddyy :分享石元丈晴的单曲<Why>: <Why>- 石元丈晴 手机党少年们想听歌,请使劲儿戳(这里) @一 ...

  4. don't android xml,GitHub - KunMinX/Linkage-RecyclerView: 即使不用饿了么订餐,也请务必收藏好该库! 一行代码即可接入,二级联动订餐列表。...

    真香警告:即使不用饿了么订餐,也请务必收藏好该库! 由来 Linkage-RecyclerView 是一款基于 MVP 架构开发的二级联动列表控件.它是因 "RxJava 魔法师" ...

  5. 重要公告 | 论坛域名更换,请务必及时收藏

    论坛的小伙伴们: 为进一步规范网站域名,自2022年11月16日起,"西门子低代码开发者论坛"的域名由:https://forum.mendix.tencent-cloud.com ...

  6. Git log 中发现 “xxx@xxx.com“ 邮箱不符合要求,请务必使用公司邮箱。解决方案

    配置了新的mac笔记本.完成了一系列开发环境配置,安装了git,IDE,配置了git ssh秘钥,clone下项目代码,顺利看到了所负责项目的代码.并且完成新的branch的创建和分支提交到远程仓库, ...

  7. 深度学习最常见的 26 个模型汇总,请务必掌握!

    点击上方"AI有道",选择"置顶"公众号 重磅干货,第一时间送达 本文转载自公众号:AI部落联盟(AI_Tribe) 本文首先从4个方面(张量.生成模型.序列学 ...

  8. 配置windows失败计算机,解决 配置windows update失败还原更改,请务必关机 win7更新失败 还原更改(图文)...

    win7在自动更新系统的时候出现更新失败的情况 一直停在"配置windows update失败还原更改,请务必关机"的画面如下: 如果持续半个小时到一个小时都在上述画面 可以重启电 ...

  9. git log 中发现 myname@B-V1GSG8WN-0102.local 邮箱不符合要求,请务必使用公司邮箱

    报错:git log 中发现 myname@B-V1GSG8WN-0102.local 邮箱不符合要求,请务必使用公司邮箱 新领了一个笔记本, git push 提示该报错 通过命令查看我的本地邮箱是 ...

最新文章

  1. windows driver 分配内存
  2. 你一定需要知道的高阶JAVA枚举特性!
  3. 九度OJ 1089:数字反转 (数字反转)
  4. C# 泛型编程学习总结
  5. 【数据结构】之算法和算法评价
  6. 强大的Canvas开源库Fabric.js简介与开发指南
  7. java炫酷龙卷风源码_Java-使用二叉树实现快速排序-遁地龙卷风
  8. 获取rabbitmq连接对象_NET Core使用RabbitMQ
  9. CNode社区——React实现
  10. 明华M1读卡器操作基本方法
  11. 台式电脑连不上wifi怎么办
  12. python 求偏导数 调用偏导数函数的输入
  13. Cookie--防劫持的处理
  14. 网页微信,微信 1101,1102原因汇总
  15. c/c++: 如何区分c和c++
  16. 学计算机买笔记本是i5 i7,i7一定比i5强?买电脑陷阱你一定要注意了
  17. 康耐视智能相机IO操作笔记
  18. 如何调节控制Mac的风扇转速
  19. 右键文件夹用某个软件打开
  20. 安装Google PageSpeed模块

热门文章

  1. python time模块以秒计时保留两位小数,格式化时间戳
  2. 我心中的计算机作文500,心中的作文500字4篇
  3. 建模simulink - xpc自定义模块库
  4. Mac:TexStudio 中文论文模版
  5. 努力和天赋哪个更重要
  6. 截至20161210深市股票代码和名称
  7. 首度基因lims(实验室)管理系统
  8. RabbitMQ 安装与web后台管理界面开启
  9. 基于FPGA的Bubble 游戏开发
  10. linux 视频电话,多人音视频通话-Linux开发集成-SDK开发集成-音视频通话-网易云信开发文档...