catalog

  • 平均数
    • 算术平均数
    • 几何平均数
    • 调和平均数
    • 总结
    • 算术-几何平均数
  • 正态分布
  • 标准差、方差
    • 异常值去除
      • 等差数列

平均数

比如我们有n个数据: {1, 2, 3, 4, ...}我们想要得到 “一个常数C”,用这1个常数C 就可以代表这个n个数据!我们以往只知道 用: C = (1+2+3+4+...)/n 这个公式但其实,计算C的方法 有很多种....因为,当数据(即这些1,2,3...) 表示 “不同的 含义”时
计算C的方法,也就不同!

算术平均数

数据: {5,  -7.5}  ' 此时是无法求平均数的!! 因为不知道他的含义!! '
背景: 最初有X元,第一年赚了5,第二年赚了(-7.5)
问:   平均每年赚多少钱???' 设答案为avg,最终要满足: X + (avg * 2) == X + 5 - 7.5 ' 此时用算术平均数: avg = Sum{ data... } / n
avg = (5 - 7.5) / 2 = -1.25, 表示: “平均 每年 赚 -1.25”验证:  X - 1.25 - 1.25 = X + 5 - 7.5

几何平均数

数据: {4, 9}  ' 此时是无法求平均数的!! 因为不知道他的含义!! '
背景:最初有X元,第一年 的改变率是 4(意味着: 变成了4X)第二年 的变化率是 9(意味着: 4X * 9 = 36X)
问:  平均 每年的 变化率?' 设答案是avg,最终要满足: X * avg * avg = X * 4 * 9 = 36X '如果用,算术平均数: avg = (4 + 9) / 2 = 6.5
X * 6.5 * 6.5 = 42.25X  != 36X,错误此时要用: 几何平均数:  avg = ( data乘积 ) 的 n次方根
avg = Sqrt(4 * 9) =  6验证:  X * 6 * 6 = 36X

调和平均数

数据: {80, 20}
背景: 有一段公路(前半段 == 后半段),前半段速率是80,后半段速率是20
问: 平均 速率是多少?' 设答案是avg, 满足: (X/avg) + (X/avg) = (X/80) + (X/20) = 总花费时间 '' X为半段路程长度 '此时,便是 调和平均数。 因为,前后两路程相同,而且 是“未知”的, 保证的是一个“除法”(时间 = len / speed)调和平均数 =  n / ( (1/a) + (1/b) + (1/c) + .. )
avg = 2 / ( (1/80) + (1/20) ) = 32即,2 * (X / 32) == (X/80) + (X/20) = 花费总时间

总结

算术平均数利用加法,几何平均数则利用乘法,调和平均数使用倒数
当然,其实你没有必要 去背诵每个平均数的公式!!!
因为,他是可以推导出来的!!! 根据你的实际需求!!

算术-几何平均数

http://www.360doc.com/content/18/0721/07/6598516_772058398.shtml
https://blog.csdn.net/qq61394323/article/details/51491971?locationNum=13&fps=1
https://www.sohu.com/a/241295939_614593

正态分布

https://baike.baidu.com/item/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83/829892?fr=aladdin

标准差、方差

先有的方差, 然后才有的 标准差,你可以把他俩看成是 一个东西!!
或者,你可以认为: 只有方差 这一个东西。
(因为,标准差是由方差推导而来的,仅仅是取个平方根)
为什么要进行推导,多产生一个 标准差呢??
;;;因为,他俩的“量纲”不同 (换句话说,他们的单位不同)
为了统一单位,方便计算,得到这个 标准差
(即,我们平时用的 都是标准差,用不到方差,他仅仅为了得到标准差)

n个数据{X1, X2, X3, …, Xn},其平均数为: X‾\overline{X}X
方差: ∑i=1n(Xi−X‾)2n\frac{\sum^{n}_{i=1}{(Xi - \overline{X})^2}}{n}n∑i=1n​(Xi−X)2​

标准差,是 方差的 平方根,他俩本质都一样。
因此,我们重点介绍 标准差

标准差(或方差): 描述很多数据 距离平均值avg 的 “离散”程度
令标准差为:M, 这n个数据的平均数为:Avg
他一定是满足:
有>=(1/ 2\sqrt{2}2​) = 68%的数据,处于: [Avg - M, Avg + M]的范围
有>=(2/ 2\sqrt{2}2​) = 95%的数据,处于: [Avg - 2M, Avg + 2M]的范围
有>=(3/ 2\sqrt{2}2​) = 99%的数据,处于: [Avg - 3M, Avg + 3M]的范围
标准差越小,说明: 所有数据 都越接近 Avg
;;注意,他是和“平均值avg” 密切相关的!!!
;;他并不是反映: 这些数据的 密集/稀疏情况!!
(20个1, 1个1000): 这些数据 是比较“密集”的,毕竟20个点 都是1个位置上
;;只有1个1000,偏离了出去。 他的标准差为: 217
(0, 5, 10, 15, 20… {公差为5,共20项}): 这些数据 要比上面数据 “稀疏”
;;但他的标准差为:28

因此,标准差 并不是看: 这些数据的 离散情况!!! 他是和“平均数Avg” 密切相关的!!
他是: 各数据 与“平均值Avg”的 稠密(偏离)情况
即,异常值 会很影响 标准差,因为异常值会影响Avg

异常值去除

很多数据,得到了他的算术Avg 和 标准差std
我们就可以知道:有68%的数据,处于:  [Avg - std,  Avg + std]的范围有95%的数据,处于:  [Avg - 2std,  Avg + 2std]的范围有99%的数据,处于:  [Avg - 3std,  Avg + 3std]的范围那么, 如果对于那些 “除于范围以外的 %1 或 %5” 的数据,我们就可以当做: 异常值for(auto i : data){if( abs(i - Avg) >= (std * param) ){ i是异常值; }
}
' 当param取为3时, 称为:拉依达方法 去除异常值;  当然,你也可以取2 '标准差,就是代表了一个“正态分布图” (Avg为 平均值,M为 标准差)[Avg-3M] [Avg-2M] [Avg-M] [Avg] [Avg+M] [Avg+2M] [Avg+3M]处于两端外的数据: abs( raw_data - Avg ) >= 3M,就可以把他当成 异常值。注意,标准差(这个正态分布图),是与 你的raw_data的次序 没有关系的!!你的raw_data是 {1,2,3,4,5} 和 {2,3,4,5,1},得到的情况 是完全一样的!!!他的这个“去除异常值”,并不是“曲线光滑”,与“曲线光滑”无关!!!
(0,10,20,30,40) 这个数据是非常光滑的!!!(直线)
而(10,20,30,40,0)中 最后的0,显然是“异常值”(这个0,导致一个大的拐点)但用这种方法(标准差去除) 是去除不掉的!!这种方法,只是看的 这整个集合的数据,与原生数据的次序 无关!!!
最先被去除的异常值X,一定是: abs(X - avg)最大的,然后是abs(X - avg)次大的

等差数列

[0, 1, 2, 3, 4, 5, 6]:            avg=3, 标准差=2
[0, 10, 20, 30, 40, 50, 60]:   avg=30, 标准差=20
1个标准差区间: [1, 5] 和 [10, 50]
2个标准差区间: [-1, 7] 和 [-10, 70]1, 标准差,对相对于不同数列而言的; 不同数列,标准差不同不同数列间,不能比较他们的标准差,没有意义他只能作用于,一个数列中“标准差的大小,只能反映: 该数列中 所有数据与avg的倾向程度”
2, 标准差区间,对于 “等差数列”,效果是一样的注意,我们说的是:“标准差区间”,而不是“标准差”以上面的“等差数列”来看, 虽然avg 和 标准差,都不同但是,其标准差区间 [avg - k*标准差, avg + k*标准差]所反映的意义,是相同的

算术平均数、几何平均数、调和平均数的、标准差、方差、正态分布、异常值噪声处理相关推荐

  1. 概率统计极简入门:通俗理解微积分/期望方差/正态分布前世今生(23修订版)

    原标题:数据挖掘中所需的概率论与数理统计知识(12年首次发布,23年重编公式且反复改进) 修订背景 本文初稿发布于12年年底,十年后的22年底/23年初ChatGPT大火,在写ChatGPT通俗笔记的 ...

  2. 统计学原理----算术平均数和调和平均数

     1.不能根据同一资料既计算算术平均数, 又计算调和平均数 算术平均数和调和平均数各有自己特定的应用场合, 不能根据同一资料既计算算术平均数, 又计算调和平均数.下面通过几个有联系的实例加以说明. 例 ...

  3. echarts3.0 markline 最大值 最小值 均值 方差 标准差 包络 正态分布

    if (pie == "最大值" || pie == "最小值" || pie == "均值" || pie == "标准差&qu ...

  4. 统计学必知!「标准差方差」之间不得不说的关系

    Climber | 作者 博客园 | 来源 1 标准差(Standard deviation) 简单来说,标准差是一组数值自平均值分散程度的一种测量观念.一个较大的标准差,代表大部分的数值和其平均值之 ...

  5. 多元统计分析-概率,期望,方差,正态分布

    概率,期望,方差 只有一个变量时 F(x<=a) = ∫-∞af(x)dx 当区间取负无穷到正无穷时积分为1 推广到多元之后: 同理,当区间取满整个空间时,积分为1 f被称为概率密度函数 边缘分 ...

  6. python3随笔-协方差,标准差,方差

    在概率论和统计学中,协方差用于衡量两个变量的总体误差.而方差是协方差的一种特殊情况,即当两个变量是相同的情况. [1] 期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y) ...

  7. r语言三倍标准差法去除异常值,再计算平均值标准差

    博主自己没能找到好的函数去除异常值,于是自己写好了一个简单实用的包.可以通过三倍标准差法删去每一行的异常值,然后计算出平均值标准差. 函数总共四个参数: file=  要计算的文件路径,在工作目录可以 ...

  8. 标准差 方差 协方差 相关系数

    一.统计学的基本概念 统计学里最基本的概念就是样本的均值.方差.标准差.首先,我们给定一个含有n个样本的集合,下面给出这些概念的公式描述: 均值: 标准差: 方差: 均值描述的是样本集合的中间点,它告 ...

  9. Python numpy 求均值 标准差 方差 及参数介绍

    MID:MA(CLOSE,20);//求N个周期的收盘价均线,称为布林通道中轨 TMP2:=STD(CLOSE,20);//求M个周期内的收盘价的标准差 TOP:MID+2*TMP2;//布林通道上轨 ...

  10. SQL 函数 标准差方差 数据类型转换 日期时间

    统计标准偏差 stev() 总体标准偏差 stdvp() 统计方差 var() 总体变异方差 varp() 算术函数 数据类型转换 cast convert 时间日期函数 统计标准偏差 stev() ...

最新文章

  1. django-debug-toolbar使用指南
  2. java display.getdefault()_java基础(十一 )-----反射——Java高级开发必须懂的
  3. 倒计时或按任意键返回首页_超实用excel小技巧之时间倒计时及动态显示
  4. Boost:Bimap简单示例
  5. Scratch里定义重复动作的方法
  6. ig 焊接机器人_发那科机器人焊接应用的IO配置(总线型)
  7. 运行matlab生成多张图片后如何瞬间将图片全部关闭
  8. 软件工程第1次作业—词频统计
  9. MongoDB 通过 Java 代码 CRUD 数据库与集合
  10. jQuery入门视频教程
  11. 流媒体传输协议浅析(三)可靠UDP传输方案
  12. LINUX自学-初识LINUX
  13. html批量打印保存到pdf,网页批量打印成PDF,并按条件合并成大PDF、生成页码
  14. 【书记舞】MMD动作+镜头+配音下载
  15. IT 工作中常用的英语单词
  16. 报关(有时同时、有时先于做箱)
  17. 模拟人生4修改服务器,模拟人生4 全秘籍、作弊码一览及修改方法汇总
  18. php下载安装方法,phpstudy 2016免费版-php开发环境下载 v2016.11.03 附带安装教程 - 安下载...
  19. C++反射:全方位解读Lura库的前世今生!
  20. Omnipeek空口抓包(4):抓取路由器下的无线网络包

热门文章

  1. 二手车数据挖掘- 数据分析
  2. 数据分析案例-二手车价格预测
  3. 【python爬虫】QQ空间爬虫 笔记
  4. C#窗体应用显示用户sa登录失败
  5. Redis集群的节点通信原理
  6. 下载Google瓦片地图并在Unity中作为场景底图
  7. Spring Cloud - 熔断(Hystrix)
  8. 想了解阀门的请进!!!!
  9. 春招面试的总结与自我反省
  10. win10安装Dreamweaver cc 2019报无法写入注册表的错误