前言

图像处理过程中不可避免涉及到很多数学知识,边学习边记录


数据统计

一、集中趋势

算术平均数:u=(x1+x2+...Xn)/n

加权平均数:u=(x1*w1+x2*w2+...Xn*wn)/(w1+w2+...+wn)

几何平均数:对各变量值的连乘积开项数次方根,通常用于连乘关系的比率

u=(x1*x2*...*xn)的开n次方根

注:

调和平均数≤几何平均数≤算术平均数≤平方平均数

1/((1/a+1/b)/2)<=sqrt(ab)<=(a+b)/2<=sqrt((a^2+b^2)/2) ,[(a>0,b>0)]

中位数:排序后,n为奇数,m=x(n/2),n为偶数,m=(x(n/2)+x(n/2+1))/2

众数:出现次数最多的值,可能零个,可能不止一个

最大值:max

最小值:min

四分位数:排序后,分别为Q1:x(n/4),Q2:x(n/2),Q3:x(n*3/4),用3个点分成4份,

排序后的最小估计值=Q1-k(Q3-Q1)

排序后的最大估计值=Q1+k(Q3-Q1)

k>1.5 中度异常值 k>3 极度异常值

四分位数的范围是Q1~Q3的范围

二、离散趋势

平均数为u,

方差:s=((x1-u)^2+(x2-u)^2+...+(xn-u)^2)/n

注:有些地方除数会用n-1,为了自由度

标准差:σ=sqrt(s)

平均差:su=(|x1-u|+|x2-u|+...+|xn-u|)/n

离散系数(也称变异系数):Cv=σ/u(标准差/平均数)

三、分布状态(单峰分布即只有一个众数)

对称分布:平均值=中位数=众数,左右尾对称,又称U分布,概率

a、68.268949%的在平均数左右的一个标准差范围内,95.449974%在平均数左右两个标准差的范围内,99.730020%在平均数左右三个标准差的范围内,99.993666%在平均数左右四个标准差的范围内。

b、函数曲线的反曲点(inflection point)为离平均数一个标准差距离的位置

c、正态分布的概率密度曲线呈钟形,因此人们又经常称之为钟形曲线,面积为1,标准差越大,曲线高度越矮,标准差越小,曲线高度越高

d、标准正态分布是指u(平均值)为零,标准差(σ)为1的正太分布

右偏分布(skewed right):正偏态

a、(左边的数据多),右尾长于左尾,,

b、平均数>中位数>众数

c、比较靠近第一分位数,远离第三分位数

左偏分布:负偏态

a、(右边的数据多),左尾长于右尾,平均数

b、平均数<中位数<众数

c、比较靠近第三分位数,远离第一分位数

偏态系数:SK= (均值一中位数)/标准差=(x-u)^3的求和/(σ*n)

注:还有这种计算

正态分布条件下,由于均值等于中位数,所以偏度系数等于0,

当偏态系数大于0时,则为正偏态;

当偏态系数小于0时,则为负偏态

偏态系数>1,严重右偏;>0.5,中度右偏

偏度度量:gi=K3/K2*sqrt(K2)

K2=((x1-u)^2+(x2-u)^2+...+(xn-u)^2)/n-1/12;

K3=n*(((x1-u)^3+(x2-u)^3+...+(xn-u)^3))/((n-1)*(n-2))

其中(-1/12)是归并矫正数,如计算过程中用组距时需要经过矫正,如果使用原始数据,则忽略

gi=0,对称,gi>0,正偏态(右偏),gi<0,负偏(左偏)

偏态分布的数据,有些可以通过变量代换变成正态分布

四、异常值

异常值:偏离大多数样本点的特殊值

判断异常值方法:箱线图法,正态分布法

箱线图:

处理方法:修改(符号相反且不符合常理,eg:正数集合里的一个负数),删除(明显不符合统计类型,eg:年龄统计中出现的颜色),替换成平均数(极大值或极小值影响的一些统计)

五、数据拟合

最小二乘法:

直线方程的最小二乘法

Ymean=k*Xmean+b

k=((X1-Xmean)(Y1-Ymean)+(X2-Xmean)(Y2-Ymean)+...+(Xn-Xmean)(Yn-Ymean))/((X1-Xmean)^2+(X2-Xmean)^2+...+(Xn-Xmean)^2)

b=Ymean-k*Xmean

相关关系:

按关系:正相关,负相关

按形式:线性相关,非线性相关

按变量数:单相关,复相关,偏相关(两个或以上变量,只关注一个变量,其他看作常量)

按程度:完全相关,不完全相关,完全不相关

相关系数:

k=Cov(X,Y)/(sqrt(var(X)*var(Y))

Cov(X,Y)是X,Y变量的协方差,Cov(X,Y)=EXY-EX*EY

Var(X)和Var(Y)是X和Y的方差

excel中相关系数的计算(和期望值计算稍有不同)

r=((X1-Xmean)(Y1-Ymean)+(X2-Xmean)(Y2-Ymean)+...+(Xn-Xmean)(Yn-Ymean))/sqrt((X1-Xmean)^2+(X2-Xmean)^2+...+(Xn-Xmean)^2)*sqrt((Y1-Ymean)^2+(Y2-Ymean)^2+...+(Yn-Ymean)^2)

|k|=1,完全相关,k=0,完全不相关,

注:印象中有此关系,|k|<0.3,基本不相关,|k|>0.8,高度相关,0.3<|k|<0.5,低度相关,0.5<|k|<0.8中度相关,

六、数据分析

一、明确问题:明确分析数据的真实需求

二、理解数据:数据获取和数据探索,包含数据采集,数据抽样,数据认知

三、数据清洗:纠正数据文件中可识别的错误,检查数据一致性,处理无效值和缺失值,和异常值

四、统计分析和可视化:将清洗后的数据以可视化的方式展示

五、结论和建议:对结果进行解读,得出有价值的结论并给出相关建议


总结

来源各种百度及以前的笔记,有些地方感觉描述不清,例如偏态系数和偏度度量相关,但是自己忘记相关的统计学知识了,还有最小二乘法以及相应的残差计算,和百度的内容有些差异,对数学符号已经忘的差不多了,如果遇到了更标准的描述,或者理解清晰了,再更新,部分图直接来源其他作者,但是自己忘记当时从哪下载的了

数学基础知识:数据统计相关推荐

  1. 【知识】人工智能数学基础知识

    数学是打开科学大门的钥匙.--培根 数学基础知识蕴含着处理智能问题的基本思想与方法,也是理解复杂算法的必备要素.今天的种种人工智能技术归根到底都建立在数学模型之上,要了解人工智能,首先要掌握必备的数学 ...

  2. 图解数据分析(3) | 数据分析的数学基础(数据科学家入门·完结)

    作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/33 本文地址:https://www.showmeai.tech/article-d ...

  3. 图解大数据 | 应用Map-Reduce进行大数据统计@实操案例

    作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/84 本文地址:http://www.showmeai.tech/article-det ...

  4. 【本科数学基础知识整理】

    [本科数学基础知识整理] 文章目录 前言 一.高等数学 二.微积分 1. 三. 六.随机变量 七.概率论 7.1 概念解释(PDF.PMF.CDF) 7.1.1 PMF:概率质量函数 7.1.2 PD ...

  5. 人工智能数学基础--概率与统计13:连续随机变量的标准正态分布

    一.引言 在<人工智能数学基础–概率与统计12:连续随机变量的概率密度函数以及正态分布>介绍了连续随机变量概率分布及概率密度函数的概念,并介绍了连续随机变量一个重要的概率密度函数:正态分布 ...

  6. 论文数据统计Task1

    论文数据统计Task1 数据集 具体代码实现 导入所需包 读入数据并查看数据大小 显示数据的前五行 进行数据预处理 查看所有论文的种类 特征处理 筛选数据 数据分析及可视化 心得体会 数据集 链接:数 ...

  7. 电商销售数据分析与预测(日期数据统计、按天统计、按月统计)

    本文来自<Python数据分析从入门到精通>--明日科技编著 随着电商行业的激烈竞争,电商平台推出了各种数字营销方案,付费广告也是花样繁多.那么电商投入广告后,究竟能给企业增加多少收益,对 ...

  8. 用计算机和手算标准差不一致,统计基础知识与统计实务学习指导(2015版).doc

    统计基础知识与统计实务学习指导(2015版) 统计基础知识与统计实务学习指导(2015版) 第一章 绪论 一.单项选择题 1.在实际应用中,统计的涵义是指( ).A.统计理论与统计实践 B.统计设计. ...

  9. 数据分析的重要一环之数据统计

    转载:http://www.baobaoshequ.com/article/4536 不管是业绩总量,还是各学历的员工人数,都需要我们从明细数据中进行统计.计算.因此,数据统计的过程即对明细数据进行各 ...

最新文章

  1. JavaScript创建对象的两种方法和遍历对象的属性
  2. Intellij Idea使用教程汇总篇
  3. OpenGL之gluPerspective浅析
  4. 【渝粤题库】陕西师范大学700007 生态学
  5. 问题记录-python连接远程主机redis数据库时无法成功连接
  6. 命令行_Laravel-admin artisan 命令行脚本使用
  7. Ubuntu环境搭建零:安装Linux虚拟机
  8. Python学习-07-面向对象编程初级
  9. 谷歌大脑计划研究员Chris Olah的博客
  10. 台达伺服ASD-B2的调试
  11. opencv-python中文文档
  12. python音频提取pcm_python 实现录音pcm格式功能
  13. C# log4net App.config 配置系统未能初始化问题
  14. Laravel 代码开发最佳实践
  15. OneData指标体系
  16. Opencv3.0-python: 编译报错color.cpp:7456: error: (-215) scn == 3
  17. iFunk超极本或出新,你最想知道什么
  18. 解决联想电脑自带麦克风不能使用
  19. java什么是枚举_java中的枚举到底是什么鬼
  20. ARC101E - Ribbons on Tree

热门文章

  1. HTML+CSS+JS个人网页设计期末课程大作业 web前端开发技术 web课程设计 网页规划与设计
  2. ZigBee-CC2530单片机 - 实现计算机串口通讯控制LED发光二极管
  3. 【思想】《人生效率手册》
  4. python进程池multiprocessing.Pool和线程池multiprocessing.dummy.Pool实例
  5. git 取消合并与撤销
  6. 2018青岛大学计算机考研真题,2018年青岛大学数学科学学院657数学分析考研基础五套测试题...
  7. 力扣1823题:找出游戏获胜者(约瑟夫环)
  8. 折腾了一把 JAX-WS, SOA Java EE 5 (part 1 of 3)
  9. Postgresql数组操作符及数组函数
  10. C语言布斯乘法算法,布斯Booth算法带符号位的乘法verilog语言实现booth算法