数学基础知识:数据统计
前言
图像处理过程中不可避免涉及到很多数学知识,边学习边记录
数据统计
一、集中趋势
算术平均数:u=(x1+x2+...Xn)/n
加权平均数:u=(x1*w1+x2*w2+...Xn*wn)/(w1+w2+...+wn)
几何平均数:对各变量值的连乘积开项数次方根,通常用于连乘关系的比率
u=(x1*x2*...*xn)的开n次方根
注:
调和平均数≤几何平均数≤算术平均数≤平方平均数
1/((1/a+1/b)/2)<=sqrt(ab)<=(a+b)/2<=sqrt((a^2+b^2)/2) ,[(a>0,b>0)]
中位数:排序后,n为奇数,m=x(n/2),n为偶数,m=(x(n/2)+x(n/2+1))/2
众数:出现次数最多的值,可能零个,可能不止一个
最大值:max
最小值:min
四分位数:排序后,分别为Q1:x(n/4),Q2:x(n/2),Q3:x(n*3/4),用3个点分成4份,
排序后的最小估计值=Q1-k(Q3-Q1)
排序后的最大估计值=Q1+k(Q3-Q1)
k>1.5 中度异常值 k>3 极度异常值
四分位数的范围是Q1~Q3的范围
二、离散趋势
平均数为u,
方差:s=((x1-u)^2+(x2-u)^2+...+(xn-u)^2)/n
注:有些地方除数会用n-1,为了自由度
标准差:σ=sqrt(s)
平均差:su=(|x1-u|+|x2-u|+...+|xn-u|)/n
离散系数(也称变异系数):Cv=σ/u(标准差/平均数)
三、分布状态(单峰分布即只有一个众数)
对称分布:平均值=中位数=众数,左右尾对称,又称U分布,概率
a、68.268949%的在平均数左右的一个标准差范围内,95.449974%在平均数左右两个标准差的范围内,99.730020%在平均数左右三个标准差的范围内,99.993666%在平均数左右四个标准差的范围内。
b、函数曲线的反曲点(inflection point)为离平均数一个标准差距离的位置
c、正态分布的概率密度曲线呈钟形,因此人们又经常称之为钟形曲线,面积为1,标准差越大,曲线高度越矮,标准差越小,曲线高度越高
d、标准正态分布是指u(平均值)为零,标准差(σ)为1的正太分布
右偏分布(skewed right):正偏态
a、(左边的数据多),右尾长于左尾,,
b、平均数>中位数>众数
c、比较靠近第一分位数,远离第三分位数
左偏分布:负偏态
a、(右边的数据多),左尾长于右尾,平均数
b、平均数<中位数<众数
c、比较靠近第三分位数,远离第一分位数
偏态系数:SK= (均值一中位数)/标准差=(x-u)^3的求和/(σ*n)
注:还有这种计算
正态分布条件下,由于均值等于中位数,所以偏度系数等于0,
当偏态系数大于0时,则为正偏态;
当偏态系数小于0时,则为负偏态
偏态系数>1,严重右偏;>0.5,中度右偏
偏度度量:gi=K3/K2*sqrt(K2)
K2=((x1-u)^2+(x2-u)^2+...+(xn-u)^2)/n-1/12;
K3=n*(((x1-u)^3+(x2-u)^3+...+(xn-u)^3))/((n-1)*(n-2))
其中(-1/12)是归并矫正数,如计算过程中用组距时需要经过矫正,如果使用原始数据,则忽略
gi=0,对称,gi>0,正偏态(右偏),gi<0,负偏(左偏)
偏态分布的数据,有些可以通过变量代换变成正态分布
四、异常值
异常值:偏离大多数样本点的特殊值
判断异常值方法:箱线图法,正态分布法
箱线图:
处理方法:修改(符号相反且不符合常理,eg:正数集合里的一个负数),删除(明显不符合统计类型,eg:年龄统计中出现的颜色),替换成平均数(极大值或极小值影响的一些统计)
五、数据拟合
最小二乘法:
直线方程的最小二乘法:
Ymean=k*Xmean+b
k=((X1-Xmean)(Y1-Ymean)+(X2-Xmean)(Y2-Ymean)+...+(Xn-Xmean)(Yn-Ymean))/((X1-Xmean)^2+(X2-Xmean)^2+...+(Xn-Xmean)^2)
b=Ymean-k*Xmean
相关关系:
按关系:正相关,负相关
按形式:线性相关,非线性相关
按变量数:单相关,复相关,偏相关(两个或以上变量,只关注一个变量,其他看作常量)
按程度:完全相关,不完全相关,完全不相关
相关系数:
k=Cov(X,Y)/(sqrt(var(X)*var(Y))
Cov(X,Y)是X,Y变量的协方差,Cov(X,Y)=EXY-EX*EY
Var(X)和Var(Y)是X和Y的方差
excel中相关系数的计算(和期望值计算稍有不同)
r=((X1-Xmean)(Y1-Ymean)+(X2-Xmean)(Y2-Ymean)+...+(Xn-Xmean)(Yn-Ymean))/sqrt((X1-Xmean)^2+(X2-Xmean)^2+...+(Xn-Xmean)^2)*sqrt((Y1-Ymean)^2+(Y2-Ymean)^2+...+(Yn-Ymean)^2)
|k|=1,完全相关,k=0,完全不相关,
注:印象中有此关系,|k|<0.3,基本不相关,|k|>0.8,高度相关,0.3<|k|<0.5,低度相关,0.5<|k|<0.8中度相关,
六、数据分析
一、明确问题:明确分析数据的真实需求
二、理解数据:数据获取和数据探索,包含数据采集,数据抽样,数据认知
三、数据清洗:纠正数据文件中可识别的错误,检查数据一致性,处理无效值和缺失值,和异常值
四、统计分析和可视化:将清洗后的数据以可视化的方式展示
五、结论和建议:对结果进行解读,得出有价值的结论并给出相关建议
总结
来源各种百度及以前的笔记,有些地方感觉描述不清,例如偏态系数和偏度度量相关,但是自己忘记相关的统计学知识了,还有最小二乘法以及相应的残差计算,和百度的内容有些差异,对数学符号已经忘的差不多了,如果遇到了更标准的描述,或者理解清晰了,再更新,部分图直接来源其他作者,但是自己忘记当时从哪下载的了
数学基础知识:数据统计相关推荐
- 【知识】人工智能数学基础知识
数学是打开科学大门的钥匙.--培根 数学基础知识蕴含着处理智能问题的基本思想与方法,也是理解复杂算法的必备要素.今天的种种人工智能技术归根到底都建立在数学模型之上,要了解人工智能,首先要掌握必备的数学 ...
- 图解数据分析(3) | 数据分析的数学基础(数据科学家入门·完结)
作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/33 本文地址:https://www.showmeai.tech/article-d ...
- 图解大数据 | 应用Map-Reduce进行大数据统计@实操案例
作者:韩信子@ShowMeAI 教程地址:http://www.showmeai.tech/tutorials/84 本文地址:http://www.showmeai.tech/article-det ...
- 【本科数学基础知识整理】
[本科数学基础知识整理] 文章目录 前言 一.高等数学 二.微积分 1. 三. 六.随机变量 七.概率论 7.1 概念解释(PDF.PMF.CDF) 7.1.1 PMF:概率质量函数 7.1.2 PD ...
- 人工智能数学基础--概率与统计13:连续随机变量的标准正态分布
一.引言 在<人工智能数学基础–概率与统计12:连续随机变量的概率密度函数以及正态分布>介绍了连续随机变量概率分布及概率密度函数的概念,并介绍了连续随机变量一个重要的概率密度函数:正态分布 ...
- 论文数据统计Task1
论文数据统计Task1 数据集 具体代码实现 导入所需包 读入数据并查看数据大小 显示数据的前五行 进行数据预处理 查看所有论文的种类 特征处理 筛选数据 数据分析及可视化 心得体会 数据集 链接:数 ...
- 电商销售数据分析与预测(日期数据统计、按天统计、按月统计)
本文来自<Python数据分析从入门到精通>--明日科技编著 随着电商行业的激烈竞争,电商平台推出了各种数字营销方案,付费广告也是花样繁多.那么电商投入广告后,究竟能给企业增加多少收益,对 ...
- 用计算机和手算标准差不一致,统计基础知识与统计实务学习指导(2015版).doc
统计基础知识与统计实务学习指导(2015版) 统计基础知识与统计实务学习指导(2015版) 第一章 绪论 一.单项选择题 1.在实际应用中,统计的涵义是指( ).A.统计理论与统计实践 B.统计设计. ...
- 数据分析的重要一环之数据统计
转载:http://www.baobaoshequ.com/article/4536 不管是业绩总量,还是各学历的员工人数,都需要我们从明细数据中进行统计.计算.因此,数据统计的过程即对明细数据进行各 ...
最新文章
- JavaScript创建对象的两种方法和遍历对象的属性
- Intellij Idea使用教程汇总篇
- OpenGL之gluPerspective浅析
- 【渝粤题库】陕西师范大学700007 生态学
- 问题记录-python连接远程主机redis数据库时无法成功连接
- 命令行_Laravel-admin artisan 命令行脚本使用
- Ubuntu环境搭建零:安装Linux虚拟机
- Python学习-07-面向对象编程初级
- 谷歌大脑计划研究员Chris Olah的博客
- 台达伺服ASD-B2的调试
- opencv-python中文文档
- python音频提取pcm_python 实现录音pcm格式功能
- C# log4net App.config 配置系统未能初始化问题
- Laravel 代码开发最佳实践
- OneData指标体系
- Opencv3.0-python: 编译报错color.cpp:7456: error: (-215) scn == 3
- iFunk超极本或出新,你最想知道什么
- 解决联想电脑自带麦克风不能使用
- java什么是枚举_java中的枚举到底是什么鬼
- ARC101E - Ribbons on Tree
热门文章
- HTML+CSS+JS个人网页设计期末课程大作业 web前端开发技术 web课程设计 网页规划与设计
- ZigBee-CC2530单片机 - 实现计算机串口通讯控制LED发光二极管
- 【思想】《人生效率手册》
- python进程池multiprocessing.Pool和线程池multiprocessing.dummy.Pool实例
- git 取消合并与撤销
- 2018青岛大学计算机考研真题,2018年青岛大学数学科学学院657数学分析考研基础五套测试题...
- 力扣1823题:找出游戏获胜者(约瑟夫环)
- 折腾了一把 JAX-WS, SOA Java EE 5 (part 1 of 3)
- Postgresql数组操作符及数组函数
- C语言布斯乘法算法,布斯Booth算法带符号位的乘法verilog语言实现booth算法