统计学、数据分析、机器学习常用数据特征汇总
1.bias:偏差,反映的是数据和真实值之间的差异,体现数据的准确度。
2.variance:方差,反映的是数据与平均值之间的变异,体现数据的精确度。
3.error的意思与bias接近。
4.std dev(standard Deviation):标准差与标准偏差
标准差公式:
公式(1)
标准偏差公式:
公式(2)
标准偏差是从样本估计中来的(卡方分布),标准偏差是标准差的无偏估计。
在实际中,公式(2)用的更多。因为当样本容量比较小的时候,公式(1)会过小的估计实际标准差;如果样本容量过大,公式(1)和公式(2)很接近。这时候公式(1)叫做渐近无偏估计,当然还是比不上公式(2)的无偏估计。
如果我们想求一批数据的标准差,那么自然就用公式(1);如果我们是利用现在的样本估计真实的分布,那就用公式(2)。
5.MSE:Mean Squared Error(均方误差)——真实值与估计值之间的偏差平方和的平均值,用来评估模型效果。
6.RMSE:Root Mean Squared Error(均方根误差)–MSE的方根。
7.TSS: Total Sum of Squares(总离差平方和)——因变量的方差。
8.RSS:Residual Sum of Squares(残差平方和)–由误差导致的真实值与估计值之间的偏差平方和。
9.ESS:Explained Sum of Squares(回归平方和)——被模型解释的方差。
10.R2:Coefficient of Determination(决定系数)——因变量方差中可由自由变量解释的比例,是模型解释力的指标。
11.RSE:Residual Standard Error(残差的标准误差)——描述目标和真实回归线之间的平均偏移量,用来估计残差的标准差。
n-p-1为自由度,p为特征数
12.Correlation:也就是皮尔逊相关系数——用来检测自变量X与因变量Y之间的线性关系有多强。
13.四分位数极差(IQR: Interquartile range)
四分位数也称四分位点,是指在统计学中把所有数值从小到大排列并分成四等份,多用于箱线图的绘制。
第一个四分位数就是通常所说的四分位数,称为下四分位数;第二个四分位数就是中位数;第三个四分位数称为上四分位数,分别用Q1、Q2、Q3表示。
第一四分位数(Q1),又称“较小四分位数”,等于该样本中所以数值由小到大排列后第25%的数字。
第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
第三四分位数(Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距(四分位数极差)IQR=Q3-Q1
14.绝对平均偏差(AAD: Absolute average deviation)、中位数绝对偏差(MAD:Median absolute deviation)
数据统计又称汇总统计,用单个数或数的小集合来捕捉大的数据集的各种属性特征。通常需要中心趋势和离散程度特征。
中心趋势度量包括均值(mean)、中位数(median)、众数(model)和中列数(midrange)。
数据离散程度度量包括四分位数(quartiles)、四分位数极差(Inter Quartiles Range,IQR)和方差(Variance)。
均值、方差、标准差等数字特征适用于来自正态分布的数据。如果数据的分布严重偏向某一边,或者极端值较多,这些数字特征就不适用了。在这种情况下,可以计算中位数、分位数、极差等数据特征。
均值的计算容易受到离群数据或者极端数据的影响,在计算方差时,也用到了均值,而均值容易被离群值扭曲,所以方差对离群值很敏感。事实上,方差比均值对极端数据更加敏感。因为对于每个点xi,首先要计算再平方。在平方的过程中,极端数据的影响会进一步放大。为降低极端数据的影响,更加稳健的值集散步估计方法是:AAD、MAD、IQR。
(1)绝对平均偏差(AAD)
(2)中位数绝对偏差(MAD)
(3)四分位极差(IQR)
统计学、数据分析、机器学习常用数据特征汇总相关推荐
- 数据分析之python数据计算方法汇总(math|numpy|pandas)
数据分析之python数据计算方法上篇(math|numpy)_Backup and share的博客-CSDN博客 本文重点介绍pandas,math和numpy参见上篇> 目录 一.简介与创 ...
- torch.Tensor常用数据操作汇总与自动求梯度
在深度学习中,通常会频繁地对数据进行操作,在PyTorch中,torch.Tensor是存储和变换数据的主要工具(Tensor和NumPy的多维数组非常类似,Tensor提供GPU计算和自动求梯度等更 ...
- 机器学习-3.数据特征预处理与数据降维
特征预处理定义:通过特定的统计方法(数学方法)将数据转换成算法要求的数据. 处理方法 数值型数据:标准缩放(1.归一化,2.标准化):缺失值. 类别型数据:one-hot编码. 时间类型:时间的切分. ...
- 干货|了解机器学习常用数据预处理
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 一.背景 在现实背景中,我们的数据集往往存在各种各样的问题,如果不 ...
- ML之DataScience:基于机器学习处理数据科学(DataScience)任务(数据分析、特征工程、科学预测等)的简介、流程、案例应用执行详细攻略
ML之DataScience:基于机器学习处理数据科学(DataScience)任务(数据分析.特征工程.科学预测等)的简介.流程.案例应用执行详细攻略 目录 数据科学的任务(数据分析.特征工程.科学 ...
- 蓬莱小课:数据分析理论知识——统计学和机器学习
想入门数据分析应该怎么学?新手做数据分析有哪些好用的工具?会用 Excel 但是做分析总是没思路怎么办?做数据分析有哪些方法...... 以上这些问题,相信各位想入门数据分析的小伙伴们或多或少都会遇到 ...
- 数据分析里常用的五个统计学概念,你知道几个?
↑ 关注 + 置顶 ~ 别错过小z的干货内容 来源:数据分析不是个事儿 在回答数据分析入门要具备什么样的能力的问题中,我经常提到统计学知识,统计学是一种利用数学理论来进行数据分析的技术,通过统计学我们 ...
- [机器学习] 数据特征 标准化和归一化
一.标准化/归一化定义 归一化和标准化经常被搞混,程度还比较严重,非常干扰大家的理解.为了方便后续的讨论,必须先明确二者的定义. 归一化 就是将训练集中某一列数值特征(假设是第i列)的值缩放到0和1之 ...
- 计算机三级数据库数据仓库与数据挖掘(一)、快照方式、元数据、数据仓库中数据特征、机器学习、聚类方法、分类算法、决策支持系统、表数据的粒度级、分布式数据库、
1.在建立数据仓库的数据集成工作中,需要采用适当的策略从数据源获取变化数据.下列数据表中,一般情况下不适宜采用快照方式从业务系统获取数据的是 A.门店表.销售人员表 B.商品清单.商品类别表 C.顾客 ...
最新文章
- bartender外部表不是预期格式_批量合并Excel数据时“外部表不是预期格式”或“文件包含损坏数据”的两种情况...
- 【Mac】解决「无法将 chromedriver 移动到 /usr/bin 目录下」问题
- python视频处理为卡通风格_使用python代码将照片变成卡通图片
- 雨林木风系统md5值_微软停止Windows系列新系统开发,珍惜你的Win10吧。。。
- 七、Sqoop架构,安装和基本使用
- 【计组实验】P3 Verilog多周期处理器开发 MIPS指令集
- WAP开发笔记(1)-.net移动页面中html控件不能直接显示的解决
- .Net大户的选择:Windows Container在携程的应用
- 人力资源大数据公司_大数据与人力资源相结合,平衡透明度和隐私
- windows修改右键菜单显示内容(非所有菜单适用)
- 基于QItemDelegate的例子2 trackeEditorDelegate
- tensorflow精进之路(二十六)——人脸识别(上)(MTCNN原理)
- IIS Express URL Rewrite无效
- 大觅网Springcloud项目实战开发(持续更新中)
- 漫步数理统计三十四——顺序统计量
- 银行排队管理系统(C++实现)
- 裸机服务器装系统步骤,服务器裸机安装操作系统
- Hi-Fi小经验(转)
- C++强制类型转化:reinterpret_cast
- java面试题对日开发_【埃森哲Java面试】面试的是对日java的后端开发-看准网
热门文章
- TCP/IP网络断和127.0.0.1回网IP概念
- java 文件下载漏洞,文件上传和下载漏洞
- php phpanalysis2.0,使用phpAnalysis打造PHP应用非侵入式性能分析器
- java的几_Java的几种时间
- java代码杨辉三角_用java实现杨辉三角的示例代码
- 设置跳转到新的actvity之后不可返回
- 将log4cplus.so集成到linux下报undefined reference to 错误
- Android开发之使用Android studio进行两个项目合并的方法
- linux oracle bad elf,oracle11g安装到red hat6.2 64位系统报错:/lib/ld-linux.so.2: bad ELF interpreter...
- 设计模式的征途—3.工厂方法(Factory Method)模式