1.bias:偏差,反映的是数据和真实值之间的差异,体现数据的准确度。

2.variance:方差,反映的是数据与平均值之间的变异,体现数据的精确度。

3.error的意思与bias接近。

4.std dev(standard Deviation):标准差与标准偏差
标准差公式:
公式(1)

标准偏差公式:
公式(2)

标准偏差是从样本估计中来的(卡方分布),标准偏差是标准差的无偏估计。

在实际中,公式(2)用的更多。因为当样本容量比较小的时候,公式(1)会过小的估计实际标准差;如果样本容量过大,公式(1)和公式(2)很接近。这时候公式(1)叫做渐近无偏估计,当然还是比不上公式(2)的无偏估计。

如果我们想求一批数据的标准差,那么自然就用公式(1);如果我们是利用现在的样本估计真实的分布,那就用公式(2)。

5.MSE:Mean Squared Error(均方误差)——真实值与估计值之间的偏差平方和的平均值,用来评估模型效果。

6.RMSE:Root Mean Squared Error(均方根误差)–MSE的方根

7.TSS: Total Sum of Squares(总离差平方和)——因变量的方差

8.RSS:Residual Sum of Squares(残差平方和)–由误差导致的真实值与估计值之间的偏差平方和

9.ESS:Explained Sum of Squares(回归平方和)——被模型解释的方差

10.R2:Coefficient of Determination(决定系数)——因变量方差中可由自由变量解释的比例,是模型解释力的指标

11.RSE:Residual Standard Error(残差的标准误差)——描述目标和真实回归线之间的平均偏移量,用来估计残差的标准差
n-p-1为自由度,p为特征数

12.Correlation:也就是皮尔逊相关系数——用来检测自变量X与因变量Y之间的线性关系有多强

13.四分位数极差(IQR: Interquartile range)

四分位数也称四分位点,是指在统计学中把所有数值从小到大排列并分成四等份,多用于箱线图的绘制。

第一个四分位数就是通常所说的四分位数,称为下四分位数;第二个四分位数就是中位数;第三个四分位数称为上四分位数,分别用Q1、Q2、Q3表示。

第一四分位数(Q1),又称“较小四分位数”,等于该样本中所以数值由小到大排列后第25%的数字。
第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第
50%的数字。
第三四分位数(Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第
75%的数字。

第三四分位数与第一四分位数的差距又称四分位距(四分位数极差)IQR=Q3-Q1

14.绝对平均偏差(AAD: Absolute average deviation)、中位数绝对偏差(MAD:Median absolute deviation)

数据统计又称汇总统计,用单个数或数的小集合来捕捉大的数据集的各种属性特征。通常需要中心趋势离散程度特征。

中心趋势度量包括均值(mean)、中位数(median)、众数(model)和中列数(midrange)。

数据离散程度度量包括四分位数(quartiles)、四分位数极差(Inter Quartiles Range,IQR)和方差(Variance)。

均值、方差、标准差等数字特征适用于来自正态分布的数据。如果数据的分布严重偏向某一边,或者极端值较多,这些数字特征就不适用了。在这种情况下,可以计算中位数、分位数、极差等数据特征。

均值的计算容易受到离群数据或者极端数据的影响,在计算方差时,也用到了均值,而均值容易被离群值扭曲,所以方差对离群值很敏感。事实上,方差比均值对极端数据更加敏感。因为对于每个点xi,首先要计算再平方。在平方的过程中,极端数据的影响会进一步放大。为降低极端数据的影响,更加稳健的值集散步估计方法是:AAD、MAD、IQR

(1)绝对平均偏差(AAD)
(2)中位数绝对偏差(MAD)
(3)四分位极差(IQR)

统计学、数据分析、机器学习常用数据特征汇总相关推荐

  1. 数据分析之python数据计算方法汇总(math|numpy|pandas)

    数据分析之python数据计算方法上篇(math|numpy)_Backup and share的博客-CSDN博客 本文重点介绍pandas,math和numpy参见上篇> 目录 一.简介与创 ...

  2. torch.Tensor常用数据操作汇总与自动求梯度

    在深度学习中,通常会频繁地对数据进行操作,在PyTorch中,torch.Tensor是存储和变换数据的主要工具(Tensor和NumPy的多维数组非常类似,Tensor提供GPU计算和自动求梯度等更 ...

  3. 机器学习-3.数据特征预处理与数据降维

    特征预处理定义:通过特定的统计方法(数学方法)将数据转换成算法要求的数据. 处理方法 数值型数据:标准缩放(1.归一化,2.标准化):缺失值. 类别型数据:one-hot编码. 时间类型:时间的切分. ...

  4. 干货|了解机器学习常用数据预处理

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 一.背景 在现实背景中,我们的数据集往往存在各种各样的问题,如果不 ...

  5. ML之DataScience:基于机器学习处理数据科学(DataScience)任务(数据分析、特征工程、科学预测等)的简介、流程、案例应用执行详细攻略

    ML之DataScience:基于机器学习处理数据科学(DataScience)任务(数据分析.特征工程.科学预测等)的简介.流程.案例应用执行详细攻略 目录 数据科学的任务(数据分析.特征工程.科学 ...

  6. 蓬莱小课:数据分析理论知识——统计学和机器学习

    想入门数据分析应该怎么学?新手做数据分析有哪些好用的工具?会用 Excel 但是做分析总是没思路怎么办?做数据分析有哪些方法...... 以上这些问题,相信各位想入门数据分析的小伙伴们或多或少都会遇到 ...

  7. 数据分析里常用的五个统计学概念,你知道几个?

    ↑ 关注 + 置顶 ~ 别错过小z的干货内容 来源:数据分析不是个事儿 在回答数据分析入门要具备什么样的能力的问题中,我经常提到统计学知识,统计学是一种利用数学理论来进行数据分析的技术,通过统计学我们 ...

  8. [机器学习] 数据特征 标准化和归一化

    一.标准化/归一化定义 归一化和标准化经常被搞混,程度还比较严重,非常干扰大家的理解.为了方便后续的讨论,必须先明确二者的定义. 归一化 就是将训练集中某一列数值特征(假设是第i列)的值缩放到0和1之 ...

  9. 计算机三级数据库数据仓库与数据挖掘(一)、快照方式、元数据、数据仓库中数据特征、机器学习、聚类方法、分类算法、决策支持系统、表数据的粒度级、分布式数据库、

    1.在建立数据仓库的数据集成工作中,需要采用适当的策略从数据源获取变化数据.下列数据表中,一般情况下不适宜采用快照方式从业务系统获取数据的是 A.门店表.销售人员表 B.商品清单.商品类别表 C.顾客 ...

最新文章

  1. bartender外部表不是预期格式_批量合并Excel数据时“外部表不是预期格式”或“文件包含损坏数据”的两种情况...
  2. 【Mac】解决「无法将 chromedriver 移动到 /usr/bin 目录下」问题
  3. python视频处理为卡通风格_使用python代码将照片变成卡通图片
  4. 雨林木风系统md5值_微软停止Windows系列新系统开发,珍惜你的Win10吧。。。
  5. 七、Sqoop架构,安装和基本使用
  6. 【计组实验】P3 Verilog多周期处理器开发 MIPS指令集
  7. WAP开发笔记(1)-.net移动页面中html控件不能直接显示的解决
  8. .Net大户的选择:Windows Container在携程的应用
  9. 人力资源大数据公司_大数据与人力资源相结合,平衡透明度和隐私
  10. windows修改右键菜单显示内容(非所有菜单适用)
  11. 基于QItemDelegate的例子2 trackeEditorDelegate
  12. tensorflow精进之路(二十六)——人脸识别(上)(MTCNN原理)
  13. IIS Express URL Rewrite无效
  14. 大觅网Springcloud项目实战开发(持续更新中)
  15. 漫步数理统计三十四——顺序统计量
  16. 银行排队管理系统(C++实现)
  17. 裸机服务器装系统步骤,服务器裸机安装操作系统
  18. Hi-Fi小经验(转)
  19. C++强制类型转化:reinterpret_cast
  20. java面试题对日开发_【埃森哲Java面试】面试的是对日java的后端开发-看准网

热门文章

  1. TCP/IP网络断和127.0.0.1回网IP概念
  2. java 文件下载漏洞,文件上传和下载漏洞
  3. php phpanalysis2.0,使用phpAnalysis打造PHP应用非侵入式性能分析器
  4. java的几_Java的几种时间
  5. java代码杨辉三角_用java实现杨辉三角的示例代码
  6. 设置跳转到新的actvity之后不可返回
  7. 将log4cplus.so集成到linux下报undefined reference to 错误
  8. Android开发之使用Android studio进行两个项目合并的方法
  9. linux oracle bad elf,oracle11g安装到red hat6.2 64位系统报错:/lib/ld-linux.so.2: bad ELF interpreter...
  10. 设计模式的征途—3.工厂方法(Factory Method)模式