给大家安利一款朋友开发的自研国产数据分析基础工具,一键式自动分析,自动生成分析模板,5分钟掌握主流61个统计类数学模型(几乎涵盖SPSS绝大部分功能),以及23个有监督机器学习(包括随机森林,SVM,XGBoost等)

PS:巨方便简单上手,貌似现在是免费

官网:www.mpaidata.com   mpai数据科学平台

数据的预处理又称属性值的规范化。

属性值具有多种类型,包括效益型、成本型、以及区间型等。这三种属性,效益型属性越大越好,成本型属性越小越好,区间型属性是在某个区间最佳。

在进行决策时,一般要进行属性值的规范化,主要有如下三个作用:①属性值有多种类型,上述三种属性放在同一个表中不便于直接从数值大小判断方案的优劣,因此需要对数据进行预处理,使得表中任一属性下性能约优的方案变换后的属性值越大。②非量纲化,多属性决策与评估的困难之一是属性间的不可公度性,即在属性值表中的每一列数具有不同的单位(量纲)。即使对同一属性,采用不同的计量单位,表中的数值也就不同。在用各种多属性决策方法进行分析评价时需要排除量纲的选用对决策或评估结果的影响,这就是非量纲化。③归一化,属性值表中不同指标的属性值的数值大小差别很大,为了直观,更为了便于采用各种多属性决策与评估方法进行评价,需要把属性值表中的数值归一化,即把表中数值均变换到[0,1]区间上。

此外,还可在属性规范时用非线性变换或其他办法,来解决或部分解决某些目标的达到程度与属性值之间的非线性关系,以及目标间的不完全补偿性。常用的属性规范化方法有以下几种。

(1)线性变换。原始的决策矩阵为,变换后的决策矩阵记为,设是决策矩阵第 j 列中的最大值,是决策矩阵第中的 j 最小值。若为效益型属性,则

采用上式进行属性规范化时,经过变换的最差属性值不一定为0,最优属性值为1。

若为成本型属性,则

采用上式进行属性规范化时,经过变换的最优属性值不一定为1,最差属性值为0。

(2)标准0—1变换。为了使每个属性变换后的最优值为1且最差值为0,可以进行标准0—1变换。对效益型属性,令

对成本性属性,令

(3)区间型属性的变换。有些属性既非效益性又非成本型,如师生比。显然这种属性不能采用前面介绍的两种方法处理。

设给定的最优属性 , 为无法容忍下限,为无法容忍上限,则

变换后的属性值与原属性值之间的函数图形为一般梯形。当属性值最优区间的上下限相等时,最优区间退化为一个点时,函数图形退化为三角形。

(4)向量规范化

无论成本型属性还是效益型属性,向量规范化均用下式进行变换:

它与前面介绍的几种变换不同,从变换后的属性值的大小上无法分辨属性值的优劣。它的最大特点是,规范化后,各方案的同一属性值的平方和为1,因此常用于计算各种方案与某种虚拟方案(如理想点或负理想点)的欧几里得距离的场合。

(5)标准化处理。在实际问题中,不同变量的测量单位往往是不一样的。为了消除变量的量纲效应,使每个变量都具有同等的表现力,数据分析中常对数据进行标准化处理,即

式中

数据预处理 常见的几种方法相关推荐

  1. java mysql防重复提交_防止数据重复提交的6种方法(超简单)!

    有位朋友,某天突然问磊哥:在 Java 中,防止重复提交最简单的方案是什么? 这句话中包含了两个关键信息,第一:防止重复提交:第二:最简单. 于是磊哥问他,是单机环境还是分布式环境? 得到的反馈是单机 ...

  2. [转]asp.net导出数据到Excel的三种方法

    原文出处:asp.net导出数据到Excel的几种方法(1/3) .asp.net导出数据到Excel的几种方法(2/3).asp.net导出数据到Excel的几种方法(3/3) asp.net导出到 ...

  3. getclass方法_防止数据重复提交的6种方法(超简单)!

    有位朋友,某天突然问磊哥:在 Java 中,防止重复提交最简单的方案是什么? 这句话中包含了两个关键信息,第一:防止重复提交:第二:最简单. 于是磊哥问他,是单机环境还是分布式环境? 得到的反馈是单机 ...

  4. [转]导出数据到Excel的几种方法

    [转]导出数据到Excel的几种方法 [转]C#导出到EXCEL     [原] http://community.csdn.net/Expert/topic/4570/4570895.xml?tem ...

  5. Java 遍历Map常见的五种方法

    Java 遍历Map常见的四种方法 以下这种遍历是最常见的,也是我们经常使用的,在循环中需要使用健和值时,推荐使用这种方式 Map<Integer,Integer> map=new Has ...

  6. Excel中数据汇总常用的几种方法,sumif、合并计算、数据透视表

    Excel中数据汇总常用的几种方法: 如图,我们想要求出每个人的数量是多少,可以用3种方法. 第一种: 函数sumif(),首先把名字列出来,可以用删除重复项,其次在名字的后面用=sumif()来实现 ...

  7. oracle 10046详解,ORACLE TRACE 10046事件常见的几种方法

    下面是10046事件的几个等级分别表示什么意思 Level 0 Tracing is disabled. This is the same as setting SQL_TRACE = FALSE. ...

  8. 芯片数据的差异分析主要包括三种方法 ANCOVA进行差异分析 为何不用deseq2

    Shared Gene Expression Alterations in Schizophrenia and Bipolar Disorder Expression of cilium-associ ...

  9. DataTable数据批量写入数据库三种方法比较

    DataTable数据批量写入数据库三种方法比较 标签: it 分类: C# 1)   insert循环插入: 2)   sqldataadapter.update(dataset,tablename ...

最新文章

  1. 成都Uber优步司机奖励政策(1月9日)
  2. 美多商城之商品(商品搜索)
  3. bin文件用cad打开_dwg文件怎么打开?CAD看图,360°精确识别CAD图块,细节见真章...
  4. python画星空的程序_用python画星空源代码是什么?
  5. 亚伦•斯沃茨:提升时间的品质
  6. 面试薪资这样谈,让你的月薪加倍!
  7. 天齐锂业高管减持后定增160亿 收到深交所关注函
  8. php gzip 关闭,php能否在当前脚本页关闭nginx的gzip输出
  9. django框架基础
  10. 那些年我们踩过的坑-NSTimer
  11. java高级多线程编程--关于线程的停止问题
  12. Acrobat Pro DC 教程,如何拆分PDF文件?
  13. VC++编程之字符串解惑--Unicode MBCS
  14. 题目263-精 挑 细 选
  15. 2. mirth connect探索------------ cs模式客户端登录
  16. “特困生”卷出睡眠市场,疯狂氪金能不能氪出“好故事”?
  17. 美团旅游召回系统设计
  18. php 0x80004005,错误类型:Provider (0x80004005)未指定的错误 的一个处理方法
  19. 个人资源小仓库之【工具】!
  20. 【奥特曼迪迦表情包】

热门文章

  1. mt4下载的2种方式
  2. Java 读取EXCEL表格中的数据,将数据转为SQL语句
  3. Unity Shader Graph实现模型任意方向剖切(学习笔记/五毛钱特效)
  4. 计算机网络复习总结(中)
  5. springboot项目配置(yml,pom)
  6. 维克森林大学计算机科学专业好不好,美国维克森林大学计算机科学硕士专业介绍...
  7. order by 空值排在最后_ZSBL高中组晋级赛圆满结束!汤溪中学杀出重围,顺利夺下最后一张总决赛门票!...
  8. 计算机主板 大 小,电脑主板选大的还是小的比较好?
  9. Keithley 26xxB双通道源表 FET测试软件 field-effct-transister
  10. 微信小程序开发入门与实战 ②(小程序与前端开发的区别)