几种常见的数据标准化的方法总结
一、标准化
在进行数据分析时,数据具有单位是非常常见的,比如说GDP可以以亿作为单元,也可以以百万作为单位,那么此时就会出现由于单位问题导致的数字大小问题;这种情况对于分析可能产生影响,因此需要对其进行处理,但是处理的前提是不能失去数字的相对意义,即之前数字越大代表GDP越高,处理后的数据也不能失去这个特性。
也或者计算距离,数字1和2的距离可以直接相减得到距离值为1; 另外一组数据为10000和20000,两个数字直接相减得到距离值为10000。如果说距离数字越大代表距离越远,那么明显的10000大于1,但这种情况仅仅是由于数据单位导致的,而并非实际希望如何。类似这些情况要进行数据分析之前,有时候需要先将数据标准化,数据的标准化就是通过一定的数学变换方式,对原始数据进行一定的转换,使原始数据转换为无量纲化指标测评值,即各指标值都处于同一个数量级别上,这样可以进行综合分析和比较。
二、几种数据标准化的方法
(1)标准化
标准化是一种最为常见的量纲化处理方式。其计算公式为:
此种处理方式会让数据呈现出一种特征,即数据的平均值一定为0,标准差一定是1。针对数据进行了压缩大小处理,同时还让数据具有特殊特征(平均值为0标准差为1)。
在很多研究算法中均有使用此种处理,比如聚类分析前一般需要进行标准化处理,也或者因子分析时默认会对数据标准化处理。
比如聚类分析时,其内部算法原理在于距离大小来衡量数据间的聚集关系,因此默认SPSSAU会选中进行标准化处理。
除此之外,还有一些特殊的研究方法,比如社会学类进行中介作用,或者调节作用研究时,也可能会对数据进行标准化处理。
(2) 归一化
归一化的目的是让数据压缩在【0,1】范围内,包括两个边界数字0和数字1;其计算公式为:
当某数据刚好为最小值时,则归一化后为0;如果数据刚好为最大值时,则归一化后为1。
归一化也是一种常见的量纲处理方式,可以让所有的数据均压缩在【0,1】范围内,让数据之间的数理单位保持一致。
(3)中心化
中心化这种量纲处理方式可能在社会科学类研究中使用较多,比如进行中介作用,或者调节作用研究。其计算公式为:x-μ。
此种处理方式会让数据呈现出一种特征,即数据的平均值一定为0。针对数据进行了压缩大小处理,同时还让数据具有特殊特征(平均值为0)。
平均值为0是一种特殊情况,比如在社会学研究中就偏好此种量纲处理方式,调节作用研究时可能会进行简单斜率分析,那么平均值为0表示中间状态,平均值加上一个标准差表示高水平状态;也或者平均值减一个标准差表示低水平状态。
三、使用SPSSAU进行标准化操作
以上提到的几种数据标准化处理的方法,在SPSSAU中的【数据处理】->【生成变量】都有提供,如图所示:
不同的数据标准化的操作过程都是一样的,以下以最常用的Z标准化来说明如何对数据进行标准化。
(1)案例数据
下图是部分案例数据,希望对X变量和Y变量的数据进行标准化处理。
(2)上传数据到SPSSAU
(3)标准化处理步骤
1、选中SPSSAU【数据处理】-【生成变量】
2、右侧选项卡选择标准化(S)
选中想要进行标准化的数据:
点击【确认处理】,SPSSAU会生成新的进行标准化处理后的两个变量,而非原始数据基础上修改。
这样就完成了对数据的标准化处理,得出标准化的数据后,就可以进行后续的分析了。
在实际研究时具体应该使用那一种处理方式,其实并没有固定的要求,而是结合实际情况或者实际研究进行。比如社会学类的中介作用和调节作用偏好于使用中心化或标准化这种处理方式;聚类分析或者因子分析等使用默认会使用标准化。
如果单独的就是想对数据量纲进行处理(且没有分析方法上的常用习惯),那么通常默认是使用标准化或者归一化最多,标准化直接把数据压缩且数据有一种特质即平均值为0标准差为1的特质;归一化把数据压缩在【0,1】之间。也或者使用中心化让数据有一种特质即平均值为0。
几种常见的数据标准化的方法总结相关推荐
- 论文《一种金融市场预测的深度学习模型: FEPA》(4)----金融市场预测的架构--常见的数据降为方法
金融市场预测的基本的步骤: (1)获得交易数据 (2)交易价格数据特征提取 (3)输入预测模型进行 训练 (4)预测量输出 思考: 基本都是这样的架构啊 常见的数据降为方法: (1)LPP Loca ...
- 服务器维护简单的备份方案,几种常见的数据备份方案分享
原标题:几种常见的数据备份方案分享 常见的数据备份系统主要有Host-Base.LAN-Base和基于SAN结构的LAN-Free.Server-Free等多种结构. Host-Based备份方式: ...
- 几种常见的数据分区方法
参考文章:几种常见的数据分区方法 数据分区方法 数据的分区方法(Partitioning methods)大概有以下几种: 垂直分区(Vertical partitioning) 水平分区(Horiz ...
- 几种常见网页自动跳转方法
种常见网页自动跳转方法对SEO的影响 网页自动跳转,是指当用户访问某个网页时,被自动跳转到另一个网页中去.网页自动跳转的主要作用 是,当域名变更后,或者网站里的一个或多个网页被删除后,可以使用这种方式 ...
- Python之pandas:pandas中常见的数据类型转换四大方法以及遇到的一些坑之详细攻略
Python之pandas:pandas中常见的数据类型转换四大方法以及遇到的一些坑之详细攻略 目录 pandas中常见的数据类型转换方法 T1.读取时直接转换数据类型 T2.采用astype
- 最大最小标准化 数值_分享丨实验数据标准化处理方法
能力验证上报数据(n个数据)通过什么方法处理后进行的判定?这些问题都涉及数据标准化. 在数据分析之前,通常需要先将数据标准化,利用标准化后的数据进行数据分析.数据标准化也就是统计数据的指数化. 为什么 ...
- java布尔类型比较器_浅谈Java中几种常见的比较器的实现方法
在java中经常会涉及到对象数组的排序问题,那么就涉及到对象之间的比较问题. 通常对象之间的比较可以从两个方面去看: 第一个方面:对象的地址是否一样,也就是是否引用自同一个对象.这种方式可以直接使用& ...
- 数据标准化的方法与作用
在数据分析之前,我们通常需要先将数据标准化(normalization),利用标准化后的数据进行数据分析.数据标准化也就是统计数据的指数化.数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面. ...
- 几种常见的字符串倒序的方法。
对比介绍几种常见的字符串倒序的方法. 通过切片进行倒序 列表的reverse()方法 1. 通过切片进行倒序 假设 s 是原始的字符串变量,则通过切片进行倒序的方法是 s=s[::-1] 2.通过列表 ...
最新文章
- QShell下的进程和ILE中的Job
- PID算法搞不懂?看这篇文章。
- linux挂载fc存储有超级坏块_Nand Flash基础知识与坏块管理机制的研究
- 软件设计师习题笔记-重点习题三
- c语言中的-代表什么意思
- LSB最低有效位算法实现
- thinkpad键盘功能键驱动_韩度X-104机械键盘拆解评测 - 性价之选
- 华硕主板升级更新BIOS版本
- c语言中平分怎么表示,平分水问题
- mysql关联查询语句
- 黑客帝国中比较酷炫的代码雨的实现
- 几种基本汇编指令详解
- 安装jdk在linux(2)
- python课本图片_python爬虫当当网python书籍图片
- 邮箱大师qq邮箱服务器设置,如何解决邮箱大师登陆不了qq邮箱的问题
- HBase的安装和使用
- Hbase Region的切分与合并【原理分析】
- 旅游评论情感分析(2)---前期调查总结
- 梅西自强成“霉球”,阿根廷“可能”折在半路,今年的世界杯……
- Vue3使用Swiper