接着上一篇数据处理的内容,我们今天一起来学习【数据合并、分组、标准化】:

1、数据合并(记录合并)

记录合并也叫纵向合并,是将具有共同的数据字段、结构,不同的数据表记录,合并到一个新的数据表中。

现在有两张表,一张“用户明细-男”,一张“用户明细-女”,他们拥有相同的数据字段、结构,只是记录信息不一样,为了能够进行整体的分析,我们需要将这两张表合并到一张数据表中。

  • 01 打开“用户明细-男”文件,单击【数据】菜单——将鼠标移至【合并文件】——选择【添加个案】——弹出【添加个案】第一步对话框;

  • 02 【添加个案】中——单击【浏览】按钮,浏览至存放数据的文件夹下,选择“用户明细-女”数据文件——单击【打开】返回至【添加个案】——单击【继续】按钮,弹出【添加个案】第二步对话框:


  • 03 在【添加个案】中——确认【新的活动数据集中的变量】框中的变量是否正确——单击【确定】按钮,即可完成记录合并的操作。


    注意:

如果两个数据集合并出现错误或失败,请先返回到两个数据集的【变量视图】窗口中检查:变量的数据类型、宽度、小数位数、值(标签)、列(宽度)、测量及角色这些变量属性设置是否一致,如有不一致,请将它们修改为一样的设置。

2、数据分组

数据分组:根据分析目的将数据进行等距或非等距分组,这个过程也称为数据离散化,一般用于查看分布,如消费分布、收入分布、年龄分布等。

其中用户绘制分布图X轴的分组变量,是不能改变其顺序的,一般按分组区间大小进行排列,这样才能观察研究数据的分布规律。

2.1 可视分箱-数据分组功能

Excel中我们使用Vlookup函数进行匹配功能进行数据分组操作;
在SPSS 中数据分组不通过函数操作,有专门的数据分组功能——“可视分箱”。

我们以:用户明细 数据为例了解一下用户年龄分布的特征,现需将“年龄”变量进行分布操作:

  • 01 打开用户明细,单击【转换】-选择【可视分箱】——弹出【可视分箱】第一步对话框:

  • 02 在【可视分箱】第一步对话框中,将“年龄”变量移至【要分箱的变量】框中,单击【继续】按钮,弹出【可视分箱】第二步对话框:

  • 03 在【可视分箱】第二步对话框中,在【分箱化变量】栏中输入“年龄段”——单击【生成分割点】按钮——弹出【生成分割点】对话框:


    在【第一个分割点的位置】栏中输入:20,在【分隔点数】栏中输入:4,在【宽度】栏中输入:5——单击【应用】按钮,返回【可视分箱】第二步对话框:

为什么要设置成:20、4、5呢?
根据年龄分布预览图,我们可以观察到最小值是16,最大值是78;年龄主要分布在20-35之间,我们可以把第一个分割点定位20,组距为5,这样20-35之间按组距5进行分组可以得到3个组,再加上前后2各组,就是5个组,4个分割点,分割点参数大致就是这样确定的,没有绝对的标准,只要能达到解决问题的目的即可。

  • 04 在【可视分箱】第二步对话框中,单击【生成标签】按钮——将生成对应的区间范围标签——单击【确定】按钮,即可得到“年龄段”变量。

我们这个例子进行的是等距分组,那么,如果是不等距分组,该如何操作呢?
如果需要进行不等距分组,则可以在【可视分箱】第二步对话框下方的【网格】中,直接填入自定义的分割点,例如分别填入:20、25、35,第四个“高”会自动生成,然后单击【生成标签】按钮,就可以生成对应的区间范围标签了:


2.2 重新编码

对于不等距分组的操作,我们可以采用另外一种方法:重新编码为不同变量。

重新编码可以把一个变量的数值按照指定要求赋予新的数值,也可以把连续变量重新编码成离散变量。

例如:把年龄重新编码为年龄段。

-01 打开用户明细数据文件——单击【转换】菜单——选择【重新编码为不同变量】——弹出【重新编码为不同变量】对话框:


在【重新编码为不同变量】对话框中——将年龄移至【输入变量->输出变量】框中,在右边的【输出变量】的【名称】栏中输入“年龄段3”:

单击【旧值和新值】按钮——弹出【重新编码为不同变量:旧值和新值】对话框:

在【重新编码为不同变量:旧值和新值】对话框中,在左边【旧值】框中选择【范围】项——分别依次输入每个分组的范围临界值——同时需要在右边【新值】框的【值】栏中输入对应的新值——并且单击【添加】按钮——将旧值和新值对应关系加入【旧->新】框中——对应关系输入完毕后,如图:
单击【继续】按钮——返回【重新编码为不同变量】对话框:

单击【变化量】按钮——使刚才输入的对应关系生效——单击【确定】——完成“年龄段3”变量操作。


数据标准化,是将数据按比例缩放,使之落到一个特定区间。
数据标准化是为了消除量纲(单位)的影响,方便进行比较分析。
常用到的数据标准化方法有:0-1标准化、Z标准化。

3.1 0-1标准化

0-1标准化也称为离散标准化是对原始数据进行线性变换,是结果落到【0,1】区间。
0-1标准化还有个好处,就是很方便的做到十分制、百分制的换算,只需乘上10或100即可,其他分制同理:

计算公式:
x* = x-min / max-min
注:max是变量的最大值,min为变量的最小值。

例如:我们根据用户明细数据为例进行介绍,对用户的年龄进行
0-1标准化计算处理,得到一个“标准化值”变量。

  • 01 打开用户明细数据文件——单击【转换】菜单——选择【计算变量】——弹出【计算变量】对话框:
  • 02 在【计算变量】对话框中——在【数字表达式】框中输入公式“(年龄-16)/ (78-16)”——完成公式的编写:
  • 03 在【目标变量】框中,输入变量名称“标准化值”——在【类型与标签】功能中设置类型为“数值”——单击【确定】按钮——返回【计算变量】对话框——单击【确定】按钮——新增一个“标准化值”:


    如果没有之前的数据分组可视化操作,那么这个最大值、最小值如何得到?
    答:这个可以 通过“描述”、“探索”等分析功能得到的。

3.2 Z标准化

Z标准化:也称为标准差标准化,它是将变量中的观察值(原数据)减去该变量的平均值,然后除以该变量的标准差。经过处理的数据符合标准正态分布,即均值为0,标准差为1,也是SPSS中最常用的标准化方法。

计算公式:

X*= x-μ / σ
注:μ为变量的均值,σ为变量的标准差。

我们对用户的年龄进行Z标准化计算处理,SPSS提供了一个可以直接得到Z标准化的功能,我们无须使用【计算变量】对话框手工输入公式进行计算。

  • 01 打开用户明细数据文件——单击【分析】菜单——将鼠标移至【描述统计】——选择【描述】——弹出【描述】对话框:

  • 02 在【描述】对话框——将“年龄”变量移至【变量】框中——勾选【将标准化值另存为变量】复选框——单击【确定】——就可以在原数据中“出生年月”变量后面新增一个名为:Z年龄 的变量。

常用的数据处理方法与技巧主要是这些,只要掌握它们的原理,并且能够做到灵活组合运用到实际工作中去就好了。

利用SPSS做数据分析②之数据处理2相关推荐

  1. python 数据分析学什么-利用Python做数据分析 需要学习哪些知识

    根据调查结果,十大最常用的数据工具中有八个来自或利用Python.Python广泛应用于所有数据科学领域,包括数据分析.机器学习.深度学习和数据可视化.不过你知道如何利用Python做数据分析吗?需要 ...

  2. java爬取网页数据_利用Python做数据分析—对前程无忧数据类岗位进行分析

    引言 随着时代的发展,我国在各行各业都需要大量的人才引进,处于近几年最热门的行业也称"最火行业":大数据.数据分析.数据挖掘.机器学习.人工智能,这五门行业各有不同又互有穿插.近几 ...

  3. spss相关性分析看结果_利用spss做Pearson相关性分析步骤详解

    有蛮多的学生私信老徐问如何利用spss做相关性分析,其实相关性分析应该是spss分析中较为基础的一个功能应用,很多学生可能是因为跨专业或者对统计软件了解较少,在没有经过系统学习的前提下,感觉云里雾里. ...

  4. 用Python做数据分析之数据处理及数据提取

    1.数据预处理 第四部分是数据的预处理,对清洗完的数据进行整理以便后期的统计和分析工作.主要包括数据表的合并,排序,数值分列,数据分组及标记等工作. 1)数据表合并 首先是对不同的数据表进行合并,我们 ...

  5. Python 利用 pyecharts 做数据分析绘图

    柱状图 from pyecharts import Bar bar = Bar("柱状图") bar.add("服装", ["衬衫", &q ...

  6. 如何利用Smartbi做数据分析:2018内5月热销乘用车分析报告

    在2018年第一季度热销乘用车分析报告中,SUV以总体销量15.4%的同比增长率让人不可小觑,Smartbi刚得到5月分析的数据就迫不及待的来看看是否热度不减,结果在5月这个所谓汽车销售淡季,轿车以9 ...

  7. 四大会计师事务所python数据分析_利用python做数据分析(四)

    参考链接:http://pandas.pydata.org/pandas-docs/stable/merging.html merge 用于通过一个或多个键将两个数据集的行连接起来,类似于 SQL 中 ...

  8. 利用python进行数据分析 英文-如何学习和评价《利用python进行数据分析》这本书?...

    作为用Python做数据分析的必读书籍之一,这本书的开篇有向读者说明,这本书关注的是利用Python操作.处理.清洗和操作数据时的基本要点.目标是提供一份Python编程语言以及Python面向数据的 ...

  9. python数据分析-如何学习和评价《利用python进行数据分析》这本书?

    作为用Python做数据分析的必读书籍之一,这本书的开篇有向读者说明,这本书关注的是利用Python操作.处理.清洗和操作数据时的基本要点.目标是提供一份Python编程语言以及Python面向数据的 ...

最新文章

  1. 腾讯2016春季实习生(技术运营岗)招聘电话面试题汇集。
  2. python计算每月工资-Python实现扣除个人税后的工资计算器示例
  3. apache httpclient4 设置超时时间
  4. IT人的自我导向型学习:学习的4个层次
  5. 实现链栈的各种基本运算的算法_LeetCode基础算法题第78篇:如何不用加减号实现两数的加法运算?...
  6. 要不要选 qt tool_小户型儿童房要不要做高低床?优劣都告诉你,自己选
  7. fedora下安装python
  8. 找工作,首先找的是老板和主管
  9. 香港科技大学工学院理学硕士环境工程学及管理(MSc EVEM)2022Fall宣讲会(线上)
  10. [HAOI2009]毛毛虫(树形dp)
  11. STM32 芯片锁死无法烧录问题解决
  12. laravel8的 Migration、Factory、Seeder
  13. html画布动画,画布动画(Canvas Animation)
  14. htc升级鸿蒙,HTC手机卡刷教程,固件升级教程
  15. AlignedReID
  16. Android CPU 深度睡眠,处理器的深度和深度睡眠状态之间的差异
  17. Docker基本操作五 (挂载数据卷)
  18. 杭州河坊街特色手机饰品——招财猫!
  19. 计算机无法在安全模式下完成安装,最近我的电脑安装不了软件,总提示说Windows在安全模式下运行? 爱问知识人...
  20. 数一英一408,超高分数线392分!上海交大计算机学硕

热门文章

  1. html去除表格间距,HTML两个表格间距怎么调整
  2. jmeter(二十):Logic Controller:逻辑控制器(上)
  3. 浅谈压缩感知(十三):压缩感知与传统压缩
  4. JQuery对元素拖拽排序,元素拖拽,JQuery拖拽
  5. 手摸手带你学移动端WEB开发
  6. UOS 22.0家庭版使用体验
  7. 【Java】Java安装与配置指南
  8. 论文笔记:m6Acorr: an online tool for the correction and comparison of m6A methylation profiles
  9. moment.js多语言列表
  10. File和path的用法