利用SPSS做数据分析②之数据处理2
接着上一篇数据处理的内容,我们今天一起来学习【数据合并、分组、标准化】:
1、数据合并(记录合并)
记录合并也叫纵向合并,是将具有共同的数据字段、结构,不同的数据表记录,合并到一个新的数据表中。
现在有两张表,一张“用户明细-男”,一张“用户明细-女”,他们拥有相同的数据字段、结构,只是记录信息不一样,为了能够进行整体的分析,我们需要将这两张表合并到一张数据表中。
- 01 打开“用户明细-男”文件,单击【数据】菜单——将鼠标移至【合并文件】——选择【添加个案】——弹出【添加个案】第一步对话框;
- 02 【添加个案】中——单击【浏览】按钮,浏览至存放数据的文件夹下,选择“用户明细-女”数据文件——单击【打开】返回至【添加个案】——单击【继续】按钮,弹出【添加个案】第二步对话框:
- 03 在【添加个案】中——确认【新的活动数据集中的变量】框中的变量是否正确——单击【确定】按钮,即可完成记录合并的操作。
注意:
如果两个数据集合并出现错误或失败,请先返回到两个数据集的【变量视图】窗口中检查:变量的数据类型、宽度、小数位数、值(标签)、列(宽度)、测量及角色这些变量属性设置是否一致,如有不一致,请将它们修改为一样的设置。
2、数据分组
数据分组:根据分析目的将数据进行等距或非等距分组,这个过程也称为数据离散化,一般用于查看分布,如消费分布、收入分布、年龄分布等。
其中用户绘制分布图X轴的分组变量,是不能改变其顺序的,一般按分组区间大小进行排列,这样才能观察研究数据的分布规律。
2.1 可视分箱-数据分组功能
Excel中我们使用Vlookup函数进行匹配功能进行数据分组操作;
在SPSS 中数据分组不通过函数操作,有专门的数据分组功能——“可视分箱”。
我们以:用户明细 数据为例了解一下用户年龄分布的特征,现需将“年龄”变量进行分布操作:
- 01 打开用户明细,单击【转换】-选择【可视分箱】——弹出【可视分箱】第一步对话框:
- 02 在【可视分箱】第一步对话框中,将“年龄”变量移至【要分箱的变量】框中,单击【继续】按钮,弹出【可视分箱】第二步对话框:
- 03 在【可视分箱】第二步对话框中,在【分箱化变量】栏中输入“年龄段”——单击【生成分割点】按钮——弹出【生成分割点】对话框:
在【第一个分割点的位置】栏中输入:20,在【分隔点数】栏中输入:4,在【宽度】栏中输入:5——单击【应用】按钮,返回【可视分箱】第二步对话框:
为什么要设置成:20、4、5呢?
根据年龄分布预览图,我们可以观察到最小值是16,最大值是78;年龄主要分布在20-35之间,我们可以把第一个分割点定位20,组距为5,这样20-35之间按组距5进行分组可以得到3个组,再加上前后2各组,就是5个组,4个分割点,分割点参数大致就是这样确定的,没有绝对的标准,只要能达到解决问题的目的即可。
- 04 在【可视分箱】第二步对话框中,单击【生成标签】按钮——将生成对应的区间范围标签——单击【确定】按钮,即可得到“年龄段”变量。
我们这个例子进行的是等距分组,那么,如果是不等距分组,该如何操作呢?
如果需要进行不等距分组,则可以在【可视分箱】第二步对话框下方的【网格】中,直接填入自定义的分割点,例如分别填入:20、25、35,第四个“高”会自动生成,然后单击【生成标签】按钮,就可以生成对应的区间范围标签了:
2.2 重新编码
对于不等距分组的操作,我们可以采用另外一种方法:重新编码为不同变量。
重新编码可以把一个变量的数值按照指定要求赋予新的数值,也可以把连续变量重新编码成离散变量。
例如:把年龄重新编码为年龄段。
-01 打开用户明细数据文件——单击【转换】菜单——选择【重新编码为不同变量】——弹出【重新编码为不同变量】对话框:
在【重新编码为不同变量】对话框中——将年龄移至【输入变量->输出变量】框中,在右边的【输出变量】的【名称】栏中输入“年龄段3”:
单击【旧值和新值】按钮——弹出【重新编码为不同变量:旧值和新值】对话框:
在【重新编码为不同变量:旧值和新值】对话框中,在左边【旧值】框中选择【范围】项——分别依次输入每个分组的范围临界值——同时需要在右边【新值】框的【值】栏中输入对应的新值——并且单击【添加】按钮——将旧值和新值对应关系加入【旧->新】框中——对应关系输入完毕后,如图:
单击【继续】按钮——返回【重新编码为不同变量】对话框:
单击【变化量】按钮——使刚才输入的对应关系生效——单击【确定】——完成“年龄段3”变量操作。
数据标准化,是将数据按比例缩放,使之落到一个特定区间。
数据标准化是为了消除量纲(单位)的影响,方便进行比较分析。
常用到的数据标准化方法有:0-1标准化、Z标准化。
3.1 0-1标准化
0-1标准化也称为离散标准化,是对原始数据进行线性变换,是结果落到【0,1】区间。
0-1标准化还有个好处,就是很方便的做到十分制、百分制的换算,只需乘上10或100即可,其他分制同理:
计算公式:
x* = x-min / max-min
注:max是变量的最大值,min为变量的最小值。
例如:我们根据用户明细数据为例进行介绍,对用户的年龄进行
0-1标准化计算处理,得到一个“标准化值”变量。
- 01 打开用户明细数据文件——单击【转换】菜单——选择【计算变量】——弹出【计算变量】对话框:
- 02 在【计算变量】对话框中——在【数字表达式】框中输入公式“(年龄-16)/ (78-16)”——完成公式的编写:
- 03 在【目标变量】框中,输入变量名称“标准化值”——在【类型与标签】功能中设置类型为“数值”——单击【确定】按钮——返回【计算变量】对话框——单击【确定】按钮——新增一个“标准化值”:
如果没有之前的数据分组可视化操作,那么这个最大值、最小值如何得到?
答:这个可以 通过“描述”、“探索”等分析功能得到的。
3.2 Z标准化
Z标准化:也称为标准差标准化,它是将变量中的观察值(原数据)减去该变量的平均值,然后除以该变量的标准差。经过处理的数据符合标准正态分布,即均值为0,标准差为1,也是SPSS中最常用的标准化方法。
计算公式:
X*= x-μ / σ
注:μ为变量的均值,σ为变量的标准差。
我们对用户的年龄进行Z标准化计算处理,SPSS提供了一个可以直接得到Z标准化的功能,我们无须使用【计算变量】对话框手工输入公式进行计算。
- 01 打开用户明细数据文件——单击【分析】菜单——将鼠标移至【描述统计】——选择【描述】——弹出【描述】对话框:
- 02 在【描述】对话框——将“年龄”变量移至【变量】框中——勾选【将标准化值另存为变量】复选框——单击【确定】——就可以在原数据中“出生年月”变量后面新增一个名为:Z年龄 的变量。
常用的数据处理方法与技巧主要是这些,只要掌握它们的原理,并且能够做到灵活组合运用到实际工作中去就好了。
利用SPSS做数据分析②之数据处理2相关推荐
- python 数据分析学什么-利用Python做数据分析 需要学习哪些知识
根据调查结果,十大最常用的数据工具中有八个来自或利用Python.Python广泛应用于所有数据科学领域,包括数据分析.机器学习.深度学习和数据可视化.不过你知道如何利用Python做数据分析吗?需要 ...
- java爬取网页数据_利用Python做数据分析—对前程无忧数据类岗位进行分析
引言 随着时代的发展,我国在各行各业都需要大量的人才引进,处于近几年最热门的行业也称"最火行业":大数据.数据分析.数据挖掘.机器学习.人工智能,这五门行业各有不同又互有穿插.近几 ...
- spss相关性分析看结果_利用spss做Pearson相关性分析步骤详解
有蛮多的学生私信老徐问如何利用spss做相关性分析,其实相关性分析应该是spss分析中较为基础的一个功能应用,很多学生可能是因为跨专业或者对统计软件了解较少,在没有经过系统学习的前提下,感觉云里雾里. ...
- 用Python做数据分析之数据处理及数据提取
1.数据预处理 第四部分是数据的预处理,对清洗完的数据进行整理以便后期的统计和分析工作.主要包括数据表的合并,排序,数值分列,数据分组及标记等工作. 1)数据表合并 首先是对不同的数据表进行合并,我们 ...
- Python 利用 pyecharts 做数据分析绘图
柱状图 from pyecharts import Bar bar = Bar("柱状图") bar.add("服装", ["衬衫", &q ...
- 如何利用Smartbi做数据分析:2018内5月热销乘用车分析报告
在2018年第一季度热销乘用车分析报告中,SUV以总体销量15.4%的同比增长率让人不可小觑,Smartbi刚得到5月分析的数据就迫不及待的来看看是否热度不减,结果在5月这个所谓汽车销售淡季,轿车以9 ...
- 四大会计师事务所python数据分析_利用python做数据分析(四)
参考链接:http://pandas.pydata.org/pandas-docs/stable/merging.html merge 用于通过一个或多个键将两个数据集的行连接起来,类似于 SQL 中 ...
- 利用python进行数据分析 英文-如何学习和评价《利用python进行数据分析》这本书?...
作为用Python做数据分析的必读书籍之一,这本书的开篇有向读者说明,这本书关注的是利用Python操作.处理.清洗和操作数据时的基本要点.目标是提供一份Python编程语言以及Python面向数据的 ...
- python数据分析-如何学习和评价《利用python进行数据分析》这本书?
作为用Python做数据分析的必读书籍之一,这本书的开篇有向读者说明,这本书关注的是利用Python操作.处理.清洗和操作数据时的基本要点.目标是提供一份Python编程语言以及Python面向数据的 ...
最新文章
- 腾讯2016春季实习生(技术运营岗)招聘电话面试题汇集。
- python计算每月工资-Python实现扣除个人税后的工资计算器示例
- apache httpclient4 设置超时时间
- IT人的自我导向型学习:学习的4个层次
- 实现链栈的各种基本运算的算法_LeetCode基础算法题第78篇:如何不用加减号实现两数的加法运算?...
- 要不要选 qt tool_小户型儿童房要不要做高低床?优劣都告诉你,自己选
- fedora下安装python
- 找工作,首先找的是老板和主管
- 香港科技大学工学院理学硕士环境工程学及管理(MSc EVEM)2022Fall宣讲会(线上)
- [HAOI2009]毛毛虫(树形dp)
- STM32 芯片锁死无法烧录问题解决
- laravel8的 Migration、Factory、Seeder
- html画布动画,画布动画(Canvas Animation)
- htc升级鸿蒙,HTC手机卡刷教程,固件升级教程
- AlignedReID
- Android CPU 深度睡眠,处理器的深度和深度睡眠状态之间的差异
- Docker基本操作五 (挂载数据卷)
- 杭州河坊街特色手机饰品——招财猫!
- 计算机无法在安全模式下完成安装,最近我的电脑安装不了软件,总提示说Windows在安全模式下运行? 爱问知识人...
- 数一英一408,超高分数线392分!上海交大计算机学硕
热门文章
- html去除表格间距,HTML两个表格间距怎么调整
- jmeter(二十):Logic Controller:逻辑控制器(上)
- 浅谈压缩感知(十三):压缩感知与传统压缩
- JQuery对元素拖拽排序,元素拖拽,JQuery拖拽
- 手摸手带你学移动端WEB开发
- UOS 22.0家庭版使用体验
- 【Java】Java安装与配置指南
- 论文笔记:m6Acorr: an online tool for the correction and comparison of m6A methylation profiles
- moment.js多语言列表
- File和path的用法