spss之数据预处理
目录
问题思考:
二、缺失类型
完全随机缺失(MCAR)
随机缺失(MAR)
非随机缺失(MNAR)
三、缺失值填补的方法
完整观测数据分析
填补:
单值插补
多重插补
四、缺失值填补的过程
描述缺失值的模式
描述性:估计含有缺失值的变量的平均值、标准差、协方差和相关性矩阵
对数据进行填补
五、案例分析
导入与合并数据
重新编码变量
筛选数据
缺失值情况分析
python方法去除缺失值为80%以上的缺失值
缺失值填充
一、spss对数据进行预处理
问题思考:
1.为什么要进行数据预处理?
- 基于样本推断总体,样本应当具有代表性
- 数据缺失导致信息丢失
2.缺失类型?
- 完全随机缺失
- 随机缺失
- 非随机缺失
3.哪些方法可用于缺失值处理?
- 删除缺失值的记录、观测、个体
- 填补:中位数填补、均值填补、多重插补
4.缺失值处理的过程/步骤?
二、缺失类型
完全随机缺失(MCAR)
缺失数据/变量与观察到的数据/变量和未观察到的数据/变量均没有关系(缺失与任何变量无关)
数据缺失后,剩余完整的数据任然具有代表性,只是样本量减少,估计精度变小
随机缺失(MAR)
缺失数据/变量与观察到的数据/变量有关,与未观察到的数据/变量无关
非随机缺失(MNAR)
缺失数据/变量与未观察到的数据/变量有关
三、缺失值填补的方法
完整观测数据分析
直接删除缺失的记录/观测/个体
适用于:缺失率较低(0.05)并且假设完全随机缺失的情况
填补:
单值插补
- 均值填补,中位数填补
- EM(Expectation-Maximization)--期望最大化
假设:缺失的数据为随机缺失,缺失与观测数据有关,与本身无关
假设缺失数据的分布(先验分布)并通过迭代最大化(MLE)假设分布的参数(后验分布)
- 回归(regression)
假设:缺失数据为完全随机缺失
多个线性回归估计值+随机误差
多重插补
优点:插补多个数据,考虑到了数据的波动性(方差),插补数据更加精确,更符合数据的特点
四、缺失值填补的过程
描述缺失值的模式
哪些变量缺失?缺失的比例?缺失的模式?
描述性:估计含有缺失值的变量的平均值、标准差、协方差和相关性矩阵
- 列表法:
假设:完全随机缺失
数据:完整数据
- 成对法:
假设:完全随机缺失
- 回归法
假设:完全随机缺失
- EM法:
假设:随机缺失
对数据进行填补
五、案例分析
---本案例是选自2021年第九届“泰迪”数据挖掘挑战赛的A题的数据
导入与合并数据
将附件2与附件1的数据(按照文件类型)导入到spss中,并且将数据合并
将需要的变量合并到数据表内,不需要的移到排除变量
重新编码变量
由于增加变量“所属行业”为字符串,在后续的数据处理过程会出现错误,此处进行重新编码,将各行业转变为相应的数字
将所需要重新编码的变量选择到数字变量窗口中
点击“旧值和新值”,将需要转变的变量分别填入旧值与新值,如下所示
重新编码变量后,需要在变量视图中将变量类型调整为数字
筛选数据
此处筛选的是“制造业”(制造业--1)的所有个案
将筛选好的数据写入到新的数据表内,并命名为“制造业”
该步骤完成后,得到个案数为(2667个)
缺失值情况分析
需要观测的连续型变量拉倒“定量变量”窗口
部分运行结果如下所示(建议:由于变量的数量较多,可将缺失率超过80%的变量去除)
个人建议:spss对于数据量庞大的样本,运行所需时间不太友好,使用python分析缺失值的情况更有效
python方法去除缺失值为80%以上的缺失值
import pandas as pd
data = pd.read_csv('C:/Users/yezixbo/Desktop/111.csv',encoding='gb2312')
print(data.head())data.isnull().sum()
data2=data.dropna(thresh=2134.4,axis=1)
print(data2)
import xlwt
data2.to_csv('C:/Users/yezixbo/Desktop/制造业数据.csv')
缺失值填充
因变量FLAG(财务造假=1,财务非造假=0)
将财务造假与财务非造假的个案分离,再进行缺失值填充
(在进行缺失值填充前,需要检验缺失的类型是什么,是完全随机缺失,随机缺失,或则是不完全随机缺失,再选择合适的方法填补缺失值)
此处省略。。。。。。
下表为数据填充完成后,财务造假与财务非造假数据的合并表
数据处理到这里就结束了!!
spss之数据预处理相关推荐
- 【SPSS】数据预处理基础教程(附案例实战)
- spss数据预处理步骤_数学建模准备必备的十个数据分析软件(数学建模从入门到精通)...
前几天咋们聊了很多关于数学建模的干货,比如怎么样去前期准备学习数学建模,又比如数学建模需要哪些疾病软件?再比如数学建模论文摘要写作技巧.昨天那篇更是直接把数学建模常用的思维导图.流程图软件全部统统介绍 ...
- spss数据预处理步骤_数据处理之剔除无效问卷
我们都知道在数据分析前,首先需要对数据进行预处理,检查数据中是否含有存在无效样本.异常值等.如果同一样本中存在大量漏填数据或相似答案过多的情况这样的样本都应该算作无效样本来处理. 无效样本的常见使用场 ...
- SPSS——数据预处理
SPSS--数据预处理 排序个案(Sort Case) 用于对数据集的变量进行排序 数据-->排序个案 选择需要排序的列,右键 转置过程 Transpose 用于对数据文件中的行列进行转换 变量 ...
- spss入门——简单的数据预处理到时间序列分析系列(四)
简单的数据预处理到时间序列分析 spss数据预处理到时间序列分析 (四)曲线拟合 在数据插补之前一定要找找数据的变化趋势,通常数据拟合就是一个较好的方案. 散点进行曲线拟合的方法 根据前面所画散点图, ...
- spss入门——简单的数据预处理到时间序列分析系列(二)
简单的数据预处理到时间序列分析 spss数据预处理到时间序列分析 (二)时间变量生成及绘制散点图 时隔这么久终于又和大家见面了( ̄▽ ̄)~*,咱们继续我们的内容 在完成数据导入后,就可以开始下一步的准 ...
- 量纲对回归结果的影响_关于SPSS回归分析与数据预处理的心得体会,句句都是肺腑之言...
原标题:关于SPSS回归分析与数据预处理的心得体会,句句都是肺腑之言 关于SPSS学习与交流的专业论坛,小兵博客一直推荐大家去人大经济论坛(现在叫做经管之家)SPSS专版.这个板块几乎覆盖了SPSS统 ...
- spss入门——简单的数据预处理到时间序列分析系列(七)
spss数据预处理到时间序列分析 (七)预测 呼~,终于到了我们的这个系列的结尾了,预测2016的数据!! 应用所建立的模型分析预测2016的数据(原因:数据为编撰的,只到2015年) 操作完以后到了 ...
- 数据分析——SPSS数据预处理
SPPS数据预处理方法 处理方式一:排序 目的:了解数据的取值.缺失值情况.最大值.最小值.初步把握数据的离散程度 方式:个案单值排序+个案的多值排序,注意排序的方向可以混合(升降混合) 处理方式二: ...
- 数据归一化处理方法_数据预处理:归一化和标准化
1. 概述 数据的归一化和标准化是特征缩放(feature scaling)的方法,是数据预处理的关键步骤.不同评价指标往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间 ...
最新文章
- 个人副业在家可做大学生首选小程序创业项目
- 制作精美的网站首页模板应该如何操作?
- 怎样在计算机上插入机构图,Win7系统如何在excel中添加word文档结构图?
- python是面向对象的语言_*Python面向对象总结
- 管理信息系统 第三部分
- Windows网络驱动、NDIS驱动(微端口驱动、中间层驱动、协议驱动)、TDI驱动(网络传输层过滤)、WFP(Windows Filtering Platfrom))
- 途牛java面试题_途牛java面试题.docx
- 修改Linux主机名
- Scikit-Learn 学得如何?程序员不容错过十大实用功能来袭
- Zend_Db_Table-insert ()和zend_db_adapter::insert方法返回值不同
- 标记偏见_人工智能的影响,偏见和可持续性
- kali foremost 分离文件_软件架构之分离关注点
- 关于VM14中安装win 10遇到的小问题
- Epson Perfection V370 Photo图片扫描自动控制
- QT学习笔记(一)——QT基础
- 苹果Magic Trackpad2成功被谷歌团队写进去个Linux
- linux各种桌面系统图片,四大Linux图形界面赏析:KDE、Gnome、Xfce、LXDE
- 继Python之后,Go也顺利在浏览器上运行
- Windows11 下屏幕亮度自动调整的问题解决
- XCTF-MFW Git泄露,命令执行漏洞 详解