• 学习资料

IBM SPSS Modeler 18.0 Applications 第6章

  • 数据源描述

数据源名称telco.sav

  • 应用模型

ADP自动数据准备

  • 分析思路

ADP可以自动分析数据并识别需要修订的字段、筛选出有问题或者可能不可用的字段、在适当的时候派生出新的指标,本次实验将根据数据telco.sav,分别训练两个二项回归模型块,其中一个通过ADP对输入数据进行处理,另一个不对输入数据进行任何处理,由此对比分析ADP数据处理的作用。

  • 设计步骤

1、选取源节点“Statistics文件”,读取外部数据源;
Variable names选择Read names and labels
Values选择Read data and labels

2、将一个类型节点附加到源节点, 将churn 字段的Measure测量级别设置为flag标志,并将角色设置为Target目标。将所有其他字段的角色设置为 Input,

3、将 Logistic 节点附加到“类型”节点。在 Logistic 节点上,单击“模型”选项卡并选择二项过程。在模型名称字段中,选择自定义并输入 No ADP - churn,

4、将ADP节点附加到类型节点后,在目标选项卡上保持默认设置,即以均衡的速度与准确性的方式分析与准备数据(还可以选择优先关注处理速度/优先关注准确性),在窗口顶部点击分析数据启动

5、分析ADP节点处理数据的结果,数据处理的结果将显示在“分析”选项卡上,字段处理摘要显示,在 41 项导人 ADP 节点的数据特征中,19项已转换为辅助处理,而有 3 个因未使用而废弃

6、将 Logistic 节点附加到ACP节点后面。在 Logistic 节点上,单击“模型”选项卡并选择二项过程。在模型名称字段中,选择自定义并输入 After ADP - churn

7、分别运行并比较两个模型的准确性(第一个没有经过ACP处理,第二个经过了ACP处理),通过分析节点分析显示:
经过ACP处理输入数据的模型正确率为78.8%
没有ACP处理输入数据的模型正确率为10.6%


  • ADP设置补充

一、目标面板
平衡速度和精确度:均衡速度和精确度。此选项可自动准备数据(设置面板的算法不需要再去设置更改)以使建模算法处理数据的速度和预测的精确度具有同等优先度。
优化速度:此选项可自动准备数据(设置面板的算法不需要再去设置更改),以使建模算法处理数据的速度具有较高的优先级。当用户处理超大数据集或要求快速得到结果时,请选中此选项。
优化精确度∶此选项可自动准备数据(设置面板的算法不需要再去设置更改),以使建模算法生成的预测结果的准确性具有较高优先级。定制分析∶如果用户希望手动修改"设置"选项卡上的算法,请选择此选项。
定制分析:如果希望自定义修改设置面板上的算法,请选择此项。如果在选择了平衡速度和精确度/优化速度/优化精确度后又手动修改了设置面板上的算法,模型就会自动勾选选择此项。

二、"设置"面板

1、字段设置
使用频率字段:指的是有些数据集能频率汇总的字段(例如已经汇总了每个客户每月的购买次数,那么购买次数可以作为频率字段)
使用权重字段:指的是在数据集中为了某一分析目标(例如客户响应率预测,在所有的客户名单中,如果是高价值客户会优先选择,那么客户价值的得分可以作为权重,在所有的影响因素中会作为最重要的影响因素)来构建客户响应率预测模型。

如何处理建模中排除的字段
过滤掉未使用字段:就相当于使用"过滤"节点直接把这些字段打上"×"过滤掉;
将未使用字段的方向设为"无":就相当于使用"类型"节点将这些字段的"角色"设置为"无"。

如果传入字段与现有分析不匹配
指的是,对于已经分析好的"自动数据处理"节点,如果数据源中传入的数据字段与已经分析的字段不匹配,可以有两种选择方式∶
停止执行并保留现在分析,运行会报错,原来分析好的内容不变;
清除现有分析并分析新数据,会对新接入的数据做重新分析。

2、准备日期和时间
许多建模算法无法直接处理日期和时间细节;这些设置允许您从现有数据中的日期和时间派生新的持续时间数据,以用作模型输入。必须采用日期或时间存储类型预定义包含日期和时间的字段。不建议在自动数据准备后将原始日期和时间字段用作模型输入。

计算到参考日期为止已过去的时间
这将为包含日期的每个变量生成自参考日期后的年/月/日数。
(1) 引用日期:指定以该日期为参考,根据输入数据中的日期信息计算持续时间的日期。如果选择当前日期,那么在执行 ADP 时将始终使用当前系统日期。要使用特定日期,选择固定日期,并输入所需日期。首次创建节点时,将自动在固定日期字段中输入当前日期。
(2) 日期持续时间的单位:指定 ADP 是自动确定持续日期的单位,还是从固定单位(年、月或日)中选择。计算到参考时间为止已过去的时间。这将为包含时间的每个变量生成自参考日期后的小时/分钟/秒数。

计算到参考时间为止已过去的时间
这将为包含时间的每个变量生成自参考时间后的时/分/秒数。
(1)引用时间:指定以该时间为参考,根据输入数据中的时间信息计算持续的时间。如果选择当前时间,则 ADP 执行时始终使用当前系统时间。要使用特定时间,选择固定时间,并输入所需具体时间。首次创建节点时,将自动在固定时间字段中输入当前时间。
(2)持续时间的单位:指定 ADP 是自动确定持续时间的单位,还是从固定单位(小时、分或秒)中选择。

抽取循环时间元素
使用这些设置将单个日期或时间字段分割成一个或多个字段。(例如如果选择了全部三个日期复选框,那么输入日期字段“1954-05-23”将分割成三个字段:1954、5 和 23,这三部分均使用字段名称面板上定义的后缀,并且将忽略原始日期字段)
(1) 从日期提取:对于任何日期输入,请指定是否要提取年、月、日或任意组合。
(2) 从时间提取:对于任何时间输入,请指定是否要如果要提取小时、分、秒或任意组合。

3、排除输入字段
排除具有过多缺失值的字段∶主要对字段缺失值太多的进行排除,默认是缺失50%。
排除具有过多唯一类别的名义字段∶在某一类别字段中,将某一值占大多数的字段直接排除。例如,在"省"这一字段里面,有100%的值都是"广东省",即所有数据都是广东省的,那么"省"这一指标就没有什么意义了,一般某一值占80%以上就可以考虑排除。(针对名义字段数据)
排除单个类别中具有过多值的分类字段∶在某一分类字段中,有太多不同值,例如一共有100条记录,类别的值有95 个不同值,那么该字段对于分析来说也意义不大,默认是95%予以排除。(针对名义字段数据)

4、准备输入和目标
调整数值字段的类型(有序和连续):选择此选项,以确定针对数值型的字段是否可以根据需求将"测量"为"续"或"有序"互相转换。该设置如果打上钩,就与以下两个设置选项相对应∶

  • 顺序字段值的最大数量∶指定重新定义有序(有序集合)字段为连续(范围)的阈值。默认值为10,因此如果一个有序字段超过了10个类别,那么它将被重新定义为连续(范围)。
  • 连续字段值的最小数量∶指定重新定义尺度或连续(范围)字段为有序(有序集合)的阈值。缺省值为5,因此如果连续字段少于5个值,那么它将被重新定义为有序(有序集合)。

重新排序名义字段:以使最小类别靠前,最大类别在最后。选择此选项,以按从小到大的类别顺序排序名义(集合)字段。
替换连续字段中的离群值:针对连续字段,先判断是否有离群值,如果有,就与下方的"离群值分界点"和"用于替换离群值的方法"结合使用。

  • 离群值分界值∶可以设置几倍的标准差作为离群值,默认是3倍标准差。
  • 用于替换离群值的方法∶一种是用分界值替换,另外一种是将该值设置为缺失,然后按照上方处理缺失值的方法处理该离群值。

连续字段∶用均值替换缺失值。针对连续字段,用均值替换缺失值。
名义字段∶用众数替换缺失值。针对名义字段,用众数替换缺失值。
有序字段∶用中位数替换缺失值。针对有序字段,用中位数替换缺失值。

变换连续字段
主要是针对数值型指标进行归一化转换。归一化是常用的数据处理方式,特别是做聚类的时候,一般都需要先对数值型指标做归一化,避免造成因为指标范围不一样,对聚类效果造成不好的影响。
Z评分变换∶用公式表示为z=x-μ/a,其中z为转换后的标准分数、x为某一具体分数、μ为平均数、σ为标准差。由Z分数组成的分布有两个特点∶一是Z分数的平均值等于0;二是其标准差等于1。当一组数据为正态分布或近似正态分布时,相当于平均数的点的标准分数为0,在平均数以上各点的标准分数为正值,在平均数以下的各点的标准分数为负值。
最小最大变换∶用公式表示为"(观测值-最小值)/(最大值-最小值)",转换后的数据最小值最大值的范围可以自己设置,默认是0和100。最下方的"以 Box-Cox变换复位比连续目标以降低非对阵"可设置最终均值及最终标准差,默认均值是0、标准差是1。Box-Cox变换是统计建模中常用的一种数据变换,用于连续的响应变量不满足正态分布的情况。进行 Box-Cox 变换之后,可以从一定程度上减小不可观测的误差和预测变量的相关性。

5、构造和功能选择
分类输入字段
合并稀疏类别以使与目标的关联最大化:当输入字段与目标的显著性差异大于0.05(默认)时,即推翻原假设,输入和目标变量相互独立的时候,将该字段的稀疏类别进行合并,直到显著性差异小于0.05则停止合并,以最大化输入字段与目标之间的关联;若最终合并后输入字段只剩下一种类别,那么该字段的原始和派生版本都将被删除。(例如成绩字段里的优秀、良好、及格合并为及格)
当没有目标时,基于计数合并稀疏类别:在训练模型无监督学习的时候,可以选择合并序数字段或名义字段中的稀疏类别,指定要合并类别的数据中观测值或记录的最小百分比为 10%。使用以下规则合并类别:

  • 合并不能在二元字段上执行。
  • 如果在合并过程中只有两个类别,合并将停止。
  • 如果没有原始类别,或者合并期间所创建类别的观测值百分比均不少于指定最小观测值百分比,合并将停止。

连续输入字段
保留预测能力时分级连续字段(只对分类目标可用)
当输入字段与目标的显著性差异大于0.05(默认)时,即推翻原假设,输入和目标变量相互独立的时候,将该连续字段的稀疏类别进行分级即数据离散化处理,把连续数据切分为若干“段”,也称为bin数据桶,直到显著性差异小于0.05则停止分级化;若最终分级后输入字段只存在一种级别,那么该字段的原始和派生版本将被删除(例如年龄字段18-30,设置大于18为1代表成年人)。

特征选择和构造
执行特征选择:将移除显著性差异小于0.05(默认)的输入特征,仅适用于目标为连续的连续输入特征,以及类别输入特征。

执行特征构造:将从包含多个现有输入特征的组合中派生新特征,现有特征随后将从建模过程中丢弃,仅适用于目标为连续或不存在目标的连续输入特征。

运行后的分析

  • 在左下角的"查看"下拉列表框中选择"字段",就会列出所有字段的转化情况,右边会列出相应字段转换前及转换后的数据分布图,可以根据分析结果,选择是否要使用转换后的字段,可以选择"原始"/“已转换”/“不使用”
  • 在右下方选择"操作汇总",可以看到针对数据质量问题在自动数据准备过程中是如何处理的。例如,针对分类型预测变量,由于什么原因被排除、有多少字段,在右侧界面中都会有说明
  • 通过"自动数据准备"节点之后,直接使用菜单栏上的"预览",可以看到处理之后的数据结果、处 理 过 的 字 段 名 称 后 面 会 添 加"* transformed"
    -

SPSS Modeler ADP自动数据准备学习笔记相关推荐

  1. python气象数据可视化学习笔记6——利用python地图库cnmaps绘制地图填色图并白化

    文章目录 1. 效果图 2. cnmaps简介及安装 2.1 写在前面 2.2 cnmaps简介和安装 3. 导入库 4. 定义绘图函数 4.1 使用get_adm_maps返回地图边界 4.2 ax ...

  2. ECharts数据可视化学习笔记和应用

    ECharts数据可视化学习笔记和应用 一.概念 二.Echarts使用 使用步骤 三.Echarts-基础配置 四.柱状图图表1 五.柱状图图表2 六.折线图1 七.折线图2 八.饼状图1 九.饼形 ...

  3. React学习:路由定义及传参、数据复用-学习笔记

    文章目录 React学习:路由定义及传参.数据复用-学习笔记 在React中使用react-router-dom路由 简单例子 路由定义及传参 React学习:路由定义及传参.数据复用-学习笔记 在R ...

  4. 大数据业务学习笔记_学习业务成为一名出色的数据科学家

    大数据业务学习笔记 意见 (Opinion) A lot of aspiring Data Scientists think what they need to become a Data Scien ...

  5. redis基础命令和数据操作命令学习笔记

    redis基础命令和数据操作命令学习笔记 基础命令 安装成功后,redis的启动命令:先修改配置文件.将服务改成默认运行.然后以配置文件启动服务 redis-server config/redis-c ...

  6. 大数据HiveSQL学习笔记三-查询基础语法以及常用函数

    大数据HiveSQL学习笔记三-查询基础语法以及常用函数 一.基础语法 1.SELECT -列名- FROM -表名- WHERE -筛选条件- 如:需要根据城市,性别找出匹配的10个用户 user_ ...

  7. mysql没法修改数据_MySQL学习笔记之数据的增、删、改实现方法

    本文实例讲述了MySQL学习笔记之数据的增.删.改实现方法.分享给大家供大家参考,具体如下: 一.增加数据 插入代码格式: insert into 表明 [列名-] values (值-) creat ...

  8. 大数据 -- kafka学习笔记:知识点整理(部分转载)

    一 为什么需要消息系统 1.解耦 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束. 2.冗余 消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险.许多 ...

  9. Udacity 自动驾驶工程师学习笔记(二)——深度学习(1)

    深度学习目录 目录 Lesson01:Neural Netowrks 神经网络 01.神经网络 Neural Network 02.例子:房价 03.Classification Problem 分类 ...

最新文章

  1. PaddleHub 1.0正式发布: 一键模型加载,十行代码完成迁移学习
  2. springboot使用hibernate validator校验
  3. 以下属于单例模式的优点的是_三、单例模式详解
  4. Cisco PIX防火墙配置命令大全
  5. UNITY中使用不安全代码的相关设置
  6. c3p0 高并发mysql 连接sleep情况
  7. 宏在hybris impEx 产品主数据导入脚本中的用途
  8. PIC18F452之1602自定义字符
  9. 2021年中国手机游戏行业研究报告
  10. 基础计算机构,基础计算与设计
  11. java读取日志_Java实时监控日志文件并输出的方法详解
  12. 接口自动化-接口测试初介
  13. P2P技术原理及应用
  14. 【游戏开发实战】Unity逆向怀旧经典游戏《寻秦OL》,解析二进制动画文件生成预设并播放(资源逆向 | 二进制 | C#)
  15. 嵌入式系统三级考试终结版2019.3
  16. 如何应对海量数据时代的挑战
  17. spark on hive 的部署,和spark on hive (ha)在本地测试步骤
  18. 你知道“晚安”是什么意思么?
  19. 在visio里面插入带圆圈的数字字符。
  20. 南京理工大学c语言课程设计,南京理工大学C语言讲义第7章.ppt

热门文章

  1. matlab解方程组解析解
  2. 弗洛伊德、荣格、阿德勒
  3. WPF—TimeLine类
  4. 微信二次开发sdk非ipad/android协议(很好用)
  5. 重装也无法修复此计算机,win10系统重装|Win10“重置此电脑”时出现问题解决教程...
  6. 访问控制列表之基本ACL、高级ACL 、 高级ACL之ICMP、高级ACL之telnet
  7. linux下没有yum命令,linux下配置yum的三种方法与yum命令详解
  8. 西门子逻辑运算指令_西门子plc 算术、逻辑运算指令
  9. 计算机网络实验四:路由器接口及静态路由配置
  10. npm cb() never called!和 Error: getaddrinfo ENOTFOUND registry.npmjs.com registry.npmjs.com:443