关于SPSS Modeler 中的数据规则:
排列规则:一行一记录(对象),一列一指标(变量)。
变量的属性:存储类型、测量级别和角色。

1. 存储类型

存储类型表示变量在计算机中的存储方式。
例如,值为 1 和 0 的字段存储整型数据。这点与测量级别明显不同,测量级别描述的是数据的使用方法,而且不影响存储。
例如,您可能希望将值为 1 和 0 的某个整数字段的测量级别设置为标志。这通常表明 1 = 真 ,0 = 假 。
!实战:存储格式必须在数据源中确定,而测量级别可以使用“类型”节点在流中的任意点上进行更改。

**存储类型有:**一般有三种:数值型、字符型、日期型。modeler划分的更为细致:
• 字符串 用于包含非数字数据(也称为字母数字数据)的字段。字符串可以包含任何字符序列,比如 fred 、 Class 2 或 1234 。注意:字符串中的数字不能用于计算。
• 整数 值为整数的字段。
• 实数 值为可能包含小数(不限于整数)的数字。显示格式在“流属性”对话框中指定,并且可以被“类型”节点(“格式”选项卡)中的各个字段覆盖。
• 日期 以标准格式指定的日期值,例如年月日(例如 2007-09-26)。具体格式在“流属性”对话框中指定。
• 时间 以持续时间形式测量的时间。例如,某个服务电话持续 1 小时 26 分 38 秒,该时间可以根据“流属性”对话框中指定的当前时间格式表示为:01:26:38。
• 时间戳记 同时包含日期和时间组成部分的值,例如 2007-09-26 09:04:00,表示2007年9月26日早上9点04分,具体同样取决于“流属性”对话框中的当前日期和时间格式。请注意,需要用双引号将时间戳值括起来,以确保将此值解释为单一值而非单独的日期和时间值。(同样适用于在用户输入节点中输入值时的情况。)
• 列表 在 SPSS Modeler V17 中,随新测量级别“地理空间”和“集合”一起引入了“列表”存储字段,对于单个记录,此字段包含多个值。存在所有其他存储类型的列表版本。

!实战:可以通过三个源节点(“Analytic Server”、“地理空间”或“变量文件”)中的某一个将列表导入到 SPSS Modeler 中,也可以在流中使用“派生”或“填充”字段操作节点创建列表。

2. 测量级别

测量级别(以前称为“数据类型”或“用途类型”)用于描述数据字段在SPSS Modeler 中的用法。测量级别可以在“源节点”或“类型”节点的“类型”选项卡中指定。
例如,您可能希望将值为 1 和 0 的某个整数字段的测量级别设置为标志。这通常表明 1 = 真 ,0 = 假 。

!存储与测量区别
A. 字段的测量级别不同于字段的存储类型,存储是指数据的存储形式是字符串、整数、实数、日期、时间还是时间戳记。
B. 测量级别可以使用类型节点在流中的任意位置进行修改,而存储类型必须在将数据读入 IBM SPSS Modeler 时在源节点中会自动确定(当然,之后也可以使用转换函数对其进行更改)。

**测量级别有:**一般有两种:数值型变量、分类型变量。
• 缺省值/默认型 存储类型和值未知(例如,由于尚未读取)的数据将显示为 <缺省值>。
• 连续 表示定量变量。用于描述数字值,例如范围 0-100 或 0.75-1.25。连续值可以是整数、实数或日期/时间。
• 分类 当变量的存储类型为字符串值,但取值范围未知时,则显示为分类型。读取数据后,测量级别将为标记、名义、或无类型,具体取决于“流属性”对话框中指定的名义字段成员最大数。
• 标记 表示二分类变量(例如 true 与 false、Yes 与 No 或者 0 与 1)。所用值可能有所不同,但其中总会有个值代表“真”值,另一个代表“假”值。 数据可表示为文本、整数、实数、日期、时间或时间戳记。
• 名义 表示多分类变量。用于描述具有多个不同值的数据,其中的每个值都被视为集合的一个成员,例如 small/medium/large。名义数据可具有任何存储数值、字符串或日期/时间。请注意,将测量级别设置为名义不会自动将值更改为字符串存储。
• 有序 表示有序变量。例如,工资类别或满意度排秩可以归类为有序数据。顺序由数据元素的自然排列顺序定义。例如, 1, 3, 5 是某个整数集合的缺省排列顺序,而 HIGH, LOW, NORMAL (按字母升序)是某个字符串集合的顺序。使用有序测量级别可以将一组分类数据定义为有序数据,以进行可视化处理、模型构建以及导出到将有序数据识别为不同类型的其他应用程序(如 IBM SPSS Statistics)。您可以在任何能够使用名义字段的位置使用有序字段。此外,可以将任何存储类型(实数、整数、字符串、日期、时间等等)的字段定义为有序。
• 无类型 用于不属于上述任何类型的数据、具有单个值的字段或者集合成员数超过定义的最大数目的名义数据。当测量级别为包含许多成员(如帐号)的集合时,这种类型也将十分有用。When you select 字段的无类型,角色将自动设置为无,这将意味着该字段不再用于建模。集合的最大缺省容量为 250 个唯一值。可在“流属性”对话框(通过“工具”菜单访问)的“选项”选项卡中调整或禁用该数字。
• 集合 用于标识列表中记录的非地理空间数据。集合实际上是深度为零的列表字段,该列表中的元素具有另外某种测量级别。
• 地理空间 与“列表”存储类型配合使用以标识地理空间数据。列表可以是列表深度介于 0 与 2(含首尾值)之间的“整数列表”或“实数列表”字段。

3. 角色

字段的角色用于指定其在模型构建过程中的用法。
例如,在建模过程中,该变量是预测变量(目标)还是自变量(输入)。

注意:“分区”、“频率”和“记录标识”角色只能分别应用到单个字段。

可用的角色如下:
• 输入 字段将用作机器学习的输入(预测变量字段)。
• 目标 字段将用作机器学习的输出或目标(模型将尝试预测的字段之一)。
• 任意 该字段既是输入也是目标的角色,只适用于关联规则算法(字段将被 Apriori 节点同时用作输入和输出),其他算法节点将忽略该字段。
• 无 机器学习将忽略该字段。测量级别已设置为无类型的字段将在角色列中自动设置为无。
• 分区 指明字段用于将数据分区为单独的样本(用于训练、测试,也可用于验证)。该字段必须属于实例化集合类型,具有两个或三个可能值(在“字段值”对话框中定义)。第一个值表示训练样本,第二个值表示测试样本,第三个值(如果存在)表示验证样本。所有其他值都将被忽略,且不能使用标志字段。
!请注意,要在分析中使用分区,必须在相应的模型构建或分析节点的“模型选项”选项卡中启用分区。启用分区时,会将对于分区字段具有空值的记录从分析中排除。如果已在流中定义多个分区字段,那么必须在每个相应建模节点的“字段”选项卡中指定单一分区字段。如果数据中不存在适合的字段,您可以使用“分区”节点或“派生”节点进行创建。
• 拆分/分割 仅分类(名义、有序和标志字段)字段能够被设置为拆分。指定为拆分,那么modeler将为该字段的每个可能值构建一个模型。例如:将性别设置为拆分,则机器学习算法将对男性样本和女性样本分别建立模型。
• 频率 仅数值字段能被设置为频率,且应为正整数。 即对字段进行加权。设置此角色允许将字段值用作记录的频率加权因子。仅 C&R 树、CHAID、QUEST 和线性模型支持此功能;所有其他节点将忽略此角色。在支持此功能的建模节点的“字段”选项卡上,选择使用频率权重以启用频率加权。
• 记录标识 即记录的ID,此字段将用作唯一记录标识。大多数节点都会忽略此特征,但它受线性模型支持,并且是 IBM Netezza 数据库内挖掘节点所必需的。

SPSS Modeler 数据定义(指南 第二章)相关推荐

  1. Python精确指南——第二章 界面开发

    2 Python GUI 借助Python语言的优势,使用Python的界面库开发界面程序,开发周期更短.但因为Python的界面开发库底层实现一般不是Python,只是为Python封装的接口,所以 ...

  2. 《IBM SPSS Modeler数据与文本挖掘实战》之文本挖掘算法

    随着文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.现代文本分类和聚类领域面临巨大的挑战,而且随着学者研究的不断深入,其中的一些深层次问题也逐渐暴露出来,一些问题也已经成为本学科进一 ...

  3. 训练指南第二章-基础问题

    训练指南第二章-基础问题 P170 2 / 4 Problem A UVA 10943 How do you add? 1 / 2 Problem B UVA 10780 Again Prime? N ...

  4. Java7并发编程指南——第二章:线程同步基础

    Java7并发编程指南--第二章:线程同步基础 @(并发和IO流) Java7并发编程指南第二章线程同步基础 思维导图 项目代码 思维导图 项目代码 GitHub:Java7ConcurrencyCo ...

  5. 《IBM SPSS Modeler数据与文本挖掘实战》之常用数据挖掘软件

    根据数据挖掘软件的开发目的和用途,一般可以分为专业型和通用型两种.专业型数据挖掘软件一般是针对某个特定领域的问题提供解决方案,在设计算法的时候充分考虑到数据的规模.类型以及研究者的需求等特点,并作了优 ...

  6. Unix/Linux下的Curses库开发指南——第二章 curses库I/O处理

    第2章 curses库I/O处理 2.1 curses库简介 curses库是curses开发包中最重要的一个库,其中提供了一些基本的屏幕操作函数,包括输入/输出,屏幕初始化,屏幕处理中断以及窗口的创 ...

  7. ZeroMQ 中文指南 第二章 ZeroMQ进阶【转载】

    此文章转载自GitHub : https://github.com/anjuke/zguide-cn 作者信息如下. ZMQ 指南 作者: Pieter Hintjens ph@imatix.com, ...

  8. Vert.x Java开发指南——第二章 使用Vert.x编写最小可用Wiki

    第二章 使用Vert.x编写最小可用Wiki 版权声明:本文为博主自主翻译,转载请标明出处. https://blog.csdn.net/elinespace/article/details/8037 ...

  9. 计算机组成原理第二章数据,计算机组成原理第二章数据在计算机中的表示

    计算机组成原理第二章数据在计算机中的表示 (91页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 14.90 积分 第二章 数据在计算机中的表示 n 概述 ...

最新文章

  1. java 算法--洗牌算法
  2. python包裹 函数_什么是最干净的方法调用一个Python函数从C++与一个Sigg包裹的Obj....
  3. 使用python实现简单的爬虫
  4. Asp组件中级入门与精通系列之五
  5. struct类型重定义 不同的基类型_C++构造数据类型
  6. LeetCode 1642. 可以到达的最远建筑(二分查找 / 优先队列贪心)
  7. 开源即时通讯软件|最好的开源即时通讯软件——XEIM
  8. 九章云极DataCanvas完成C轮融资:定义标准化AI基础架构未来
  9. ora-24247:网络访问被访问控制列表(ACL)拒绝
  10. beeline连接hive
  11. php只取时间的下士_PHP 获取时间的各种处理方式!
  12. delphi 调用Msftedit.dll,重写Richedit,支持RTF画表格
  13. Redis info信息(转载)
  14. 03.搭建Spark集群(CentOS7+Spark2.1.1+Hadoop2.8.0)
  15. 计算方法(一):误差
  16. html右下角图片广告,HTML580用纯JS实现右下角广告代码
  17. js中函数的this指向
  18. ffmpeg MP3转wav
  19. linux那些事儿之我是i2c -- Gsenser(三)
  20. 黑客榜中榜 三期 解题思路

热门文章

  1. 西门子触摸屏脚本程序_西门子触摸屏利用VBScript脚本创建csv文件
  2. Android 实现系统打印机打印图片,文本,以及二维码生成与解析
  3. 马老板回国,必有大事发生!阿里一拆为六,迎24年来最大组织改革,张勇放权助力六大业务板块再冲IPO!
  4. 4tensorflow-优化器
  5. 如何缓解睡眠障碍?9个方法助你快速入睡
  6. 太极模块 ---上帝模式
  7. 首先,打破一切常规 学习笔记 之一
  8. SEO优化—知己知彼,百战百胜
  9. linux通过mount命令访问windows共享文件
  10. 微服务精通之Eureka原理解析