SPSS Modeler 数据定义（指南第二章）

关于SPSS Modeler 中的数据规则：
排列规则：一行一记录（对象），一列一指标（变量）。
变量的属性：存储类型、测量级别和角色。

1. 存储类型

存储类型表示变量在计算机中的存储方式。
例如，值为 1 和 0 的字段存储整型数据。这点与测量级别明显不同，测量级别描述的是数据的使用方法，而且不影响存储。
例如，您可能希望将值为 1 和 0 的某个整数字段的测量级别设置为标志。这通常表明 1 = 真，0 = 假。
！实战：存储格式必须在数据源中确定，而测量级别可以使用“类型”节点在流中的任意点上进行更改。

**存储类型有：**一般有三种：数值型、字符型、日期型。modeler划分的更为细致:
• 字符串 用于包含非数字数据（也称为字母数字数据）的字段。字符串可以包含任何字符序列，比如 fred 、 Class 2 或 1234 。注意：字符串中的数字不能用于计算。
• 整数 值为整数的字段。
• 实数 值为可能包含小数（不限于整数）的数字。显示格式在“流属性”对话框中指定，并且可以被“类型”节点（“格式”选项卡）中的各个字段覆盖。
• 日期 以标准格式指定的日期值，例如年月日（例如 2007-09-26）。具体格式在“流属性”对话框中指定。
• 时间 以持续时间形式测量的时间。例如，某个服务电话持续 1 小时 26 分 38 秒，该时间可以根据“流属性”对话框中指定的当前时间格式表示为：01:26:38。
• 时间戳记 同时包含日期和时间组成部分的值，例如 2007-09-26 09:04:00，表示2007年9月26日早上9点04分，具体同样取决于“流属性”对话框中的当前日期和时间格式。请注意，需要用双引号将时间戳值括起来，以确保将此值解释为单一值而非单独的日期和时间值。（同样适用于在用户输入节点中输入值时的情况。）
• 列表 在 SPSS Modeler V17 中，随新测量级别“地理空间”和“集合”一起引入了“列表”存储字段，对于单个记录，此字段包含多个值。存在所有其他存储类型的列表版本。

！实战：可以通过三个源节点（“Analytic Server”、“地理空间”或“变量文件”）中的某一个将列表导入到 SPSS Modeler 中，也可以在流中使用“派生”或“填充”字段操作节点创建列表。

2. 测量级别

测量级别（以前称为“数据类型”或“用途类型”）用于描述数据字段在SPSS Modeler 中的用法。测量级别可以在“源节点”或“类型”节点的“类型”选项卡中指定。
例如，您可能希望将值为 1 和 0 的某个整数字段的测量级别设置为标志。这通常表明 1 = 真，0 = 假。

！存储与测量区别：
A. 字段的测量级别不同于字段的存储类型，存储是指数据的存储形式是字符串、整数、实数、日期、时间还是时间戳记。
B. 测量级别可以使用类型节点在流中的任意位置进行修改，而存储类型必须在将数据读入 IBM SPSS Modeler 时在源节点中会自动确定（当然，之后也可以使用转换函数对其进行更改）。

**测量级别有：**一般有两种：数值型变量、分类型变量。
• 缺省值/默认型 存储类型和值未知（例如，由于尚未读取）的数据将显示为 <缺省值>。
• 连续 表示定量变量。用于描述数字值，例如范围 0-100 或 0.75-1.25。连续值可以是整数、实数或日期/时间。
• 分类 当变量的存储类型为字符串值，但取值范围未知时，则显示为分类型。读取数据后，测量级别将为标记、名义、或无类型，具体取决于“流属性”对话框中指定的名义字段成员最大数。
• 标记 表示二分类变量（例如 true 与 false、Yes 与 No 或者 0 与 1）。所用值可能有所不同，但其中总会有个值代表“真”值，另一个代表“假”值。数据可表示为文本、整数、实数、日期、时间或时间戳记。
• 名义 表示多分类变量。用于描述具有多个不同值的数据，其中的每个值都被视为集合的一个成员，例如 small/medium/large。名义数据可具有任何存储数值、字符串或日期/时间。请注意，将测量级别设置为名义不会自动将值更改为字符串存储。
• 有序 表示有序变量。例如，工资类别或满意度排秩可以归类为有序数据。顺序由数据元素的自然排列顺序定义。例如， 1, 3, 5 是某个整数集合的缺省排列顺序，而 HIGH, LOW, NORMAL （按字母升序）是某个字符串集合的顺序。使用有序测量级别可以将一组分类数据定义为有序数据，以进行可视化处理、模型构建以及导出到将有序数据识别为不同类型的其他应用程序（如 IBM SPSS Statistics）。您可以在任何能够使用名义字段的位置使用有序字段。此外，可以将任何存储类型（实数、整数、字符串、日期、时间等等）的字段定义为有序。
• 无类型 用于不属于上述任何类型的数据、具有单个值的字段或者集合成员数超过定义的最大数目的名义数据。当测量级别为包含许多成员（如帐号）的集合时，这种类型也将十分有用。When you select 字段的无类型，角色将自动设置为无，这将意味着该字段不再用于建模。集合的最大缺省容量为 250 个唯一值。可在“流属性”对话框（通过“工具”菜单访问）的“选项”选项卡中调整或禁用该数字。
• 集合 用于标识列表中记录的非地理空间数据。集合实际上是深度为零的列表字段，该列表中的元素具有另外某种测量级别。
• 地理空间 与“列表”存储类型配合使用以标识地理空间数据。列表可以是列表深度介于 0 与 2（含首尾值）之间的“整数列表”或“实数列表”字段。

3. 角色

字段的角色用于指定其在模型构建过程中的用法。
例如，在建模过程中，该变量是预测变量（目标）还是自变量（输入）。

注意：“分区”、“频率”和“记录标识”角色只能分别应用到单个字段。

可用的角色如下：
• 输入 字段将用作机器学习的输入（预测变量字段）。
• 目标 字段将用作机器学习的输出或目标（模型将尝试预测的字段之一）。
• 任意 该字段既是输入也是目标的角色，只适用于关联规则算法（字段将被 Apriori 节点同时用作输入和输出），其他算法节点将忽略该字段。
• 无 机器学习将忽略该字段。测量级别已设置为无类型的字段将在角色列中自动设置为无。
• 分区 指明字段用于将数据分区为单独的样本（用于训练、测试，也可用于验证）。该字段必须属于实例化集合类型，具有两个或三个可能值（在“字段值”对话框中定义）。第一个值表示训练样本，第二个值表示测试样本，第三个值（如果存在）表示验证样本。所有其他值都将被忽略，且不能使用标志字段。
！请注意，要在分析中使用分区，必须在相应的模型构建或分析节点的“模型选项”选项卡中启用分区。启用分区时，会将对于分区字段具有空值的记录从分析中排除。如果已在流中定义多个分区字段，那么必须在每个相应建模节点的“字段”选项卡中指定单一分区字段。如果数据中不存在适合的字段，您可以使用“分区”节点或“派生”节点进行创建。
• 拆分/分割 仅分类（名义、有序和标志字段）字段能够被设置为拆分。指定为拆分，那么modeler将为该字段的每个可能值构建一个模型。例如：将性别设置为拆分，则机器学习算法将对男性样本和女性样本分别建立模型。
• 频率 仅数值字段能被设置为频率，且应为正整数。即对字段进行加权。设置此角色允许将字段值用作记录的频率加权因子。仅 C&R 树、CHAID、QUEST 和线性模型支持此功能；所有其他节点将忽略此角色。在支持此功能的建模节点的“字段”选项卡上，选择使用频率权重以启用频率加权。
• 记录标识 即记录的ID，此字段将用作唯一记录标识。大多数节点都会忽略此特征，但它受线性模型支持，并且是 IBM Netezza 数据库内挖掘节点所必需的。