IBM SPSS Modeler 提供预测性分析,可帮助您发现数据模式,提高预测准确性,并改进决策。本教程演示了在 Watson Studio 上使用 SPSS Modeler 的端到端流程:在 Db2 Warehouse 数据库中摄取数据,执行分析,并将结果作为新表重新存储到 数据库 中。

学习目标

本教程将展示如何:

在 Watson Studio 中添加 Db2 Warehouse 连接。

创建一个新的 SPSS Modeler 流或添加一个现有的 SPSS Modeler。

运行 SPSS Modeler 并将输出存储在 Db2 Warehouse 中。

前提条件

IBM Cloud 目录中的对象存储服务实例

对于本教程,我们将使用 Kaggle 的 Titanic 数据集,可在 此处找到 。在您下载了该数据集之后,将文件解压缩到本地文件系统。

预估时间

完成本教程大约需要 30 分钟。

步骤

第 1 步:在 Db2 Warehouse 中加载样本数据

打开IBM Cloud Dashboard,然后在 Cloud Foundry Services 下面打开您创建的 Db2 Warehouse instance 。

在打开的页面中单击 Open Console ,如下所示。

在此服务打开之后,从侧边菜单中单击 load 选项。

从 Kaggle 提供的解压数据文件夹中选择 train.csv 文件。

在加载后,选择适当的模式,通常指定为 DASH 后跟一系列数字。单击 New Table 选项,如下所示。

将其命名为 TITANIC_DATA 或者您选择的任何其他名称。然后单击 Begin Load 。

第 2 步:在 Watson Studio 中添加 Db2 Warehouse 连接

从 IBM Cloud Dashboard 中打开 Watson Studio,然后导航到创建的项目,或者创建一个新的 Modeler 项目,并确保将您的 Cloud Object Storage 实例链接到该项目。

单击 Add to Project 按钮,然后选择 Connection 。

选择在 IBM Cloud 中创建的 Db2 Warehouse 实例。

详细信息应该已经填写,此时单击 Create 按钮。

第 3 步:创建 SPSS Modeler 并从 Db2 Warehouse 插入数据

单击 Add to Project 按钮,然后选择 Modeler 。

输入建模器的名称,并确保选择了以下选项,然后单击 Create 。

在右侧菜单的 Import 选项卡下,拖放 Data Assets 节点。

单击 Change Data Asset > Connections > Db2Warehouse ,然后选择您的模式或默认模式(以 DASH 开头)和上传的表。接下来,单击 Save 。

第 4 步:使用 SPSS Modeler 实现可视化、开展分析并进行特征选择

在给定一个数据集的情况下,SPSS Modeler 提供了许多可视化 工具 来理解这些数据。在本节中,本教程将展示如何创建这些可视化内容,并根据数据获得洞察。

可视化

在 Data Asset 节点的选项中,单击 Preview 选项,然后转到 Visualizations 选项卡。

柱状图用于显示数据的分布情况,在这个例子中,绘制图形时,在 x 轴上绘制 Age 并按 sex 划分。

从这张图中,我们可以看到乘客的年龄服从正态分布,即大多数人的年龄范围在 20 到 55 岁之间,而 20 岁以下和 50 岁以上的人较少。我们也可以看到,在某些年龄组中,男性多于女性。

条形图便于一目了然地比较不同组之间的数据集。在这里,我们看到的是男性幸存者和女性幸存者人数之间的比较情况。以 sex 为类别,汇总值为 count ,值选项为 Survived 。

当试图计算出某些内容的构成时,最好使用饼图。在这种情况下,我们给出了类别 Cabin 。

从这个饼图中,我们可以看到 80% 的 Cabin 列包含 NaN,也就是缺少值。因此,我们可以得出结论:这一列不会影响目标,在我们的例子中,也就是 Survived 列,因而可以删除这一列。

特征选择

在使用特征选择之前,我们需要准备数据集。首先,我们使用 Filler 通过空值和 NaN 值来填充所有缺失值。接下来,我们使用 Filter 节点通过可视化阶段过滤掉 Cabin 列。最后,指定正确的 Type 。

在 Type 节点中,将 Survived 列的 Role 属性调整为 Target 。

使用 Modeling 选项卡下的特征选择方法,并运行建模器。

将生成一个模型节点,当连接到 Output 选项卡中的 Table 节点时,您可以看到它过滤掉了不重要的列。

注意:可以使用 Derive 和 Merge 等节点从现有列创建新列,并合并两个数据帧。

第 5 步:将数据重新保存到 Db2 Warehouse

从 Export 选项卡添加 Data Asset Export 节点。

遵循 1.在 Db2 Warehouse 中加载样本数据 中的步骤连接您的 Db2 Warehouse 实例,并选择任意表。

在保存对节点的更改之前,输入输出表的名称,确保该名称对于模式中的表名是唯一的。

运行建模器流程,所需的输出将保存在您的 Db2 Warehouse 中。

结束语

在本教程中,您学习了如何:

将数据从 Db2 Warehouse 加载到 SPSS Modeler 中。

使用 SPSS 节点对给定数据集执行初步可视化、预处理和特征工程。

将数据直接重新存储到 Db2 Warehouse。

spss连接mysql_通过结合使用 SPSS 与数据库仓库连接开展预测性分析相关推荐

  1. vs vb连接mysql_详细介绍VS2010 VB ACCESS数据库的连接(如有不对,敬请改正)

    VS 首先添加引用 尽量选最新的版本,这样可以向下兼容 然后连接ACCESS数据库 点击数据/添加新数据源 第一次连接点新建连接 点击更改 选中ACCESS数据库 点击浏览,选定数据库位置 用户名密码 ...

  2. dapper 连接mysql_使用Dapper访问SQL Server数据库

    对应Demo程序名:DapperDemo 准备工作:为项目安装Dapper类库 方法一:项目中添加:项目名右键:Manage NuGet Packages:搜索Dappe:点击安装 方法二:在NuGe ...

  3. mysql与java连接查询_【java】MySQL数据库之连接查询

    连接查询 首先来认识一个叫笛卡尔积 (cartesian product) 的东东,也可以叫直积. 假设我们有一个集合 A = {a, b}, 还有一个集合B = {0, 1, 2} ,那么这两个两集 ...

  4. tuxedo连接mysql_9.5.3 Tuxedo与各种数据库的连接

    9.5.3  Tuxedo与各种数据库的连接 Tuxedo可以和所有的有标准XA接口的RM连接,目前几乎所有的关系型数据库和消息队列产品都支持标准的XA接口.Tuxedo和各种数据库相连,都需要配置一 ...

  5. jsch连接mysql_求用jsch网络工具包通过ssh连接远程oracle数据库并发送sql操作语句(数据库在unix上)java代码例子...

    求用jsch网络工具包通过ssh连接远程oracle数据库(数据库在unix上)java代码例子:为何jsch发送:sqlplususer/pwd@service此命令,却没有结果返回啊.下面是代码: ...

  6. apachecommon连接mysql_使用 apache common dbcp +common pool+mysql连接无效的问题

    ${db.driver} ${db.url} ${db.user} ${db.password} 100 50 10000 3600000 true select 1 from dual 使用上述的三 ...

  7. 传感器连接mysql_获取传感器数据并传入数据库-HTTP/POST/ASP.NET

    获取传感器数据并传入数据库-HTTP/POST/ASP.NET 很久前,做过传感器数据采集相关的小项目,需求是通过单片机IO收集传感器数据,然后通过网络模块(GSM/WI-FI)作为客户端,将数据(J ...

  8. sql+plus远程连接mysql_设置sqlplus访问远程oracle数据库的方法

    如果要连接远程数据库,传统的一定可行的方法是在本地装一个oracle,然后使用"Network Configuration Assistant"配置,之后用PL/SQL Dev连接 ...

  9. 云开发连接mysql_微信小程序云开发—云函数连接MySQL

    微信小程序云开发-云函数连接MySQL 直接上干货,主要是利用微信的云函数和Sequelize 进行连接外部MySQL ,本文章主要讲述: MySQL MySQL 拉取我的代码或则创建一个新的云开发小 ...

最新文章

  1. const在指针中的用法
  2. (转)java DecimalFormat用法
  3. linux安装vsftp教程,CentOS7 vsftp 安装与配置(视频教程)
  4. iptables 实际操作 之 规则查询 2
  5. 工作中常用到的sql命令!!!
  6. 文件服务器和客户模式有什么区别,客户端和服务器端编程有什么区别?
  7. ARM中Steppingstone启动
  8. jQuery 遍历:思路总结,项目场景中如何处理/控制获取的 each 遍历次数?
  9. (88)Verilog HDL系统函数和任务:$fdisplay
  10. 力扣45. 跳跃游戏 II(JavaScript)
  11. java-设计模式(行为型)-【命令模式】
  12. 【推荐】会被快速否决的9种求职者.
  13. 两个链表是否相交 + 赛马(分桶)
  14. 常见高清视频“扩展名”、视频标准
  15. 支付宝,模拟支付,JavaWeb为例
  16. Oracle数据库之日期查询
  17. 当你已经25:男生女生都该看
  18. 腾讯短链接在线生成工具
  19. 企业口碑营销,如何塑造全网优质口碑
  20. JVM调优理论与实践最佳结合

热门文章

  1. [坑]删除我的电脑中的各种云盘图标(WPS云、微盘云...)
  2. 最好用的设计稿实时预览工具【Sketch、Android App、iOS App】
  3. 将文件拖拽到.py文件上以处理它(从DropHandler说起)
  4. 如何处理具有指数增长或衰减特征的数据
  5. AD GPO应用实例
  6. proj4经纬度bl转换xy_用Excel转换经纬度BL到北京54系平面坐标
  7. Apple watch实现Personal Scrum
  8. 【观察】锐捷网络:坚定选择以太全光网路线,为企业级全光网树立新标准
  9. WINCE TCPMP应用三:TCPMP的播放模块
  10. Linux安装gitlab教程