把这个Excel文件下载到你的电脑上。
要将下载的数据导入RapidMiner,单击Repository面板中的import data,然后按照向导中的步骤操作。
完成导入后,将数据以Titanic的形式存储在本地存储库中。

默认情况下,左上角的Repository面板是存储所有数据、流程和结果的地方。应该始终将数据导入存储库,特别是来自XLS或CSV等文件的数据。这将大大简化分析过程的设计,因为RapidMiner的存储库将描述元数据和数据一起存储。

单击Design选项卡返回到流程面板。
将导入的泰坦尼克数据从Repository面板拖放到Process面板中。

当您将数据从存储库拖动到流程中时,它将转换为数据加载操作符(在本例中是检索Titanic)。在运行流程之前,不会实际加载数据(或在每个操作符的圆形输出端口交付数据)。
A
将Retrieve Titanic的输出端口与流程面板右侧的结果端口(“res”)连接。
通过在端口之间拖动一条线,或者首先单击一个端口,然后单击另一个端口来建立连接。
E
在执行流程之后,只能看到交付到右侧结果端口之一的数据。如果您的进程没有至少一个到结果端口的连接,那么在执行它时将看不到任何结果!

按Run(左上角)执行进程。

一旦运行,您将自动切换到显示结果的结果视图。还记得吗?这些是与流程面板右侧的结果端口之一连接的操作符输出。在任何时候,单击Design选项卡返回到流程面板。

您刚刚导入了您的第一个数据集!从现在开始,每个教程都包括一些额外的问题-为了进一步提高你的技能-看看下面的挑战!

您可以在结果中看到数据。您能找出丢失的值是如何显示的吗?
Statistics选项卡显示列中的数据摘要。有多少人乘坐头等舱?有多少人在泰坦尼克号事故中丧生?
如果你喜欢的话,可以玩玩这些图表。你能看到一些有趣的模式吗?
找出女性支付的最高票价。
在上一篇教程中,我们学习了如何将数据导入RapidMiner存储库,它是所有数据、模型和流程的中央存储。在本教程中,我们将对泰坦尼克数据应用一个过滤器,只查看女性乘客。然后,我们可以轻松地对数据进行排序,找出女性支付的最高票价。然后你可以运用你的新技能来回答同样的问题。你认为乘客票价会有所不同吗?

将泰坦尼克数据从示例存储库拖到流程中。
在RapidMiner中,行称为示例,数据表称为示例集。您将在RapidMiner中找到这些术语,因此有必要立即学习它们。

有很多方法可以为女性找到最高的票价。在本教程中,您将从表中删除men或“从示例集中过滤示例”。

使用操作面板顶部的搜索框搜索筛选示例操作符。将筛选器示例拖放到流程面板中。
连接检索泰坦尼克的输出端口与过滤器示例的输入端口。
单击“筛选器示例”以选择它,然后单击“参数”面板中的“添加筛选器”以定义筛选器。

在左边选择Sex,在中间选择equals,在右边输入Female。你可以点击魔棒,从列表中选择女性,而不是打字。

无论何时向流程添加操作符,都应该立即连接它。请记住,数据在操作符之间流动,因此操作符的连接可以影响其参数。例如:如果没有连接到数据源,筛选操作符如何“知道”列的性别?

搜索并将排序操作符拖到进程中。
连接过滤器的输出和排序的输入。
单击Sort以选择它。在参数面板进行以下更改:
将属性名设置为乘客票价。
将排序方向改为递减。
将排序输出端口连接到流程面板右侧的结果端口。
运行流程并检查结果。

大多数操作符都具有定义操作符工作方式的设置。您可以在Parameters面板的右侧找到这些,在您通过单击选择操作符之后。

做得好!现在你可以看到泰坦尼克号上为女性支付的最高票价:这是乘客票价栏的第一项。

向两个新数据集问好…
让我们从泰坦尼克号上休息一下,了解一下数据准备中其他一些经常使用的任务,特别是合并和分组数据。我们将处理两个数据集:一个包含组织出售的产品,另一个包含事务(关于哪个客户购买了哪个产品的信息)。结合这些集合,我们可以回答关于购买最频繁的产品或谁是你最忠实的客户的问题。让我们开始…

在repository面板中展开样例存储库。接下来,展开示例存储库中的data文件夹以检索产品和事务数据。
将产品数据和事务数据从Samples - data文件夹拖到Process面板中。

请记住,RapidMiner在数据进入流程时将其转换为检索产品和检索事务操作符,但是在执行流程之前不会加载数据。

在操作符面板顶部的搜索框中搜索联接操作符。将Join拖到流程面板中。
将检索产品的输出端口连接到连接的输入端口(与哪个端口无关)。
将检索事务连接到另一个连接输入端口。

单击Join以选择它。在Parameters面板中,取消选择使用id属性作为键。出现key attributes字段。

单击编辑列表。为左右键属性选择产品ID。然后,单击Apply。

记住,在开始更改操作符的参数之前,一定要连接它们。您只能在连接完成后从列表中选择产品ID,否则操作员将不知道有哪些数据可用。

连接的结果将是一个表,显示每个事务及其产品细节。定义为联接的键属性的两个ID列定义了两个原始表的行之间的映射。

将聚合操作符拖到流程中。将它连接到Join的输出。
单击聚合以进行选择。在参数面板进行以下更改:
单击group by属性。然后,通过向右移动产品ID来选择它。单击Apply。
单击聚合属性。
在左侧框中选择Customer ID,并在右侧框中设置function to count。
在此对话框中,添加另一个条目产品名称,并将函数设置为模式。单击Apply

使用属性。
您几乎已经准备好在RapidMiner中构建您的第一个预测模型了!但首先,我们需要处理两个非常重要的操作,将数据集转换为更适合学习的格式。这一过程的开始与前一过程相同;这对你来说是一个很好的机会去实现你目前学到的东西。然后我们将创建一个新的数据列,并从数据中删除一些未使用的/不必要的列。

将事务和产品数据集拖动到流程中。
添加连接操作符。
连接所有的运营商。

指定要在连接的参数中使用的列。也就是说,取消选择使用id属性作为键,单击编辑列表,并使用产品id作为左右键属性。

添加生成属性操作符。
连接连接操作符。

在“生成属性”的参数中单击“编辑列表”以定义新属性(列)。将弹出一个对话框。
在对话框的左列中,为属性名输入Total。
在右栏中,为函数表达式键入Amount*Price。

将Select Attributes操作符添加到流程并连接它。更改参数如下:
将属性筛选器类型设置为子集。通常,这意味着操作符将只应用于您指定的那些属性(列)。在这里,这允许您选择保留在数据中的列的子集—所有其他列都将被删除。

单击Select属性。
在结果对话框中,选择客户ID、产品名称和总属性。如果列表为空,则您忘记先连接操作员…
运行的过程。

您正在成为数据融合的大师!您现在已经看到了一些最重要的数据预处理操作符:连接、聚合、筛选、排序、生成属性和选择属性。RapidMiner有更多的操作符,但这6个操作符是最常用的。
预测是什么?
将泰坦尼克数据拖放到这个过程中。
现在,将鼠标悬停在Retrieve操作符的输出端口上,等待一个小窗口弹出并显示关于泰坦尼克数据集的一些元数据。您从Statistics选项卡中了解的一些信息。
请注意底部表中的两个列Role和Type。

Ps:属性的角色描述机器学习操作符如何使用列。没有任何角色的属性(也称为“常规”属性)被用作训练的输入,而id属性通常被建模算法忽略,因为它们只被用作数据观察的惟一标识符。
每个属性都有一个类型,用于定义列的可能值(例如,如果值可以是标称值或数值值)。

添加一个离散化操作符并连接它。在它的参数:
将属性筛选器类型设置为single(即只处理其中一个属性)。
设置属性为Age。
设置箱子数为3。

添加Set Role操作符并连接它。

在参数中,对于幸存的属性名,将目标角色更改为label。
运行流程并检查结果。

伟大的工作!设置属性角色在很多方面都很有用(例如,用于标识类id属性或示例权重),但最常用的是定义标签,即应该根据其他属性预测哪个属性。

RapidMiner相关推荐

  1. 借助亚马逊S3和RapidMiner将机器学习应用到文本挖掘

    本挖掘典型地运用了机器学习技术,例如聚类,分类,关联规则,和预测建模.这些技术揭示潜在内容中的意义和关系.文本发掘应用于诸如竞争情报,生命科学,客户呼声,媒体和出版,法律和税收,法律实施,情感分析和趋 ...

  2. 如何免费使用数据挖掘软件RapidMiner - 申请学生许可证

    如果你是一名在校学生,有校园邮箱,是可以免费使用RapidMiner的全部功能的,方法如下: -首先登录官网 https://rapidminer.com,注册账户,Account Type 需要选择 ...

  3. RapidMiner Studio for Mac - 可视化综合数据平台

    RapidMiner Studio具有可视化工作流程设计和完全自动化的综合数据科学平台.RapidMiner的数据科学平台为各行各业的 40,000 多个组织带来变革性的业务影响,以增加收入.降低成本 ...

  4. RapidMiner数据挖掘入门

    RapidMiner数据挖掘入门之一:概要 1 简介 RapidMiner原名Yale,它是用于数据挖掘.机器学习.商业预测分析的开源计算环境.根据KDnuggets在2011年的一次投票显示,从使用 ...

  5. 备忘--简单比较SPSS、RapidMiner、KNIME以及Kettle四款数据分析工具

    SPSS.RapidMiner.KNIME以及Kettle四款工具都可以用来进行数据分析,只是彼此有各自的侧重点和有劣势.它们都可以逐步的定义数据分析过程,也同样都可以对数据进行ETL处理.笔者从自己 ...

  6. java调用rapidminer_基于RapidMiner开发问题和解决

    RapidMiner(前身是YALE)是一个十分流行的开源数据挖掘软件,它不仅提供了一个GUI的数据处理和分析环境,还提供了Java API以便将它的能力嵌入其他应用程序.本文记录了基于RapidMi ...

  7. rapidminer员工离职分析_RapidMiner 9从根本上简化了分析团队的数据准备工作

    马萨诸塞州波士顿,2018年8月7日– RapidMiner™,领先的科学数据平台,数据分析团队,宣布RapidMiner 9.0与即将上市的Turbo准备.根据哈佛商业评论最近的一份出版物,分析团队 ...

  8. RapidMiner 5.3.015源代码下载并且正确的运行

    一,RapidMiner介绍 1, RapidMiner是一个开源数据挖掘工具,可以进行机器学习,数据挖掘,文本挖掘,预测性分析和商业分析,具有拖拽功能的图形化工具.无需编程.它开发且可扩展,拥有上百 ...

  9. 使用数据挖掘软件Rapidminer进行关联规则分析

    这段时间使用了Rapidminer进行关联规则的挖掘实验,很多细节问题折腾了好长时间.在网络上也搜不到类似的东西,尤其是中间遇到一个问题折腾了两天.最后是通过研究Rapidminer本身带有的例子才把 ...

  10. 如何用 RapidMiner 6.4 进行中文分词

    背景介绍:RapidMiner Studio 6.4 新功能增强了与备受欢迎的统计语言 R 的集成.该集成主要提供了 RapidMiner 与 R 结合时需要的核心功能.您现在可以在 RapidMin ...

最新文章

  1. 40.多进程同步--锁--多把锁
  2. 国外方案 组件化_网页webp解决方案
  3. RTK无人机应用市场
  4. TCp传输粘包问题
  5. Java类class isAnnotation()方法及示例
  6. c构造函数和析构函数_C ++构造函数,析构函数能力问题和答案(第2组)
  7. 网络编程demo之Udp和URL
  8. [Windows]win10时间同步错误的解决方法
  9. Lightroom 教程,如何将照片从 Lightroom 移至Photoshop,在 Ps 中合并图像?
  10. 标准紧固件孔、螺栓孔、自攻螺钉孔、螺纹孔、铆钉孔、腰孔、标准排水孔工艺及规范性公布
  11. 计算机系统中引入多道程序设计的目的在于,引入多道程序的目的在于什么
  12. 偏振融合伪彩色图像(原理)
  13. 《迅雷链精品课》第一课:认识区块链
  14. 花式登录正方教务系统
  15. 永久关闭IE 浏览器停止支持提示的方法 (针对360安全卫士或Windows 10)
  16. 区块链实战(一)实现简单的区块与区块链交易
  17. logging日志写入文件
  18. 2020.4.5 xctf(mfw)②
  19. RPC编程:Hessian RPC一个老的RPC框架(一)
  20. ScriptManager.RegisterStartupScript用法详解

热门文章

  1. PDF解密去水印工具
  2. App.config“配置系统未能初始化” 异常解决 C#
  3. 破解TexturePacker加密资源
  4. ubuntu android驱动,ubuntu中正确设置android手机驱动程序
  5. python3.6 编程技巧总结
  6. Linux模块化增加设备驱动程序
  7. 共模电压 matlab,SPWM死区对三电平高压变频器共模电压的影响
  8. EasyRecovery14免费并且超好用的数据恢复工具
  9. U盘数据恢复软件EasyRecovery的使用教程
  10. 筛选中很容易粘贴到被隐藏部分_excel数据复制到筛选表格被隐藏了-为什么数据粘贴至筛选后EXCEL 表格显示不完全?...