自动模型

无论您是刚开始使用RapidMiner,还是老手,Auto Model都可以让您的生活更轻松。Auto Model是RapidMiner Studio的扩展,可加速构建和验证模型的过程。最重要的是,它创建了一个您自己可以修改或投入生产的流程 - 没有黑盒子!

Auto Model解决了三大类问题:

预测
聚类
离群值
在预测类别中,您可以解决分类和回归问题。自动模型可帮助您评估数据,提供解决问题的相关模型,并在计算完成后帮助您比较这些模型的结果。

自动模型不仅可以帮助您获得结果; 它还可以帮助您理解这些结果,即使对于内部逻辑可能难以理解的深度学习等模型也是如此。在RapidMiner Studio中,“自动模型”显示为视图,位于“设计”视图,“结果”视图和“Turbo准备”旁边。

示例:预测泰坦尼克号上的生存

为了展示自动模型的工作原理,我们将使用与RapidMiner Studio捆绑的数据集之一,泰坦尼克号数据集,并使用它来预测泰坦尼克号的生存。要开始使用,请Auto Model按RapidMiner Studio顶部的按钮选择视图。

选择数据

启动自动模型后,第一步是从您的某个存储库中选择一个数据集。如果您的数据不在存储库中,请单击屏幕顶部显示“首先导入新数据”的链接。

在我们的示例中,泰坦尼克号数据集可以在Samples> 下找到data。选择此数据集,然后单击Next屏幕底部的。

选择任务

选择数据集后,您必须确定要解决的问题类型。Auto Model识别三个不同的任务:

  • 预测
  • 集群
  • 离群值

在我们的示例中,我们想要预测泰坦尼克号上的生存,因此您应该选择Predict,然后单击“生存”列,然后单击Next。

准备目标

由于“幸存”只有两个值,“是”或“否”,问题是分类问题。通常,对于分类问题,“自动模型”将显示一个条形图,其中包含每个类中的数据点数。当有十个以上的类时,只显示数据点最多的10个类。

最高兴趣等级
在Class of Highest Interest后来变得很重要,当结果呈现,因为性能值,如“精度”和“召回”需要知晓哪些类的应该被解释为“阳性”的结果。在我们关于泰坦尼克号的例子中,Class of Highest Interest是“是”。

将类映射到新值
此步骤包括将目标值从“是”和“否”重命名为其他值的选项。当有两个以上的类时,此选项可能更有用,因为它可用于组合类。输入新值时,请务必Enter按键完成。在我们的示例中,我们将忽略此选项。点击Next继续。

选择输入

并非所有数据列都可以帮助您进行预测。通过丢弃某些数据列,您可以加快模型速度和/或提高其性能。但是你如何做出这个决定呢?关键是你正在寻找模式。如果没有数据的某些变化和一些可辨别的模式,数据可能不会有用。

要注意的事项的快速摘要包括以下内容,其值显示在每个数据列的质量条旁边。

  • 与目标列过于接近或完全不相关的列(相关),
  • 几乎所有值都不同的列(ID-ness),
  • 几乎所有值都相同的列(稳定性),
  • 缺少值的列(缺失)。

自动模型使用颜色编码的状态气泡(红色/黄色/绿色)汇总情况。作为一般规则,最好至少取消选择那些具有红色状态气泡的列,但当然您可以取消选择您喜欢的任何列,而与其状态无关。机器学习模型的输入仅包括所选列。

在泰坦尼克号的情况下,“名称”和“票号”等同于ID。大多数乘客都缺少“客舱”值。因此,在构建模型时,应丢弃带有红色状态气泡的这三列。它们都没有帮助发现模式。

“Life Boat”有一个黄色的状态泡沫,因为此列中的数据与“Survived”高度相关。“救生艇”和“幸存者”实际上是同义词,因此最好从“救生艇”专栏中删除数据,让模型发现生存的根本原因。

换句话说,您希望该模型可以帮助您制定计划。一位乘客无法提前知道他是否会乘坐救生艇,因此不能成为该计划的一部分,但他可以决定支付多少钱,以及是否携带他的家人。

在此示例中,您还应该使用黄色状态气泡“Life Boat”取消选择数据,然后按Next。

型号类型

自动模型为您提供了一系列与您的问题相关的模型。如果没有时间限制,最好的选择可能是构建所有这些,并在完成后比较它们的性能。通常,您必须决定您的优先级:是完成模型的准确性,还是构建它所需的时间?Auto Model可帮助您达成合理的妥协。

在泰坦尼克号示例中,Auto Model提供以下模型:

  • 朴素贝叶斯
  • 广义线性模型
  • Logistic回归
  • 深度学习
  • 决策树
  • 随机森林
  • 渐变树(XGBoost)
  • 按下Run以构建模型并生成结果。

结果

根据您的数据集和您选择的型号,您可能必须等待结果。顶部的进度条跟踪正在进行的计算的状态。您可以通过按下Stop按钮随时停止建模。中间结果在可用时显示,例如,在Comparison> 下Overview。

对于泰坦尼克号数据集,Gradient Boosted Trees(XGBoost)模型需要最长的构建时间,但它也是最准确的模型。请参阅Comparison> Overview比较模型的准确性和运行时间。鉴于Gradient Boosted Trees相对于深度学习的边际性能优势,以及相当长的运行时间,您可能更喜欢在这种情况下使用深度学习模型。

模拟器和其他有用的操作符

自动模型不仅可以帮助您获得结果; 它还可以帮助您了解这些结果。深度学习因创建准确但非直观的模型而臭名昭着; 见证Deep Learning>> 下显示的模型描述Model。在下文中,我们将使用Auto Model提供的一些有用的用户界面来探索深度学习模型。

模拟器

要获得更好的洞察力,请选择Deep Learning> Simulator。在这里,您将看到左侧是滑块和下拉列表的用户界面,右侧是条形图。对于其初始状态,模拟模拟器选择平均数据值。在泰坦尼克号上,这个平均值相当于一名30岁左右的三级男性乘客,船上的亲属相对较少。

根据右边的上方条形图,最可能出现的情况是这名乘客无法生存。他的生存概率是11%。下方的条形图解释了什么是对他的反对:最重要的是,这是他的性别和他的乘客等级,显示为绿色条。在这种情况下,绿色意味着性别和乘客阶级同意生存的预测,即“否”。乘客票价的红色条和船上的亲属意味着对预测的不同意见,因此与生存率呈正相关。

模拟模拟器的优点在于它是交互式的,因此您可以随意更改所有值,并立即看到对预测的影响。例如,将性别从男性改为女性,生存概率增加到大约50%。然后将乘客等级改为第一或第二,并且生存概率增加到超过90%。

通过操纵所有滑块和下拉列表,您可以快速为模型构建一些直觉,即使它是由Deep Learning构建的。

模拟模拟器通过分析单个数据点附近的模型行为(局部相关性)来创建预测。要查看哪些数据列全局最重要,请注意列名称下显示的灰色条(全局关联)。其中,最长的酒吧出现在Sex下,其次是乘客舱和乘客费。

有关更多信息,请参阅 Model Simulator文档。

Prescriptive Analytics

一个明显的下一个问题是:乘客如何优化他在泰坦尼克号上的生存机会?

在这里,Auto Model也有答案!在模拟器的左下角,有一个标有按钮的按钮Optimize。按此按钮,一组对话框可帮助您构建配方。由于泰坦尼克号上的男性比女性更有风险,让我们找到男性的生存策略。

按Optimize,然后执行以下步骤:

  1. 在Define Targets>下Class to optimize for,选择“是”。按Next。
  2. 在Define Constraints>下Constant Attributes,按+按钮,然后选择“性别”等于“男性”。按Next。
  3. 在Optimization Parameters,按下Run。
  4. 按Finish。
    结果立即显示在模拟器中,结论非常明显。在泰坦尼克号上拥有最大生存希望的男性乘客是一名4岁男孩,只有少数亲戚,在二等舱旅行。他的生存概率是91%。虽然上课绝对是泰坦尼克号上的一个问题,但即使是一个三等舱的男孩也有很大的生存机会,即68%,你可以从下拉列表中修改Passenger Class的价值。

    模拟模拟器清楚地表明,泰坦尼克号上的乘客严格遵守救生艇上的“妇女和儿童第一”的理念。通过移动Age的滑块,您可以看到老年男性的生存概率不断下降。男性乘客的生存概率低于50%的年龄是班级的函数:
  • 三年级16岁
  • 二年级26岁
  • 头等舱39岁
    严格地说,我们还没有真正回答男乘客如何提高生存机会的问题。他的年龄已经给出,而且更昂贵的机票可能在经济上遥不可及。但是优化器和模拟模拟器一起让我们更好地理解了泰坦尼克号数据。

没有黑匣子

尽管Auto Model提供了许多有用的工具,但您可能希望亲眼看看!按Open Process模型模拟器的底部,用于构建模型的过程显示在RapidMiner的设计视图中。你可以运行这个过程,你可以修改这个过程,你可以做任何你喜欢的变化!Auto Model为您提供解决问题的工具,没有黑盒子。

为什么我们强调这一点?至少有三个原因:

  1. 如果不先了解模型,就永远不会将模型投入生产。您想要检查模型的工作原理,并向自己证明一切都是正确的。
  2. 新数据科学家可以通过检查过程来学习最佳实践。
  3. 专家数据科学家通过使用自动模型过程作为他们自己模型的起点,提高了生产力。

RapidMiner Studio 自动模型相关推荐

  1. RapidMiner Studio for Mac - 可视化综合数据平台

    RapidMiner Studio具有可视化工作流程设计和完全自动化的综合数据科学平台.RapidMiner的数据科学平台为各行各业的 40,000 多个组织带来变革性的业务影响,以增加收入.降低成本 ...

  2. zend studio自动添加文件注释和方法注释

    zend studio自动添加文件注释和方法注释 进入首选项=>PHP=>Editor=>Template=>New Name\Description\Pattern里面分别填 ...

  3. Android Studio自动排版格式化(android排版和xml排版)

    Android Studio自动排版格式化 今天自己想让Android Studio软件自动格式化排版,结果搜了一下,都说是Ctrl + Alt + L 结果不行 后面自已经过网上一些提示和自己探索终 ...

  4. Android Studio自动生成UML关系图的方法步骤

    本文主要介绍了Android Studio自动生成UML关系图,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下 1.目录 安装Sketch It 安装"Pl ...

  5. Android studio自动登录和记住密码的实现

    Android studio自动登录和记住密码的实现 文章目录 Android studio自动登录和记住密码的实现 前言 一.效果 二.设计思路 三.知识点介绍 1. SharedPreferenc ...

  6. Android Studio 自动更新失败解决办法

    Android Studio 自动更新失败解决办法 Dec 26th, 2014 | Comments 昨天在G+中看到Android Studio又有更新了就心血来潮想去更新体验一下,可是无论我怎么 ...

  7. 关闭Android Studio自动折叠方法

    关闭Android Studio自动折叠方法 方法自动折叠是这个样子 取消自动折叠,取消Method bodies的勾选即可

  8. Android studio 自动导入(全部)包 import

    1  Android studio 只有import单个包的快捷键:Alt+Enter.没有Eclipse下的快速导入包的快捷键Ctrl+Shift+O. 2 但android studio设置里有一 ...

  9. 【AutoML】进化算法如何用于自动模型搜索(NAS)

    大家好,欢迎来到专栏<AutoML>,在这个专栏中我们会讲述AutoML技术在深度学习中的应用,这一期讲述进化算法用于模型搜索的基本概念和流程. 作者&编辑 | 言有三 一直以来, ...

  10. android studio自动注释

    Android Studio不能像eclipse似的自定义.敲击出来的就是简单的/**, 那么现在可以使用live templates替代.具体设置方法如下: 1.File->Setting-& ...

最新文章

  1. Bootstrap页面布局14 - BS按钮群组
  2. java 获取ip地址_老杜带你学Java【第二课】
  3. 2018 前端开发框架对比
  4. TCP/IP协议栈:TCP超时重传机制
  5. 数据结构实践课程设计【通讯录管理系统】
  6. WEB开发技术 知识点总结
  7. 手机wifi java_Android中使用WIFI来连接ADB
  8. CryEngine3渲染引擎剖析
  9. oracle update命令未正确结束,ORA-00933: SQL 命令未正确结束处理办法
  10. php c语言扩展名,c语言源程序的扩展名是什么
  11. Java中的判断语句
  12. concurrent.futures:线程池,让你更加高效、并发的处理任务
  13. Android压缩图片到100K以下并保持不失真的高效方法
  14. javascript 大文件下载,分片下载,断点续传
  15. 1.计算机指令系统,深入学习计算机指令系统唐书
  16. 邪恶花网站邪恶花_指标:良好VS邪恶
  17. Python切割图集
  18. php获取网站截图,异步获取评论者网站截图
  19. matlab 画graph
  20. Java遍历Map集合的第二种方法Entry对象遍历Map集合内元素

热门文章

  1. python在d盘创建txt文件_python中如何创建一个txt文件
  2. 备战面试日记(4.2.13)- (框架.Spring【十三】之Spring IOC 源码finishBeanFactoryInitialization())
  3. sqlserver Change Data CaptureChange Tracking
  4. womic网络错误_wo mic 电脑版下载-WO Mic Client下载 3.4 最新电脑版 - 河东下载站
  5. c语言头文件下载微盘,c语言头文件下载 C语言头文件大全.doc
  6. 谈谈RJ45线序的打法及口诀
  7. 双电阻差分电流采样_绝缘采样
  8. Linux安装软件的三种方式
  9. Python拟合SHARP红外测距传感器相关数据
  10. 74HC20中WR讲解