RapidMiner Studio 自动模型
自动模型
无论您是刚开始使用RapidMiner,还是老手,Auto Model都可以让您的生活更轻松。Auto Model是RapidMiner Studio的扩展,可加速构建和验证模型的过程。最重要的是,它创建了一个您自己可以修改或投入生产的流程 - 没有黑盒子!
Auto Model解决了三大类问题:
预测
聚类
离群值
在预测类别中,您可以解决分类和回归问题。自动模型可帮助您评估数据,提供解决问题的相关模型,并在计算完成后帮助您比较这些模型的结果。
自动模型不仅可以帮助您获得结果; 它还可以帮助您理解这些结果,即使对于内部逻辑可能难以理解的深度学习等模型也是如此。在RapidMiner Studio中,“自动模型”显示为视图,位于“设计”视图,“结果”视图和“Turbo准备”旁边。
示例:预测泰坦尼克号上的生存
为了展示自动模型的工作原理,我们将使用与RapidMiner Studio捆绑的数据集之一,泰坦尼克号数据集,并使用它来预测泰坦尼克号的生存。要开始使用,请Auto Model按RapidMiner Studio顶部的按钮选择视图。
选择数据
启动自动模型后,第一步是从您的某个存储库中选择一个数据集。如果您的数据不在存储库中,请单击屏幕顶部显示“首先导入新数据”的链接。
在我们的示例中,泰坦尼克号数据集可以在Samples> 下找到data。选择此数据集,然后单击Next屏幕底部的。
选择任务
选择数据集后,您必须确定要解决的问题类型。Auto Model识别三个不同的任务:
- 预测
- 集群
- 离群值
在我们的示例中,我们想要预测泰坦尼克号上的生存,因此您应该选择Predict,然后单击“生存”列,然后单击Next。
准备目标
由于“幸存”只有两个值,“是”或“否”,问题是分类问题。通常,对于分类问题,“自动模型”将显示一个条形图,其中包含每个类中的数据点数。当有十个以上的类时,只显示数据点最多的10个类。
最高兴趣等级
在Class of Highest Interest后来变得很重要,当结果呈现,因为性能值,如“精度”和“召回”需要知晓哪些类的应该被解释为“阳性”的结果。在我们关于泰坦尼克号的例子中,Class of Highest Interest是“是”。
将类映射到新值
此步骤包括将目标值从“是”和“否”重命名为其他值的选项。当有两个以上的类时,此选项可能更有用,因为它可用于组合类。输入新值时,请务必Enter按键完成。在我们的示例中,我们将忽略此选项。点击Next继续。
选择输入
并非所有数据列都可以帮助您进行预测。通过丢弃某些数据列,您可以加快模型速度和/或提高其性能。但是你如何做出这个决定呢?关键是你正在寻找模式。如果没有数据的某些变化和一些可辨别的模式,数据可能不会有用。
要注意的事项的快速摘要包括以下内容,其值显示在每个数据列的质量条旁边。
- 与目标列过于接近或完全不相关的列(相关),
- 几乎所有值都不同的列(ID-ness),
- 几乎所有值都相同的列(稳定性),
- 缺少值的列(缺失)。
自动模型使用颜色编码的状态气泡(红色/黄色/绿色)汇总情况。作为一般规则,最好至少取消选择那些具有红色状态气泡的列,但当然您可以取消选择您喜欢的任何列,而与其状态无关。机器学习模型的输入仅包括所选列。
在泰坦尼克号的情况下,“名称”和“票号”等同于ID。大多数乘客都缺少“客舱”值。因此,在构建模型时,应丢弃带有红色状态气泡的这三列。它们都没有帮助发现模式。
“Life Boat”有一个黄色的状态泡沫,因为此列中的数据与“Survived”高度相关。“救生艇”和“幸存者”实际上是同义词,因此最好从“救生艇”专栏中删除数据,让模型发现生存的根本原因。
换句话说,您希望该模型可以帮助您制定计划。一位乘客无法提前知道他是否会乘坐救生艇,因此不能成为该计划的一部分,但他可以决定支付多少钱,以及是否携带他的家人。
在此示例中,您还应该使用黄色状态气泡“Life Boat”取消选择数据,然后按Next。
型号类型
自动模型为您提供了一系列与您的问题相关的模型。如果没有时间限制,最好的选择可能是构建所有这些,并在完成后比较它们的性能。通常,您必须决定您的优先级:是完成模型的准确性,还是构建它所需的时间?Auto Model可帮助您达成合理的妥协。
在泰坦尼克号示例中,Auto Model提供以下模型:
- 朴素贝叶斯
- 广义线性模型
- Logistic回归
- 深度学习
- 决策树
- 随机森林
- 渐变树(XGBoost)
- 按下Run以构建模型并生成结果。
结果
根据您的数据集和您选择的型号,您可能必须等待结果。顶部的进度条跟踪正在进行的计算的状态。您可以通过按下Stop按钮随时停止建模。中间结果在可用时显示,例如,在Comparison> 下Overview。
对于泰坦尼克号数据集,Gradient Boosted Trees(XGBoost)模型需要最长的构建时间,但它也是最准确的模型。请参阅Comparison> Overview比较模型的准确性和运行时间。鉴于Gradient Boosted Trees相对于深度学习的边际性能优势,以及相当长的运行时间,您可能更喜欢在这种情况下使用深度学习模型。
模拟器和其他有用的操作符
自动模型不仅可以帮助您获得结果; 它还可以帮助您了解这些结果。深度学习因创建准确但非直观的模型而臭名昭着; 见证Deep Learning>> 下显示的模型描述Model。在下文中,我们将使用Auto Model提供的一些有用的用户界面来探索深度学习模型。
模拟器
要获得更好的洞察力,请选择Deep Learning> Simulator。在这里,您将看到左侧是滑块和下拉列表的用户界面,右侧是条形图。对于其初始状态,模拟模拟器选择平均数据值。在泰坦尼克号上,这个平均值相当于一名30岁左右的三级男性乘客,船上的亲属相对较少。
根据右边的上方条形图,最可能出现的情况是这名乘客无法生存。他的生存概率是11%。下方的条形图解释了什么是对他的反对:最重要的是,这是他的性别和他的乘客等级,显示为绿色条。在这种情况下,绿色意味着性别和乘客阶级同意生存的预测,即“否”。乘客票价的红色条和船上的亲属意味着对预测的不同意见,因此与生存率呈正相关。
模拟模拟器的优点在于它是交互式的,因此您可以随意更改所有值,并立即看到对预测的影响。例如,将性别从男性改为女性,生存概率增加到大约50%。然后将乘客等级改为第一或第二,并且生存概率增加到超过90%。
通过操纵所有滑块和下拉列表,您可以快速为模型构建一些直觉,即使它是由Deep Learning构建的。
模拟模拟器通过分析单个数据点附近的模型行为(局部相关性)来创建预测。要查看哪些数据列全局最重要,请注意列名称下显示的灰色条(全局关联)。其中,最长的酒吧出现在Sex下,其次是乘客舱和乘客费。
有关更多信息,请参阅 Model Simulator文档。
Prescriptive Analytics
一个明显的下一个问题是:乘客如何优化他在泰坦尼克号上的生存机会?
在这里,Auto Model也有答案!在模拟器的左下角,有一个标有按钮的按钮Optimize。按此按钮,一组对话框可帮助您构建配方。由于泰坦尼克号上的男性比女性更有风险,让我们找到男性的生存策略。
按Optimize,然后执行以下步骤:
- 在Define Targets>下Class to optimize for,选择“是”。按Next。
- 在Define Constraints>下Constant Attributes,按+按钮,然后选择“性别”等于“男性”。按Next。
- 在Optimization Parameters,按下Run。
- 按Finish。
结果立即显示在模拟器中,结论非常明显。在泰坦尼克号上拥有最大生存希望的男性乘客是一名4岁男孩,只有少数亲戚,在二等舱旅行。他的生存概率是91%。虽然上课绝对是泰坦尼克号上的一个问题,但即使是一个三等舱的男孩也有很大的生存机会,即68%,你可以从下拉列表中修改Passenger Class的价值。
模拟模拟器清楚地表明,泰坦尼克号上的乘客严格遵守救生艇上的“妇女和儿童第一”的理念。通过移动Age的滑块,您可以看到老年男性的生存概率不断下降。男性乘客的生存概率低于50%的年龄是班级的函数:
- 三年级16岁
- 二年级26岁
- 头等舱39岁
严格地说,我们还没有真正回答男乘客如何提高生存机会的问题。他的年龄已经给出,而且更昂贵的机票可能在经济上遥不可及。但是优化器和模拟模拟器一起让我们更好地理解了泰坦尼克号数据。
没有黑匣子
尽管Auto Model提供了许多有用的工具,但您可能希望亲眼看看!按Open Process模型模拟器的底部,用于构建模型的过程显示在RapidMiner的设计视图中。你可以运行这个过程,你可以修改这个过程,你可以做任何你喜欢的变化!Auto Model为您提供解决问题的工具,没有黑盒子。
为什么我们强调这一点?至少有三个原因:
- 如果不先了解模型,就永远不会将模型投入生产。您想要检查模型的工作原理,并向自己证明一切都是正确的。
- 新数据科学家可以通过检查过程来学习最佳实践。
- 专家数据科学家通过使用自动模型过程作为他们自己模型的起点,提高了生产力。
RapidMiner Studio 自动模型相关推荐
- RapidMiner Studio for Mac - 可视化综合数据平台
RapidMiner Studio具有可视化工作流程设计和完全自动化的综合数据科学平台.RapidMiner的数据科学平台为各行各业的 40,000 多个组织带来变革性的业务影响,以增加收入.降低成本 ...
- zend studio自动添加文件注释和方法注释
zend studio自动添加文件注释和方法注释 进入首选项=>PHP=>Editor=>Template=>New Name\Description\Pattern里面分别填 ...
- Android Studio自动排版格式化(android排版和xml排版)
Android Studio自动排版格式化 今天自己想让Android Studio软件自动格式化排版,结果搜了一下,都说是Ctrl + Alt + L 结果不行 后面自已经过网上一些提示和自己探索终 ...
- Android Studio自动生成UML关系图的方法步骤
本文主要介绍了Android Studio自动生成UML关系图,文中通过示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下 1.目录 安装Sketch It 安装"Pl ...
- Android studio自动登录和记住密码的实现
Android studio自动登录和记住密码的实现 文章目录 Android studio自动登录和记住密码的实现 前言 一.效果 二.设计思路 三.知识点介绍 1. SharedPreferenc ...
- Android Studio 自动更新失败解决办法
Android Studio 自动更新失败解决办法 Dec 26th, 2014 | Comments 昨天在G+中看到Android Studio又有更新了就心血来潮想去更新体验一下,可是无论我怎么 ...
- 关闭Android Studio自动折叠方法
关闭Android Studio自动折叠方法 方法自动折叠是这个样子 取消自动折叠,取消Method bodies的勾选即可
- Android studio 自动导入(全部)包 import
1 Android studio 只有import单个包的快捷键:Alt+Enter.没有Eclipse下的快速导入包的快捷键Ctrl+Shift+O. 2 但android studio设置里有一 ...
- 【AutoML】进化算法如何用于自动模型搜索(NAS)
大家好,欢迎来到专栏<AutoML>,在这个专栏中我们会讲述AutoML技术在深度学习中的应用,这一期讲述进化算法用于模型搜索的基本概念和流程. 作者&编辑 | 言有三 一直以来, ...
- android studio自动注释
Android Studio不能像eclipse似的自定义.敲击出来的就是简单的/**, 那么现在可以使用live templates替代.具体设置方法如下: 1.File->Setting-& ...
最新文章
- Bootstrap页面布局14 - BS按钮群组
- java 获取ip地址_老杜带你学Java【第二课】
- 2018 前端开发框架对比
- TCP/IP协议栈:TCP超时重传机制
- 数据结构实践课程设计【通讯录管理系统】
- WEB开发技术 知识点总结
- 手机wifi java_Android中使用WIFI来连接ADB
- CryEngine3渲染引擎剖析
- oracle update命令未正确结束,ORA-00933: SQL 命令未正确结束处理办法
- php c语言扩展名,c语言源程序的扩展名是什么
- Java中的判断语句
- concurrent.futures:线程池,让你更加高效、并发的处理任务
- Android压缩图片到100K以下并保持不失真的高效方法
- javascript 大文件下载,分片下载,断点续传
- 1.计算机指令系统,深入学习计算机指令系统唐书
- 邪恶花网站邪恶花_指标:良好VS邪恶
- Python切割图集
- php获取网站截图,异步获取评论者网站截图
- matlab 画graph
- Java遍历Map集合的第二种方法Entry对象遍历Map集合内元素
热门文章
- python在d盘创建txt文件_python中如何创建一个txt文件
- 备战面试日记(4.2.13)- (框架.Spring【十三】之Spring IOC 源码finishBeanFactoryInitialization())
- sqlserver Change Data CaptureChange Tracking
- womic网络错误_wo mic 电脑版下载-WO Mic Client下载 3.4 最新电脑版 - 河东下载站
- c语言头文件下载微盘,c语言头文件下载 C语言头文件大全.doc
- 谈谈RJ45线序的打法及口诀
- 双电阻差分电流采样_绝缘采样
- Linux安装软件的三种方式
- Python拟合SHARP红外测距传感器相关数据
- 74HC20中WR讲解