RapidMiner使用指南

01工具简介

02数据准备、导入、导出

数据清理:处理缺失数据、约简数据、处理不一致的数据、约简属性

  • 处理缺失数据:移除观察项、集中趋势算数度量代替缺失值等ReplaceMissingValue

  • 约简数据:屏蔽不需要的数据

  • 处理不一致的属性:与期望值不同

  • 属性约简:p维度数据–>数据集x’,维度小于p,消除冗余和不相关的数据

导入数据库

Tool->available database drivers 驱动的数据库

propoties文件与数据库的添加

管理数据库连接:

Connections->Legacy connections->Manage Database Connections可在其中配置连接信息

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7cLwi7R1-1660987669996)(RapidMiner教程(更新ing)].assets/image-20200418182005056.png)

Name:连接名字 Host:(MySQL)服务器的地址 Port:MySQL服务器的端口号

Database scheme:数据库的实例名字 User Password用户名(好像是root)和密码

Localrepository:本地资源库(将流程保存在process中) data:数据目录

03关联分析和关联规则

Part1关联分析

关联一种统计指标,用于衡量统计量之间的关系强度

数据理解

Insulation 每个家庭的保温层厚度

temperature 每个家庭最近一年的户外平均环境温度

Heating_Oil 最近一年来热燃油用量

Num_Occupants 家庭人口数

Avg_Age 平均年龄

Home_Size 房屋大小

导入数据

File–>import data (演示中的csv文件选择列用逗号分割)

建模

Correlation Matrix 关联矩阵(反应属性值之间的关系强度)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SqUP4SVi-1660987669998)(RapidMiner教程(更新ing)].assets/image-20200418194027781.png)

模型评估和部署

评估:0~1 正关联; -1~0 负关联

部署:根据模型的结果进行

关联关系不等于因果关系,且关联系数并不表示一个属性变化对另一个属性带来的变化值

用于分类、发现趋势(问题中的因素如何相互关联)

Part2关联规则

关联规则是一种数据挖掘方法,旨在寻找数据集内的属性之间的频繁关联

eg. 哪些产品最经常在一起被购买,电商网站推荐

Elapsed_Time 每个调查对象完成调查所用的时间,精确到0.1分钟

Time_in_Community 用于调查对象在区域居住时的时间是0-2年,3-9年还是10年以上(三类)

Gender Working Age 性别,工作,年龄–>个人属性

Family 是否为家庭导向型的社团组织成员

Hobbies 是否为兴趣爱好导向型的社团组织成员

Social_Club 是否为社区社会组织的成员

Political 是否为政治组织成员

Professional 是否为专业组织成员

Religious 是否为社区教会的成员

Support_Group 是否为援助导向型的社团组织成员

导入数据

一般在均值和两个标准差之外的成为离群点

有些属性和社团没有什么影响

模型

Select Attributes:选择属性操作符(选择需要进行到下一步的操作符)

​ 在attribute filter type中可以选择属性子集,在attributes选择需要包含的内容

Numerical to Binomina:数值到二值转换 此时表格属性全为integer,属性过滤类型可选全部

FP-Growth :找到上个操作返回值的关联关系,生成关联矩阵 ( 平凡项模式

​ 属性会伴随着其他属性以什么样的支持度出现

​ min support最小支持度 :前键为True时后键也为True的概率 前提-结论规则

Create Assotiation Rules:可以通过调整建立关系的参数

​ min confidence 例如最小置信度

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4ZXpODot-1660987670000)(RapidMiner教程(更新ing)].assets/image-20200418204119371.png)

模型评估和部署

置信度:有多大信心在一个属性被标记为T是,其关联实行也被标记为T

支持度:规则发生的次数除以数据集中观察项的数量

支持度没有逆值,支持度属性相反不会变化,但置信度的属性相反会会发生变化

  • 将置信度从0.8改为0.5

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uzM55LfP-1660987670001)(RapidMiner教程(更新ing)].assets/image-20200418204457262.png)

  • 修改后关联规则Graph可视化(规则/置信度/支持度)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rVSw0q8T-1660987670002)(RapidMiner教程(更新ing)].assets/image-20200418204721844.png)

相反规则支持度不变,置信度改变

模型部署:通过积极调动家庭组织,宗教组织,兴趣爱好组织可以找到城市中可以开展项目合作的团体。让宗教团体的人改善当地自行车道(Hobbies),清扫公园(Family)等…

04K-means分析和辨别分析

06决策树和神经网络

Part1决策树

  • 决策树的生成:训练集;
  • 决策树的剪枝:测试数据集(校验,修正);
User_ID Gender Age Marital_Status Website_Activity
唯一标识符 性别MF 年龄 婚姻状况(M已婚S未婚丧偶) 活跃程度(分成类别)
Browsed_Electronics_12Mo Bought_Electronics_12Mo
1年内是否在公司网站上浏览电子产品Yes/No 1年内是否在公司网站上购买电子产品Yes/No
Bought_Digital_Media_18Mo Bought_Digital_Books Payment_Method
是否上购买过某种形式数字媒体Yes/No 购买电子阅读器;可能最佳 付款方式

eReader_Adoption:训练集中的标签值

tips:决策树可以处理非数据类型 多类型数据

模型

用户id只是唯一表示符,与分类依据无关

Set Role : attribute name选择User_id,target role选择id

​ 对于训练集还有一个label属性也要进行上述操作,设置角色target role为laebl

​ 想要删除掉标记可以在edit list中remove entry

输出后可以发现被set role后的列会高亮

Decision Tree:决策树模型(不同算法criterion中选择,复杂的精度也高/maximal depth决策树最多拓展几 层/叶子大小等等)

  • 节点:不同属性。敏感程度自上而下降低。
  • 叶子节点:鼠标靠近出现点击图标,可以看出各种结果所占的比例

Apply Model:连接训练集与测试集

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-C3YtzH9O-1660987670003)(RapidMiner教程(更新ing)].assets/image-20200418232957601.png)

模型评估

交叉验证Cross Validation:显示感叹号–>未配置好,运行后返回每个类别的precision和recall

双击进入进行配置:绘制子流程

performance:连接在测试集上进行评价

点击process回到主流程

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PLRBJxht-1660987670005)(RapidMiner教程(更新ing)].assets/image-20200419000101482.png)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-K9tYHMvy-1660987670005)(RapidMiner教程(更新ing)].assets/image-20200419000235258.png)

模型部署

对较早购买者不用促销和广告投放

对较早期购买者可以重点投放,促成购买

对中期主体购买者可以提供一定的优惠政策

对晚期购买者可以放弃广告投放

07 文本挖掘

导入数据

数据与处理

分词处理process Documents from Data :处理关系型数据。exa端口输出单词矢量矩阵;wor单词词频列表

​ 对比:process Document

在“Process Documents from Data”操作符参数设置里,如下图我们可以进行许多的参数调整,例如vector creation中除了可以选择“TF-IDF”以外,我们还可以选择“Term Occurrences”单词出现的频率统计,或者“Binary Term Occurrences”二值属性作为输出结果的统计形式。

  • 通过百分比的范围来约简单词数

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dveZAkI7-1660987670006)(RapidMiner教程(更新ing)].assets/image-20200617170616113.png)

  • 进入分词处理操作器中:

在上述操作符中需要添加英文分词的操作符号tokenize:把输入的text型字段处理成document类型

其他功能:

转换大小写:Transform Cases 词根处理:Stem(Porter)

过滤停用词:Filter Stepword 处理短语:Generate n-Grams(Terms)

预测分析

617170616113.png)

  • 进入分词处理操作器中:

在上述操作符中需要添加英文分词的操作符号tokenize:把输入的text型字段处理成document类型

其他功能:

转换大小写:Transform Cases 词根处理:Stem(Porter)

过滤停用词:Filter Stepword 处理短语:Generate n-Grams(Terms)

预测分析

贝叶斯算法:对于大量的稀疏矩阵做分类效果好

RapidMiner简单入门教程——入门必看超详细相关推荐

  1. c++ stack用法 入门必看 超详细

    1.stack的作用 stack是一个比较简单易用的数据结构,其最大的特性就是先进后出.就好比一个桶,先放进出的数据就在底部,如果想要取出就先要把上面的数据取出,现在不懂没关系,看完本文就可以理解了. ...

  2. Qt Designer入门教程 初学者必看

    在Linux下,一个非常流行的RAD工具就是Qt Designer.它是嵌入式公司 Trolltech的Qt软件包的一个组成部分. Qt Designer入门教程 初学者必看是本文要介绍的内容,不说这 ...

  3. FFmpeg视频处理入门教程(新手必看)

    本文主要介绍了FFmpeg视频处理入门教程,它功能强大,用途广泛,是许多音频和视频格式的标准编码/解码实现,具有一定的参考价值,感兴趣的小伙伴们可以参考一下 FFmpeg 是视频处理最常用的开源软件. ...

  4. c++ vector用法 入门必看 超详细

    1.vector的作用 vector是最常用的容器之一,功能十分强大,可以储存.管理各种类型的数据.在很多情况下可以用来代替功能比较局限的普通数组,因为我们知道,普通数组只能实现一对一的映射而不能实现 ...

  5. 命名实体识别入门教程(必看)

    关于开发自己的命名实体识别先期思路: 虽然网上有很多相关代码,但实际如何入门材料较少,故整理下: CRF:先期可以用人民日报语料库去做,步骤如下: https://blog.csdn.net/hude ...

  6. c++ string用法 入门必看 超详细

    1.string的作用 string就是字符串的意思,是c++用来代替char数组的数据结构.里面封装了一些常用的方法,方便我们地对其进行一些操作,而且string的空间大小是动态变化的,大大减小了不 ...

  7. 自学python买什么教材-从入门到进阶必看,51本Python精品书籍免费送!

    原标题:从入门到进阶必看,51本Python精品书籍免费送! 源 /网络 Python是一种多功能语言.它经常用作Web应用程序的脚本语言,嵌入到软件产品中,以及人工智能和系统任务管理.它既简单又强大 ...

  8. 新手如何快速入门Python(菜鸟必看篇)

    学习任何一门语言都是从入门(1年左右),通过不间断练习达到熟练水准(3到5年),少数人最终能精通语言,成为执牛耳者,他们是金字塔的最顶层.虽然万事开头难,但好的开始是成功的一半,今天这篇文章就来谈谈如 ...

  9. 热烈推荐: A*算法 (启发式搜索的入门篇,必看)转载

    热烈推荐: A*算法 (启发式搜索的入门篇,必看)转载 (2005-10-8 21:56)在搜索式算法中,A*算法算是个分水岭.因为它引入了启发式估价函数,从"瞎搜"转化到了&qu ...

  10. Java如何快速入门?Java初学者从入门到精通必看!

            作为刚刚接触Java的小白来说,最担心的应该就是Java怎么学,都需要掌握哪些内容?今天这篇文章希望能帮助大家快速入门Java,少走弯路! 如何快速入门Java? 一.作为刚接触Jav ...

最新文章

  1. tf.keras.activations.softmax 激活函数 示例
  2. linux虚拟机安装oracle全过程(一)
  3. redis小功能大用处-bitmaps
  4. gopacket 在 windows 上面遇到的问题
  5. 延边大学计算机金小峰,第九届中国信息安全博士论坛在我校开幕
  6. linux 下搭建postfix服务器
  7. Snake Ladders bfs
  8. vijos 1083 小白逛公园
  9. 计算机在材料科学与工程中的应用,计算机在材料科学与工程中的应用
  10. Python实现中英文分词
  11. 最新 Molecular Operating Environment (MOE) Linux Windows
  12. 《设计模式沉思录》—第2章2.4节访问权限
  13. Centos7系统升级
  14. 条形码扫描仪行业调研报告 - 市场现状分析与发展前景预测
  15. MATLAB小数取整
  16. Raspberry 2B+系统安装Hass
  17. 【MYSQL】误删数据恢复流程说明
  18. tlp导致linux运行缓慢,Ubuntu 18.04安装tlp实现电源管理,解决风扇狂转问题
  19. app开发-CocoaChina
  20. Prior 、Posterior 和 Likelihood 的理解与几种表达方式

热门文章

  1. 计算机主板手工,高手在民间 DIY牛人打造实木机箱全纪录
  2. 自制solidworks图框步骤_SolidWorks教你如何快速制作工程图模板
  3. Java实现数组反转
  4. iphone修改app名称_iOS应用如何修改APP图标?
  5. 菩提心的修法-四无量心的具体修法
  6. 中古调式(调式音阶) 二
  7. 【Unity3D日常BUG】Unity3D 中听不到声音解决方案
  8. 在Linux操作系统中,下载并安装软件
  9. dirent struct,在struct dirent可以文件名有非标准字符?
  10. 平面设计banner排版技巧哪些比较实用