RapidMiner简单入门教程——入门必看超详细
RapidMiner使用指南
01工具简介
02数据准备、导入、导出
数据清理:处理缺失数据、约简数据、处理不一致的数据、约简属性
处理缺失数据:移除观察项、集中趋势算数度量代替缺失值等ReplaceMissingValue
约简数据:屏蔽不需要的数据
处理不一致的属性:与期望值不同
属性约简:p维度数据–>数据集x’,维度小于p,消除冗余和不相关的数据
导入数据库
Tool->available database drivers 驱动的数据库
propoties文件与数据库的添加
管理数据库连接:
Connections->Legacy connections->Manage Database Connections可在其中配置连接信息
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7cLwi7R1-1660987669996)(RapidMiner教程(更新ing)].assets/image-20200418182005056.png)
Name:连接名字 Host:(MySQL)服务器的地址 Port:MySQL服务器的端口号
Database scheme:数据库的实例名字 User Password用户名(好像是root)和密码
Localrepository:本地资源库(将流程保存在process中) data:数据目录
03关联分析和关联规则
Part1关联分析
关联一种统计指标,用于衡量统计量之间的关系强度
数据理解
Insulation 每个家庭的保温层厚度
temperature 每个家庭最近一年的户外平均环境温度
Heating_Oil 最近一年来热燃油用量
Num_Occupants 家庭人口数
Avg_Age 平均年龄
Home_Size 房屋大小
导入数据
File–>import data (演示中的csv文件选择列用逗号分割)
建模
Correlation Matrix
关联矩阵(反应属性值之间的关系强度)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SqUP4SVi-1660987669998)(RapidMiner教程(更新ing)].assets/image-20200418194027781.png)
模型评估和部署
评估:0~1 正关联; -1~0 负关联
部署:根据模型的结果进行
关联关系不等于因果关系,且关联系数并不表示一个属性变化对另一个属性带来的变化值
用于分类、发现趋势(问题中的因素如何相互关联)
Part2关联规则
关联规则是一种数据挖掘方法,旨在寻找数据集内的属性之间的频繁关联
eg. 哪些产品最经常在一起被购买,电商网站推荐
Elapsed_Time 每个调查对象完成调查所用的时间,精确到0.1分钟
Time_in_Community 用于调查对象在区域居住时的时间是0-2年,3-9年还是10年以上(三类)
Gender Working Age 性别,工作,年龄–>个人属性
Family 是否为家庭导向型的社团组织成员
Hobbies 是否为兴趣爱好导向型的社团组织成员
Social_Club 是否为社区社会组织的成员
Political 是否为政治组织成员
Professional 是否为专业组织成员
Religious 是否为社区教会的成员
Support_Group 是否为援助导向型的社团组织成员
导入数据
一般在均值和两个标准差之外的成为离群点
有些属性和社团没有什么影响
模型
Select Attributes
:选择属性操作符(选择需要进行到下一步的操作符)
在attribute filter type中可以选择属性子集,在attributes选择需要包含的内容
Numerical to Binomina
:数值到二值转换 此时表格属性全为integer,属性过滤类型可选全部
FP-Growth
:找到上个操作返回值的关联关系,生成关联矩阵 ( 平凡项模式)
属性会伴随着其他属性以什么样的支持度出现
min support最小支持度 :前键为True时后键也为True的概率 前提-结论规则
Create Assotiation Rules
:可以通过调整建立关系的参数
min confidence 例如最小置信度
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4ZXpODot-1660987670000)(RapidMiner教程(更新ing)].assets/image-20200418204119371.png)
模型评估和部署
置信度:有多大信心在一个属性被标记为T是,其关联实行也被标记为T
支持度:规则发生的次数除以数据集中观察项的数量
支持度没有逆值,支持度属性相反不会变化,但置信度的属性相反会会发生变化
- 将置信度从0.8改为0.5
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uzM55LfP-1660987670001)(RapidMiner教程(更新ing)].assets/image-20200418204457262.png)
- 修改后关联规则Graph可视化(规则/置信度/支持度)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rVSw0q8T-1660987670002)(RapidMiner教程(更新ing)].assets/image-20200418204721844.png)
相反规则支持度不变,置信度改变
模型部署:通过积极调动家庭组织,宗教组织,兴趣爱好组织可以找到城市中可以开展项目合作的团体。让宗教团体的人改善当地自行车道(Hobbies),清扫公园(Family)等…
04K-means分析和辨别分析
06决策树和神经网络
Part1决策树
- 决策树的生成:训练集;
- 决策树的剪枝:测试数据集(校验,修正);
User_ID Gender Age Marital_Status Website_Activity 唯一标识符 性别MF 年龄 婚姻状况(M已婚S未婚丧偶) 活跃程度(分成类别)
Browsed_Electronics_12Mo Bought_Electronics_12Mo 1年内是否在公司网站上浏览电子产品Yes/No 1年内是否在公司网站上购买电子产品Yes/No
Bought_Digital_Media_18Mo Bought_Digital_Books Payment_Method 是否上购买过某种形式数字媒体Yes/No 购买电子阅读器;可能最佳 付款方式 eReader_Adoption:训练集中的标签值
tips:决策树可以处理非数据类型 多类型数据
模型
用户id只是唯一表示符,与分类依据无关
Set Role
: attribute name选择User_id,target role选择id
对于训练集还有一个label属性也要进行上述操作,设置角色target role为laebl
想要删除掉标记可以在edit list中remove entry
输出后可以发现被set role后的列会高亮
Decision Tree
:决策树模型(不同算法criterion中选择,复杂的精度也高/maximal depth决策树最多拓展几 层/叶子大小等等)
- 节点:不同属性。敏感程度自上而下降低。
- 叶子节点:鼠标靠近出现点击图标,可以看出各种结果所占的比例
Apply Model
:连接训练集与测试集
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-C3YtzH9O-1660987670003)(RapidMiner教程(更新ing)].assets/image-20200418232957601.png)
模型评估
交叉验证Cross Validation
:显示感叹号–>未配置好,运行后返回每个类别的precision和recall
双击进入进行配置:绘制子流程
performance
:连接在测试集上进行评价
点击process回到主流程
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PLRBJxht-1660987670005)(RapidMiner教程(更新ing)].assets/image-20200419000101482.png)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-K9tYHMvy-1660987670005)(RapidMiner教程(更新ing)].assets/image-20200419000235258.png)
模型部署
对较早购买者不用促销和广告投放
对较早期购买者可以重点投放,促成购买
对中期主体购买者可以提供一定的优惠政策
对晚期购买者可以放弃广告投放
07 文本挖掘
导入数据
数据与处理
分词处理process Documents from Data
:处理关系型数据。exa端口输出单词矢量矩阵;wor单词词频列表
对比:process Document
在“Process Documents from Data”操作符参数设置里,如下图我们可以进行许多的参数调整,例如vector creation中除了可以选择“TF-IDF”以外,我们还可以选择“Term Occurrences”单词出现的频率统计,或者“Binary Term Occurrences”二值属性作为输出结果的统计形式。
- 通过百分比的范围来约简单词数
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dveZAkI7-1660987670006)(RapidMiner教程(更新ing)].assets/image-20200617170616113.png)
- 进入分词处理操作器中:
在上述操作符中需要添加英文分词的操作符号tokenize
:把输入的text型字段处理成document类型
其他功能:
转换大小写:Transform Cases
词根处理:Stem(Porter)
过滤停用词:Filter Stepword
处理短语:Generate n-Grams(Terms)
预测分析
617170616113.png)
- 进入分词处理操作器中:
在上述操作符中需要添加英文分词的操作符号tokenize
:把输入的text型字段处理成document类型
其他功能:
转换大小写:Transform Cases
词根处理:Stem(Porter)
过滤停用词:Filter Stepword
处理短语:Generate n-Grams(Terms)
预测分析
贝叶斯算法:对于大量的稀疏矩阵做分类效果好
RapidMiner简单入门教程——入门必看超详细相关推荐
- c++ stack用法 入门必看 超详细
1.stack的作用 stack是一个比较简单易用的数据结构,其最大的特性就是先进后出.就好比一个桶,先放进出的数据就在底部,如果想要取出就先要把上面的数据取出,现在不懂没关系,看完本文就可以理解了. ...
- Qt Designer入门教程 初学者必看
在Linux下,一个非常流行的RAD工具就是Qt Designer.它是嵌入式公司 Trolltech的Qt软件包的一个组成部分. Qt Designer入门教程 初学者必看是本文要介绍的内容,不说这 ...
- FFmpeg视频处理入门教程(新手必看)
本文主要介绍了FFmpeg视频处理入门教程,它功能强大,用途广泛,是许多音频和视频格式的标准编码/解码实现,具有一定的参考价值,感兴趣的小伙伴们可以参考一下 FFmpeg 是视频处理最常用的开源软件. ...
- c++ vector用法 入门必看 超详细
1.vector的作用 vector是最常用的容器之一,功能十分强大,可以储存.管理各种类型的数据.在很多情况下可以用来代替功能比较局限的普通数组,因为我们知道,普通数组只能实现一对一的映射而不能实现 ...
- 命名实体识别入门教程(必看)
关于开发自己的命名实体识别先期思路: 虽然网上有很多相关代码,但实际如何入门材料较少,故整理下: CRF:先期可以用人民日报语料库去做,步骤如下: https://blog.csdn.net/hude ...
- c++ string用法 入门必看 超详细
1.string的作用 string就是字符串的意思,是c++用来代替char数组的数据结构.里面封装了一些常用的方法,方便我们地对其进行一些操作,而且string的空间大小是动态变化的,大大减小了不 ...
- 自学python买什么教材-从入门到进阶必看,51本Python精品书籍免费送!
原标题:从入门到进阶必看,51本Python精品书籍免费送! 源 /网络 Python是一种多功能语言.它经常用作Web应用程序的脚本语言,嵌入到软件产品中,以及人工智能和系统任务管理.它既简单又强大 ...
- 新手如何快速入门Python(菜鸟必看篇)
学习任何一门语言都是从入门(1年左右),通过不间断练习达到熟练水准(3到5年),少数人最终能精通语言,成为执牛耳者,他们是金字塔的最顶层.虽然万事开头难,但好的开始是成功的一半,今天这篇文章就来谈谈如 ...
- 热烈推荐: A*算法 (启发式搜索的入门篇,必看)转载
热烈推荐: A*算法 (启发式搜索的入门篇,必看)转载 (2005-10-8 21:56)在搜索式算法中,A*算法算是个分水岭.因为它引入了启发式估价函数,从"瞎搜"转化到了&qu ...
- Java如何快速入门?Java初学者从入门到精通必看!
作为刚刚接触Java的小白来说,最担心的应该就是Java怎么学,都需要掌握哪些内容?今天这篇文章希望能帮助大家快速入门Java,少走弯路! 如何快速入门Java? 一.作为刚接触Jav ...
最新文章
- tf.keras.activations.softmax 激活函数 示例
- linux虚拟机安装oracle全过程(一)
- redis小功能大用处-bitmaps
- gopacket 在 windows 上面遇到的问题
- 延边大学计算机金小峰,第九届中国信息安全博士论坛在我校开幕
- linux 下搭建postfix服务器
- Snake Ladders bfs
- vijos 1083 小白逛公园
- 计算机在材料科学与工程中的应用,计算机在材料科学与工程中的应用
- Python实现中英文分词
- 最新 Molecular Operating Environment (MOE) Linux Windows
- 《设计模式沉思录》—第2章2.4节访问权限
- Centos7系统升级
- 条形码扫描仪行业调研报告 - 市场现状分析与发展前景预测
- MATLAB小数取整
- Raspberry 2B+系统安装Hass
- 【MYSQL】误删数据恢复流程说明
- tlp导致linux运行缓慢,Ubuntu 18.04安装tlp实现电源管理,解决风扇狂转问题
- app开发-CocoaChina
- Prior 、Posterior 和 Likelihood 的理解与几种表达方式