rapidminer基础使用
部件
read csv
第一页:
Regular Expression:
\s+:空格
Use Quotes:输出的数据是否要用“”框起来
最后一页:
第一行:名称
第二行:数据类型:
text:可以在后续转为文本进行处理
polynomial:多项的
第三行:
label:要学习的标签
id:序列号
loop Files
将文件夹里的文件一个个导入,可以双击进入内部
Data to Documents:
把输入的text值转为文档,进行处理,一个记录转为一个文档。其他属性变为文档的原数据
loop collection
循环操作
勾选专家参数:
产生唯一的序号
macro:宏
双击可进入内部
后面要加Append部件进行合并
Append
合并数据集
Tokenize
筛选出符合要求的部分为token(一块),即进行切分
Extract Tokens from Documents
将输入的token转为一条记录
add meta information:添加原数据
Generate Attributes
产生新属性
引用宏属性:%{xxx}
允许覆盖原属性
Generate Attributes with Types
可以设置产生的属性类型
Generate Extract
source attribute:针对某属性
eg. 提取“/”前的内容为word,“/”后的内容为pos
| attribute name | query expression |
| word | | / |
| pos | / | |
Generate Incremental Attribute
第一次出现的字符为1,后面的值为前面的值加incremental value expression
attribute to be added:新的属性名
Replace
attribute filter type:
single:单个属性进行替换
subset:几个
replace what:
.:每个字符
replace by:
$0 :原字符后添加空格
Replace Tokens
对文档进行替换
Split Text Attribute
按照split expression进行分割
Select Attribute with Order
可以用来确定输出的排列+数量
Parse Numbers
把属性转为数值属性
Aggregate
将两个或多个对象合并为一个对象
use default aggregation:勾选可设置更详细的参数
aggregation attributes:聚类结果的字段属性
group by attributes:选择进行聚类的属性
Rename
修改属性名称
Multi-label Text Classificatiom
多标签文本分类
sentence attribute:句子属性
other seq attribute:
label separator:类表分隔符
optimization method:优化方法
RMSprop:
number of epochs:迭代次数
number of batches:批处理的数目
positive weight:正权重值,只对内部最后一个sigmoid部件有影响
number of threads:线程个数,一般是cpu核数的两倍
dropout probability:随机地删除隐藏层的单元数量,一般为0
l2 regularization:L2正则化,一般设为比较小的数字
layer data file:每次迭代后产生的模型存储位置,下一次运行时会先读取保存好的模型
sigmoid
把每个类别看做二分类,1是预测标签。0不是预测标签
Set Macro
设置宏属性,后续可以用%{}进行使用
Generate Macro
对宏属性进行操作
Write Excel
保存数据集
rapidminer基础使用相关推荐
- 【机器学习基础】关于异常检测的分享!
作者:赵越,卡内基梅隆大学,Datawhale特邀 作者信息 知乎微调:https://www.zhihu.com/people/breaknever 内容概括 1.什么是异常检测? 2.异常检测有什 ...
- RapidMiner Studio for Mac - 可视化综合数据平台
RapidMiner Studio具有可视化工作流程设计和完全自动化的综合数据科学平台.RapidMiner的数据科学平台为各行各业的 40,000 多个组织带来变革性的业务影响,以增加收入.降低成本 ...
- 使用数据挖掘软件Rapidminer进行关联规则分析
这段时间使用了Rapidminer进行关联规则的挖掘实验,很多细节问题折腾了好长时间.在网络上也搜不到类似的东西,尤其是中间遇到一个问题折腾了两天.最后是通过研究Rapidminer本身带有的例子才把 ...
- 数据分析系列之数据挖掘基础
了解什么是数据挖掘 1.假设背景 1. 在传统企业现状,以连锁餐饮为例? 今年来餐饮企业面临原材料上涨,房租上涨,人力成本升高的必然趋势,导致净利润大幅度下降,同时同业竞争的加剧的环境下,如何在保证产 ...
- Data Science Foundations: Data Mining 数据科学基础:数据挖掘 Lynda课程中文字幕
Data Science Foundations: Data Mining 中文字幕 数据科学基础:数据挖掘 中文字幕Data Science Foundations: Data Mining 所有数 ...
- java入门 慕路径,Java入门基础知识总结学习教程大全【必看经典】
类型的表达式,是循环条件,表达式3是党执行了一遍循环之后,修改控制循环的变量值. ??? for语句的执行过程是这样的:首先计算表达式1,完成必要的初始化工作:然后判断表达式2的值,如果表达式的值为t ...
- 提交表单自动刷新_Web自动化测试:元素的基础操作和浏览器基础操作
上一节,我们了解了如何定位元素,其实也有涉及对于元素的操作,这一节我们就详细的介绍一下对于元素的操作和对于浏览器的一些操作 一.对于元素的基础操作: clear():清除输入框内的文本 send_ke ...
- java mybatis基础
java mybatis基础 1.1 什么是mybatis? mybatis是一个优秀的持久层框架. 避免几乎所有的JDBC代码和手动设置参数以及获取结果集的过程. 可以使用简单的xml或者注解来配置 ...
- 【J2SE】学习基础
Java基础 语法基础 OO Exception Array 基础类 I/O Stream Collection/Generic Thread TCP/UDP GUI Meta Data Regula ...
- 【Linux系统】基础总结
我不太清楚运维部门具体是做什么的,就接触过一点点运维部门! 也就是是知道他们负责管理服务器,管理网络,管理项目部署 偶尔自己需要部署,不得不接触一些linux命令.简单总结一些基础 linux系统发展 ...
最新文章
- 关于用Delphi开发的一些基本的套路
- java的数据类型如下所示
- springboot3.x 集成持久层框架
- Mac 配置jupyter notebook 扩展 Nbextensions
- FTP(匿名登录)未授权访问漏洞复现(vsftpd2.3.4)
- 手把手教你搭建一个属于自己的网站-适合零基础小白,文末附网站模板
- 关于SQL sever中创建表时出现“对象名无效”的情况
- C++ SuperLU 混合编程
- TCP/IP网络编程之基于TCP的服务端/客户端(一)
- 电脑常用技巧:常用DOS命令大全
- 分享两个无限制的免费快递查询接口
- 期股和原始股的区别?
- 为何你的浏览器不信任GlobalSign签发的HTTPS证书?
- 基于sparkMLlib的机器学习_[1]_基本数据类型[4]分布式矩阵DistrubutedMatrix
- 【云计算】私有云是什么?主要集中在哪些行业?与公有云有什么区别?
- 十大关键词道破2016年安防状况
- CSP 2021考前每日2题(10-2)洛谷 P5020 货币系统 + USACO2021铜组 Uddered but not Herd
- 中通快递2019年第三季度营收同比增长24.4%至52.66亿元
- python课程水平测试成绩查询_学业水平测试(学业水平考试成绩查询系统)
- iPhone 隐藏底部 “Dock栏 ”教程
热门文章
- 乐播投屏显示服务器错误是什么意思,乐播投屏怎么用 乐播投屏常见问题汇总分享...
- Windows系统如何删除远程桌面连接记录
- 计算机考试报名填写完资料无法提交,护考报名入口已开通,常见问题看这里~...
- m126a linux驱动下载,hpm126a驱动下载
- 阿里3大营销模型:AIPL、FAST、GROW
- 问题 G: [入门OJ]差(NHOI2015xj6)
- 《动手学深度学习》入门环境安装
- python3下载m3u8转mp4_Python3爬虫通过m3u8文件下载ts视频 Python爬虫
- Xshell 安装教程以及踩过的坑
- [原创]用逻辑嗅探破解接触式IC卡口令