一、读Access

概述

该操作符从Access 数据库读取一个数据集。

描述

这个操作符用JDBC-ODBC-Bridge从Microsoft Access数据库中读取数据集。

输入

输出

output:

参数

username: Access 数据库用户名。
password: Access 数据库密码。
define query: 指定是否应直接的定义数据库查询,通过一个文件或隐式的通过一个给定的表名。
query: 一个SQL查询。
query file: 包含SQL查询的文件。
table name: 应读取的Access 数据库中的单个表名。
database file: 应读的包含Access 数据库的mdb 文件。

二、读CSV

概述

该操作符能读 csv 文件。

描述

这个操作符可以读CSV文件,一个实例的所有值被写入一行,并被一个常量分隔符分开。在列分隔符参数中,分隔符可能被指定。默认将在每个逗号,分号,空白处分开。任意正则表达式不能作为
分隔符。空值和问号将被读取为缺省值。你能用双引号引用该值(包括列分隔符)。你能用一个反斜线,即“\”转义引用字符。
第一行用于作为默认的属性名称,使用第一行作为属性名参数进行控制。 通过读前几行并检查发生的值,这个操作符试着决定属性的一个合适的类型。如果所有的值是整数,该属性将成为整数,如
果出现实数,将成为实数类型。列包含的不能被解释为数字的值将是标称的,只要它们不匹配日期格式参数的日期和时间模式。如果它们这样做了,csv文件的这列将自动的被解析为日期,并根据属
性成为日期类型。

输入

输出

output:

参数

configure operator: 通过向导配置该操作符。
file name: 从该文件读取数据的文件名。
encoding: 用于读或写文件的文件名。
trim lines: 表示在列分裂执行之前是否修剪行(在开始和结束处删除空格)。如果TABs被用作为分隔
符,该选项可能会有问题。
skip comments: 表示是否使用注释字符。
comment characters: 以这些字符开始的行被忽略。
use first row as attribute names: 从文件读取数据名(假设属性名在文件的第一行)。
use quotes: 表示是否考虑引用。
quotes character: 引用字符。
escape character for quotes: 用于转义引用的字符。
column separators: 数据文件的列分隔符(正则表达式)。
parse numbers: 表示是否解析数据。
decimal character: 小数字符。
grouped digits: 稀疏分组数字。
grouping character: 分组字符。
date format: 日期值模式格式。
read not matching values as missings: 将与指定值类型不匹配的值视为缺失。
data set meta data information: 元数据信息。
attribute names already defined: 该参数描述是否由用户手工设置属性名,或由读者生成。(文件第一行的通用名)。

三、读Excel

概述

该操作符从Excel电子表格文件中读取一个实例集。

描述

这个操作符可以用来从Microsoft Excel电子表格中加载数据。这个操作符能够从Excel 95, 97, 2000, XP,和 2003中读取数据。用户必须定义工作薄中的哪个电子表格应该被用来作为数据表。该表必须有一个格式,以便每一行是一个实例,每一列代表一个属性。请注意,第一行可能被用于属性名称,它能被一个参数指明。
数据表能被放在图标的任何位置,并允许包含任意格式的指令,空行和空列。缺失数据值用空单元格或只包含“?”的单元格显示。

输入

输出

output:

参数

configure operator: 通过向导配置该操作符。
excel file: 从 excel 文件读取数据的 excel 文件名。
sheet number: 应插入的工作表数。
row offset: 在包含无用数据的工作表的头部跳过的行数。
column offset: 在包含无用数据的工作表的左侧跳过的列数。
first row as names: 表示是否第一行应用于属性名
annotations: 为注释名绘制行号。
read not matching values as missings: 将不匹配指定值类型的值视为去缺失。
data set meta data information: 元数据信息。
attribute names already defined: 该参数描述是否属性名由用户手动的设置,或由读者生成(文件第一
行的通用名称) 。

四、读XML

概述

此操作符可以读取XML文件。

描述

此操作符可以读取XML文件,根据指定的XPath匹配每个元素及其子元素的特征属性和文本内容。
此操作符通过检查匹配出来的前几个元素内容的类型决定读入属性的类型。如果所有值是整数,那么属性将为integer; 如果所有值是实数值,那么属性将为real;不能被转换为数值的属性将nominal;匹配日期格式化字符串的属性将被格式化为date。

输入

file: optional: FileObject, optional: FileObject

输出

output

参数

+配置操作符
根据向导提示配置操作符。
+文件
将要读取数据的文件名称。 依赖于:
com.rapidminer.parameter.conditions.PortConnectedCondition@6b8a37f9
+形成样本的XPath表达式
匹配XPath表达式的部分将形成样本。每次匹配的一个样本是其属性值中提取的XML文件相匹配的部
分。
+计算属性值的XPath表达式
XPath表达式将被评估为每次匹配XPath表达式的样本中获得的属性值。每个表达式在样本集中形成一个属性。
+使用命名空间
如果不检查XML文档中的命名空间将被完全忽略。这可能会使制订XPath表达式更容易,但可能会发生碰撞,如果具有相同名称的元素命名空间分隔。 默认值:true 专家参数命名空间
指定在XPath查询使用双标识和命名空间。 (X)HTML的命名空间是自动绑定到的标识符h。 专家参数
依赖于:
use namespaces = true
+使用默认命名空间
如果checkedyou可以指定时将使用没有指定命名空间的XPath表达式中的命名空间URI。 默认值:true 专
家参数 依赖于:
use namespaces = true
+默认命名空间
这是默认的命名空间将被假定在XPath表达式中提到没有EXPLICT的命名空间的所有元素。 专家参数 依
赖于:
use default namespace = true
+解析数字
表明是否解析数字。 默认值:true
+小数字符
小数字符。 默认值:. 依赖于:
parse numbers = true
+分组数字
解析分组数字。 默认值:false 依赖于:
parse numbers = true
+分组字符
分组的间隔字符。 默认值:, 依赖于:
parse numbers = true
grouped digits = true
+日期格式
日期格式化字符串,如”yyyy/MM/dd”。
+注释
映射行号到标注名称。 专家参数
+时区
如果没有指定日期字符串本身使用的时区的日期对象。 默认值:SYSTEM 专家参数
+区域设置
日期文本使用的语言环境,例如,”Wed” (English) 对应 “Mi” (German)。 默认值:英文 (美国) 专家参数
+设置元数据信息
元数据信息。 专家参数
值类型不匹配的值被视为丢失
为指定的值类型不匹配的值被视为丢失。 默认值:true 专家参数
+数据管理
决定内部存储数据的格式。 默认值:double_array 专家参数

五、写Access

概述

该操作符将一个数据集写入到一个 Access 数据库。

描述

这个操作符使用JDBC-ODBC-Bridge向Microsoft Access数据库中写入一个数据集。

输入

input: 期望: 实例集

输出

through:

参数

database file: 该 mdb文件包含应该被写入的 Access 数据库。
username: Access 数据库的用户名。
password: 数据库密码。
table name: 数据集应该被写入的Access 数据库表名。
overwrite mode: 表示是否应该重写当前表,或是否应该追加数据。

六、写CSV

概述

该操作符能写csv文件。

描述

这个操作符可用来向CSV文件(逗号分隔值)写数据。值和列用“;”分隔,丢失的数据值用空单元格显示。

输入

input: 期望: 实例集

输出

through:

参数

csv file: 应该被写的 CSV 文件。
column separator: 列分隔符。
write attribute names: 表示是否属性名应该作为第一行被写入。
quote nominal values: 表示是否标称属性应该用双引号引用。
format date attributes:表示是否被写的日期属性作为一个格式字符串或作为自1970年1月1日 00::0:00
GMT开始的毫秒值。
encoding: 用于读文件或写文件的编码。

七、写Excel

概述

该操作符将一个实例集写入到一个 Excel 电子表格文件。

描述

此操作符可用来将数据写入Microsoft Excel电子表格。这个操作符创建的Excel文件可以被Excel 95,
97, 2000, XP, 2003 和更新的版本读取。丢失的数据值由空单元格显示。

输入

input: 期望: 实例集

输出

through:

参数

excel file: 应该被写的Excel 电子表格文件。
encoding: 用于读文件或写文件的编码。

八、读数据库

概述

该操作符从 SQL 数据库读取一个实例集。

描述

这个操作符从SQL数据库中读取ExampleSet。在一个单独的文件中,SQL查询可以通过一个表名自动生成,通过参数或长的SQL语句传递给SDABAS DM。使用定义查询参数可以选择所需的行为。请注意,列名往往是大小写敏感的,可能需要引用。数据库可能在这里表现的不同。
在真正的发送一个语句到数据库之前,你需要创建一个数据库连接。你要么可以从主窗口中的工具菜单选择 管理数据库连接…,或点击一下连接参数的下拉列表框的右部按钮。显示窗口询问一些细节,如主机,端口,数据库系统,模式和用户名。测试测试按钮将允许你检查是否能连接,它可能会从连接参数的下拉
框中选择。
当操作符被执行,通过查询递交的表将被复制到你计算机的内存中。这将让所有后续的操作符快速访问数据,以致即使学习表,类似于带有高的随机访问数的SVM,将快速运行。如果该表对于你的主存来说太大,你可以使用Stream Database操作符。如果所需的实例不在缓存中,它将为几个数量级的慢速访问仅仅
占有内存中表的一部分。

警告

作为java ResultSetMetaData接口,它不提供标称属性的可能值信息,标称值的内部指标将取决于它们在表中出现的次序被映射。仅当过程被分成一个训练过程和一个应用过程或测试过程时,这可能导致问题。学习表能处理标称属性,这是没有问题的。如果类似于SVM的学习表和标称数据一起被使用,SDABAS DM假装标称属性是数值的,并使用标称值的指标作为数值。如果仅仅只有两个可能的值,SVM可以运行良好。
如果一个测试集在另一个流程中被读取,标称值可能会被分配不同的指标,因此SVM训练是无用的。这对标签属性并不是问题,由于可以使用类参数指定类,因此,所有趋向于使用标称值的的学习表是安全可用的。
如果你首先将使用Append操作符的ExampleSets结合,然后再用两个Filter Examples 操作符将其分离,你可以避免这个问题。

输入

输出

output:

参数

read not matching values as missings: 将与指定值类型不匹配的值视为缺失。
data set meta data information: 元数据信息。
attribute names already defined: 该参数描述是否属性名由用户手工设置,或由读者生成。(文件第一行的通
用名)。
define connection: 表示如何指定数据库连接。
connection: 一个预定义的数据库连接。
database system: 使用的数据库系统。
database url: 数据库的URL连接字符串,如 ‘jdbc:mysql://foo.bar:portnr/database’
username: 数据库用户名。
password: 数据库密码。
jndi name: 源数据的JNDI名。
define query: 指定是否通过一个文件或隐式的通过给定的表名直接定义数据库查询。
query: 一个SQL查询。
query file: 包含SQL查询的文件。
table name: 一个数据库表。

九、写数据库

概述

将所有实例的值写入数据库的单个表中。

描述

这个操作符将一个ExampleSet写入到一个SQL数据库。用户可以指定数据库连接和表名。请注意,如果表不存在,在写的过程中将创建表。
定义必要参数最方便的方式是配置向导。向导将自动决定最重要的参数(数据库URL和用户名)。最后,你只需要定义表名,然后,你就准备好了。
这个操作符仅支持包含所有常规和特殊属性和实例的完整实例集的写。如果这不是期望的,可以在应用此操作符之前执行一些类似于属性或实例过滤的预处理操作符。

输入

input: 期望: 实例集

输出

through:
参数
define connection: 表示如何指定数据库连接。
connection: 一个预定义的数据库连接。
database system: 使用的数据库系统。
database url: 数据库的 URL连接字符串 , 例如’jdbc:mysql://foo.bar:portnr/database’
username: 数据库用户名。
password: 数据库密码。
jndi name: 数据源的JNDI 名称。
table name: 一个数据库表。
overwrite mode: 表示是否当前表应该被重写,或是否数据应该被添加。
set default varchar length: 设置varchar列为默认长度。
default varchar length: varchar 列的默认长度。
add generated primary keys: 表示是否一个持有自动添加主键的新属性应该被添加到结果集。
db key attribute name: 自动生成主键的属性名称。

十、重命名

概述

该操作符能用于为属性重命名。

描述

该操作符可用来给输入ExampleSet的属性重命名。请记住,该属性名称必须是唯一的。 虽然被重命名,属性保持它自己的角色。例如,如果你将一个角色标签属性“label”重命名为“color”,产生的属性“color”将仍然是角色标签。改变一个角色,看Set Role。

输入

example set input: 期望 : 实例集元数据 : #examples: = 0; #attributes: 0

输出

example set output:
original:

参数

old name: 属性原来的名字。
new name: 属性的新名字。

十一、通过替换重命名

概述

该操作符通过指定的替换代替属性名的一部分为一组属性重命名。

描述

通过指定替换,这个操作符替换部分属性名称(如空格,括号,或其它不想要的字符)。replace_what参数能被定义为一个常规表达式(请参阅SDABAS DM教程的附录获得描述)。replace_by参数能被定义为一个任意的字符串。空字符串也是允许的。定义的正则表达式的捕获组能用1,1, 2, $3…访问。

输入

example set input: 期望 : 实例集元数据 : #examples: = 0; #attributes: 0

输出

example set output:
original:

参数

attribute filter type: 该条件指定该操作符选择或影响哪个属性。
attribute: 应该选择的属性。
attributes: 应该选择的属性。
regular expression: 属性名应保持的正则表达式。
use except expression: 如果启用,指定正则表达式的异常可能被指定。虽然匹配第一个表达式,匹配这
个的属性将被过滤。
except regular expression: 虽然匹配上述正则表达式,但属性名正则表达式应被过滤。
value type: 属性的值类型。
use value type exception: 如果启用,指定值类型的异常可能被指定。虽然匹配第一个指定的类型,但该
类型的属性将被过滤。
except value type: 该值类型除外。
block type: 属性的块类型。
use block type exception: 如果启用,指定块类型的异常可能被指定。
except block type: 该块类型除外。
numeric condition: 条件的参数字符串,如 ‘>= 5’
invert selection: 表示是否接受通常被过滤的属性。
include special attributes: 表示是否该操作符也应适用于特殊属性。否则,它们保持不变。
replace what: 在属性名中定义的应替换什么的正则表达式。
replace by: 该字符串被用作替换与参数 ‘replace_what’ 匹配的匹配属性的所有部分。

十二、设置角色

概述

该操作符可用于改变属性角色(常规,特殊,标签,id…)。

描述

这个操作符可以用来改变输入ExampleSet属性的角色。如果你想改变属性名称,你应该使用
Rename操作符。
目标角色表明该属性是否是一个常规属性(被学习操作符使用)或是一个特殊属性(如标签或id属
性)。以下的目标属性类型是可能的:
regular: 仅常规属性被用来作为学习任务的输入变量
id: 实例集的id属性
label: 学习的目标属性
prediction: 预测属性,即一个学习计划的预测
cluster: 显示一个群集的成员
weight: 显示实例的权重
batch: 显示实例组的成员
用户还可以通过简单的使用所需的名字定义自己的属性类型。请意识到角色必须是唯一的! 第二次指定一个非正规的角色将导致第一个属性从实例集中除去。如果你想保持这个属性,你必须先改变它的角色。

输入

example set input: 期望 : 实例集元数据 : #examples: = 0; #attributes: 0

输出

example set output:
original:

参数

name: 角色应该被改变的属性名。
target role: 属性的目标角色(如果参数change_attribute_type为真时才改变)。

——imbenben

RapidMiner 数据读写相关推荐

  1. 2021年大数据Hadoop(十):HDFS的数据读写流程

    2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据 目录 HDFS的数据读写流程 ...

  2. ios获取新数据要不要关_iOS开发之数据读写

    iOS进阶 1:数据处理之数据读写 1):获取当前应用程序的沙盒根目录 NSString*rootPath = NSHomeDirectory(); NSLog(@"%@",roo ...

  3. spark编程基础--5.3数据读写

    文件数据读写 1.本地文件系统的数据读写 1)从文件中读取数据创建RDD 2)把RDD写入到文本文件中 2.分布式文件系统HDFS的数据读写 3. JSON文件的读取 JSON(JavaScript ...

  4. linux高性能网络编程读书笔记之socket数据读写

    数据读写分为TCP数据读写,UDP数据读写,通用数据读写 1.TCP数据读写 定义:socket是连接用户空间和内核空间,TCP和UDP是内核第一层. 解释:对于文件的read和write同样适用于s ...

  5. mysql 冷热数据分离_elasticsearch冷热数据读写分离

    Elasticsearch5.5冷热数据读写分离 前言 冷数据索引:查询频率低,基本无写入,一般为当天或最近2天以前的数据索引 热数据索引:查询频率高,写入压力大,一般为当天数据索引 当前系统日志每日 ...

  6. 嵌入式linux文件系统格式,嵌入式Linux的文件系统分区及数据读写方法与流程

    本发明涉及Linux系统的数据存储管理领域,特别是涉及一种基于NANDFlash存储器和UBIFS文件系统的嵌入式Linux的文件系统分区及数据读写方法. 背景技术: ::目前Linux操作系统由于源 ...

  7. python读数据-python数据读写

    广告关闭 2017年12月,云+社区对外发布,从最开始的技术博客到现在拥有多个社区产品.未来,我们一起乘风破浪,创造无限可能. 读写json文件的文档docimport jsondirectory = ...

  8. 【Android 逆向】ptrace 函数 ( ptrace 函数族 | 进程附着 | 进程脱离 | 进程数据读写权限 | 进程对应的主线程寄存器读写 | 单步调试 |ptrace 函数族状态转换 )

    文章目录 一.ptrace 函数族 1.进程附着 2.进程脱离 3.进程数据读写权限 4.进程对应的主线程寄存器读写 5.单步调试 6.继续向后执行 二.ptrace 函数族状态转换 一.ptrace ...

  9. 【Android 高性能音频】AAudio 音频流 缓冲区 简介 ( AAudio 音频流内部缓冲区 | 缓冲区帧容量 | 缓冲区帧大小 | 音频数据读写缓冲区 )

    文章目录 I . AAudio 音频流内部缓冲区 与 音频数据读写缓冲区 概念 II . AAudio 音频流内部缓冲区 缓冲区帧容量 BufferCapacityInFrames 与 缓冲区帧大小 ...

  10. DBA(四):数据读写分离,MySQL多实例操作

    数据读写分离 MySQL读写分离 概念:把客户端查询数据的请求和存储数据的SQL命令,分别给不同的数据库服务器处理 读写分离的原理 由MySQL代理面向客户端提供服务 收到SQL的写请求时,交给mas ...

最新文章

  1. 倚天·屠龙——唯我独尊
  2. MathType可以编辑省略号吗
  3. 图论--2-SAT--详解
  4. 如何通过Git GUI将自己本地的项目上传至Github
  5. java linux 调用32位so_Linux上TCP的几个内核参数调优
  6. BBC:大数据带来的弊病?近因效应
  7. MTK 驱动开发(30)---Memory 移植
  8. mysql 关键字搜索 排名_mysql 的 查找 与 排序
  9. 跨媒体检索(关联)之基于CCA的方法大总结
  10. python︱mysql数据库连接——pyodbc
  11. 推荐一个完美的计算机科学的视频集
  12. [HEOI2015]定价 (贪心)
  13. MD5文件加解密工具类 MD5Utils
  14. 《数据结构》实验三:单链表
  15. 西方妖怪大百科(上)
  16. openlayers 设置边界线外圈遮罩
  17. 在TriCore架构芯片上移植 RT-Thread
  18. 哔哩哔哩2020校园招聘 - K个一组翻转链表 一年中的第几天
  19. php表格制作4行两列的表格,excel表格怎么插行和列?
  20. html css3不拉伸图片显示效果,类似淘宝的

热门文章

  1. 利用计算机对调查问卷进行,关于电脑需求调查问卷
  2. 企业网络管理和华为企业级路由交换产品介绍
  3. ZigBee-CC2530单片机 - 1路硬件PWM控制舵机角度(精度为1us)
  4. 清除Windows远程桌面连接记录
  5. 偏执的iOS逆向研究员:收集全版本的macOS iOS+越狱+内核调试
  6. 4 大话“奇异值”矩阵
  7. 数据库设计原则、表字段命名规则、索引调优建立规则
  8. 图解大数据 | 大数据生态与应用导论
  9. Kalibr标定工具箱使用详细过程
  10. linux: dirent.h 使用