数据无处不在,文件作为一个总要的数据载体,是最常用的数据存储格式。但广泛使用以多种方式存在,如fixed宽度、逗号分隔值、电子表格,甚至自由格式。PDI具有从各种实体读取数据的能力。

读取文件实例

在Design窗口中:右键Transformation --> New ,这样的方式创建新的Transformation

在Input分类中 :选择Text File Input --> File 标签中输入要使用文件的路径(也可以通过浏览查找) --> 点击Add添加。

在Content标签下配置: 设置Separator为 --> 勾选Header,表示使用表头

在Fields标签下配置字段: 点击 Get Fileds 自动匹配列

3-file-data.gif

从上面的操作中,可以发现:

1 在Input分组中,有针对绝大多数的文件文件数据源的Step。

2 使用Text File Input中的注意的配置点有:

File标签 :定义数据源文件,可以是文件夹、文件

Content标签 :对文件格式,是否使用分隔符、编码格式、是否使用标题行等。

Fields标签 :通过Get Fileds按钮,获取字段信息

Text File Input

在操作练习中,尽量尝试不同格式的文件,使用不同类型的 文件Step。

对于文件操作中一些常见的问题:

1 最显而易见的,无法找到相关的文件或文件夹的情形。

将前面操作的实例说明,将在Text File Input配置的文件名修改,然后在预览数据将出现如下的错误提示。

3-input-file-miss

No preview rows found

Sorry, during preview there weren't any rows to display for this step.

2 文件存在,但是文件中内容为空。

将前面操作的实例进行说明,在Text File Input配置的文件的内容删除,或配置一个空文件。预览数据出现和无法找到文件相同的错误。

3 文件的Content和Filed不匹配,将前面操作的实例中的Content标签下的Seperator字段改为','然后预览数据时间出现如下的错误。

2020/06/16 10:54:41 - Text file input.0 - ERROR (version 7.1.0.0-12, build 1 from 2017-05-16 17.18.02 by buildguy) : Unexpected error

2020/06/16 10:54:41 - Text file input.0 - ERROR (version 7.1.0.0-12, build 1 from 2017-05-16 17.18.02 by buildguy) : org.pentaho.di.core.exception.KettleException:

2020/06/16 10:54:41 - Text file input.0 - Error converting line

2020/06/16 10:54:41 - Text file input.0 -

2020/06/16 10:54:41 - Text file input.0 - Couldn't parse field [Number(3, 1)] with value [5.1,3.5,1.4,0.2,setosa], format [#.#] on data row [1].

2020/06/16 10:54:41 - Text file input.0 -

2020/06/16 10:54:41 - Text file input.0 - Unexpected conversion error while converting value [sepal_length String(3)] to a Number

2020/06/16 10:54:41 - Text file input.0 -

2020/06/16 10:54:41 - Text file input.0 - sepal_length String(3) : couldn't convert String to number

2020/06/16 10:54:41 - Text file input.0 -

2020/06/16 10:54:41 - Text file input.0 - sepal_length String(3) : couldn't convert String to number : non-numeric character found at position 4 for value [5.1,3.5,1.4,0.2,setosa]

4 文本内容格式和配置的Filed字段类型不匹配,如对文件中的为String类型,但在Text Input File中配置为Number类型。

在预览时,将会在出现无法完成类型时就停止,所以只能看到一部分的数据,错误的信息如下:

2020/06/16 11:37:13 - Text file input.0 - ERROR (version 7.1.0.0-12, build 1 from 2017-05-16 17.18.02 by buildguy) : Unexpected error

2020/06/16 11:37:13 - Text file input.0 - ERROR (version 7.1.0.0-12, build 1 from 2017-05-16 17.18.02 by buildguy) : org.pentaho.di.core.exception.KettleException:

2020/06/16 11:37:13 - Text file input.0 - Error converting line

2020/06/16 11:37:13 - Text file input.0 -

2020/06/16 11:37:13 - Text file input.0 - Couldn't parse field [Number(3)] with value [a], format [] on data row [20].

2020/06/16 11:37:13 - Text file input.0 -

2020/06/16 11:37:13 - Text file input.0 - Unexpected conversion error while converting value [sepal_length String(3)] to a Number

2020/06/16 11:37:13 - Text file input.0 -

2020/06/16 11:37:13 - Text file input.0 - sepal_length String(3) : couldn't convert String to number

将数据写回到文件

前面的例子主要演示如何从文件中读取数据和进行配置,在经过一些转换后的数据。可以存放会文件中,所以接下里将演示将csv文件内容

写入到json文件中。

output分组 : 选择Json Output , 并和前面的Text File Input通过Hop连接。

General标签 : 存储的位置、写入的方式、编码方式等。

Fields标签 : 点击Get Fields,配置列名到Json元素的关系。

json output

写入到Json后的数据演示如下。

{"data":[{"sepal_width":3.5,"species":"setosa","petal_width":0.2,"sepal_length":5.1,"petal_length":1.4}]}{"data":[{"sepal_width":3.0,"species":"setosa","petal_width":0.2,"sepal_length":4.9,"petal_length":1.4}]}{"data":[{"sepal_width":3.2,"species":"setosa","petal_width":0.2,"sepal_length":4.7,"petal_length":1.3}]}{"data":[{"sepal_width":3.1,"species":"setosa","petal_width":0.2,"sepal_length":4.6,"petal_length":1.5}]}{"data":[{"sepal_width":3.6,"species":"setosa","petal_width":0.2,"sepal_length":5.0,"petal_length":1.4}]}{"data":[{"sepal_width":3.9,"species":"setosa","petal_width":0.4,"sepal_length":5.4,"petal_length":1.7}]}

....

Kettle的参数

在Kettle中有 variable 、argument 、parameter供使用。

variable(变量)

variables可以叫做environment variables,用来设定环境变量的,可以把它认为是编程语言里面的全局变量。变量可以用在转换或作业中,可以通过在转换中使用Set Variable步骤定义或在kettle.properties文件中定义,对于kettle.properties文件可以通过: Edit --> Edit the ketle.properties file

kettle.properies

kettle将文件路径定义为_Kettle 文件操作相关推荐

  1. kettle将文件路径定义为_kettle学习笔记(三)——kettle资源库、运行方式与日志...

    一.kettle资源库 资源库是用来保存转换任务的,用户通过图形界面创建的的转换任务可以保存在资源库中. 资源库可以使多用户共享转换任务,转换任务在资源库中是以文件夹形式分组管理的,用户可以自定义文件 ...

  2. java 通过文件路径获得MulipartFile类型文件 - File转MulipartFile

    java 通过文件路径获得MulipartFile类型文件 - File转MulipartFile 方式一:使用MockMultipartFile函数 方式二:数据流实现 思路:路径创建出File文件 ...

  3. fopen文件路径怎么写_PHP文件上传

    文件系统处理的作用: 1. 所有的项目离不开文件处理 2. 可以用文件长时间保存数据 3. 建立缓存, 服务器中文件操作 文件处理 1. 文件类型 以Linux为模型的, 在Windows只能获取fi ...

  4. mac版mysql 1290_Mac 终端下mysql load data infile 文件路径 into table 表名称 操作,[Error Code] 1290 - The MyS...

    1.mysql下查看secure_file_prive的值 mysql>SHOW VARIABLES LIKE "secure_file_priv"; secure_file ...

  5. python进阶14文件路径(找不到文件)

    原创链接:python进阶14文件路径(找不到文件) 开发时遇到问题,文件路径不正确,找不到文件等等,都是这一类问题. curdir,argv,file 举例: 文件1代码: 1 2 3 4 5 6 ...

  6. kettle将文件路径定义为_kettle_步骤解释

    kettle_步骤解释 1.Transform转换Dummy Plugin空操作这是一个空的测试步骤 2.Input导入数据ESRI Shapefile Reader读取矢量数据从SHP文件中读取图形 ...

  7. SpringBoot设置全局上传文件路径并上传文件

    前言 在后端处理文件上传的时候,我们通上传文件的时候,一般这个路径不会随便写. 比如这篇文章中的路径:解决SpringBoot文件上传报错:org.apache.tomcat.util.http.fi ...

  8. android获取文件路径-(获取通话录音文件)

    中秋宅在家,估计国庆也要宅在家了,一个人的时光其实很惬意                                                                        ...

  9. 文件路径,文件名,扩展名 常用操作

    string filePath = @"E:\Randy0528\中文目录\JustTest.rar"; Response.Write("文件路径:"+file ...

最新文章

  1. unity 程序win7在进程里运行_Win7系统中unity web player是什么程序
  2. 二维数组||考试成绩统计: 案例描述:有三名同学(张三,李四,王五),在一次考试中的成绩分别如下表,请分别输出三名同学的总成绩
  3. Android——数据存储(课堂代码整理:SharedPreferences存储和手机内部文件存储)...
  4. echarts 怎么知道鼠标点击的哪根柱子
  5. linux下各权限的细分
  6. mysql如何增加分区maxvalue_oracle range分区表已经有了MAXVALUE 分区,如何添加分区?要不能删除MAXVALUE分区里的数据,不影响在线应用。...
  7. android开机动画多长时间_Android开机动画原理分析
  8. kotlin android中文文档,Kotlin(android)协程中文翻译
  9. 20套莫兰迪灰色调LR预设/手机版APP滤镜合集 VEER 2020 Bundle 78in1
  10. NXP S32K146 FLEXI2C底层驱动+IAM-20680(一)
  11. 网站盈利模式分析分类
  12. 大数据BI可视化应用介绍
  13. 20170315学习笔记-前端
  14. python微信公众号开发音乐功能_python利用微信公众号实现报警功能
  15. 国内商务邮箱哪个好用?电子邮箱怎么申请?
  16. 在Windows Media Player 12中更新元数据和封面
  17. CANoe 11.xx 快速入门教学
  18. MacOS专用防火墙Paragon Firewall可有效监视控制网络接入
  19. HTML哪些百度收录,四招让网站内容快速被百度收录
  20. linux操作系统的cron服务用于管理,Linux的系统管理

热门文章

  1. 【SpringCloudAlibaba学习 04】整合Dubbo(实现数据消费者服务调用数据生产者服务)
  2. TOM邮箱收件人、抄送人、密送人、群发单显有什么区别
  3. 物联网卡开启养老新模式
  4. KSO-.NET 6 中的新增功能
  5. linux给cpu加压命令,Linux中cpupower命令起什么作用呢?
  6. 微信小程序动态生成二维码
  7. python爬取微博数据词云_用Python爬取微博数据生成词云图片
  8. POJ - 1637 Sightseeing tour(混合图欧拉回路的求解--建图跑最大流)
  9. WGCNA如何从module中挖掘关键基因
  10. python的构造函数的作用,python 构造函数作用