本文主要讲述kettle的使用和与Java整合,具体下载与安装请自行百度!

kettle有两种脚本方式:转换和工作,工作中可以添加转换.以下以转换为例.

1.新建一个转换,

2.在工作中经常用到的是表输入和表输出(从一个数据库中提炼数据,插入到另外一个数据库中进行保存)

点击核心对象 --> 输入 --> 表输入

这个节点是用来从数据库中查询数据

点击“表输入”-->新建 首先创建一个数据库连接,要让kettle知道从哪里查询数据

kettle支持多种数据库连接,因为工作中用到的是mysql,所以其余的可以自行百度了解

因为在使用过程中,可能数据库编码方式不一致,所以需要制定编码,在创建数据连接的时候,点击高级选项卡,如图所示(set names utf8;)

在点击选项选项卡,如图所示:characterEncoding:utf8

创建完成后,点击保存,下面就是开始写sql,kettle支持sql中油自定义参数的形式,参数要使用${}来进行创建。注意一点,要勾选下面的,替换sql语句里的变量。

创建好后点击确定。

在创建一个节点,用来接收数据,点击输出中的表输出,创建数据库连接,和上面创建步骤一样

点击输入字段映射,可自动生成对应字段。

3.创建完成后,使用shift和鼠标左键将两个节点连接在一起

4.启动:

如果在查询时自定义了参数,那么在启动时需要个参数赋值:

5.还需注意一点,如果没有创建资源库,那么创建的转换/作业是要保存成脚本存放到本地,但是,如果已创建了资源库,那么脚本会错放到数据库中,不会生成文件!

6.资源库的创建

第一次需要新建资源库,如果已经创建,选择对应的资源库然后输入账号密码即可(账号密码默认admin)

在创建资源库时,点击+号,然后会出现图中的样式,我们选择第二个,会将数据生成到数据库中进行保存。

我们需要指定资源库存放的数据库连接是哪个,创建方式和上面我们创建节点的数据库连接一样,创建完后,选择数据库连接,名称和描述自己取名即可(尽量不要重复,与Java整合时需要这两个参数)

创建完成后,我们输入账号密码即可登录到资源库中。

Java kettle 数据清洗_ETL工具Kettle使用以及与Java整合实现数据清洗相关推荐

  1. kettle使用_ETL工具(kettle)-《PentahoKettle解决方案-使用PDI构建开源ETL解决方案》

    Matt Casters的博客:http://www.ibridge.be/. www.kettle.be 书籍: <Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案&g ...

  2. kettle使用_ETL工具(kettle)使用系列(二)

    ## 本章介绍一些kettle技巧和相关的问题解决方案 kettle数据抽取中文乱码(一) ==spoon.bak文件找到if "%PENTAHO_DI_JAVA_OPTIONS%&quo ...

  3. 运行java程序需要的工具软件的目录,运行Java程序需要的工具软件所在的目录是A.JDK的bin目录B.JDK的demo目录C.JDK的lib目录D.JDKR的j...

    运行Java程序需要的工具软件所在的目录是A.JDK的bin目录B.JDK的demo目录C.JDK的lib目录D.JDKR的j 更多相关问题 [多选] 下列收汇需入待核查账户的是(). [判断题] 教 ...

  4. Java 音频提升音量工具(附代码) | Java工具类

    目录 前言 Maven依赖 代码 总结 前言 本文提供将音频提升音量的java工具类代码,一如既往的实用主义分享. Maven依赖 <dependency><groupId>c ...

  5. kettle清洗mysql数据_ETL工具Kettle使用以及与Java整合实现数据清洗

    本文主要讲述kettle的使用和与Java整合,具体下载与安装请自行百度! kettle有两种脚本方式:转换和工作,工作中可以添加转换.以下以转换为例. 1.新建一个转换, 2.在工作中经常用到的是表 ...

  6. kettle mysql 导入数据库_ETL工具—Kettle数据的导入导出—数据库到数据库

    ETL简介: ETL(Extract-Transform-Load的缩写,即数据抽取.转换.装载的过程) 数据库到数据库 下面讲解:kettle工具实现方法 案例目的:从用户scott下将emp表导入 ...

  7. kettle将excel导入数据库_ETL工具—Kettle数据的导入导出—Excel表到数据库

    案例目的:当Excel中有几万条记录或者更多数据时,使用Kettle导入到数据库中.速度就能感到比复制粘贴快很多. 这里我会演示将"data.xlsx"表中数据有15万多条记录,使 ...

  8. java用什么测试工具_10款常用的JAVA测试工具

    JTest最大的优势在于静态代码分析,至于自动生成测试代码,当然生成测试代码框架也是不错的,但要做好 参考网站:http://www.parasoft.com/jsp/aep/aep.jsp推荐指数: ...

  9. java分析内存泄露工具_Eclipse Memory Analyzer(Java内存泄漏分析工具)

    概述 一个大型的Java项目也许从开发到测试结束并未发现一些大的问题,但是在生产环境中还是会出现一些非常棘手的问题,如内存泄漏,遇到这样的问题对于一个经验尚浅的开发人员来说难度非常大,好的一点是JVM ...

最新文章

  1. 【CyberSecurityLearning 41】Linux密码破解以及菜单加密
  2. css input光标粗细,如何用CSS原生属性caret-color改变input输入框光标颜色
  3. ubuntu中make头文件找不到_和平精英:游戏中找不到人怎么办?这些技巧帮你练出“火眼金睛”...
  4. Android 属性动画ObjectAnimator使用demo,组合动画
  5. 华为手机获取状态栏高度是错误的_你的华为手机状态栏有HD图标吗?这又代表着什么?看完你就懂了...
  6. LeetCode刷题——最长回文子串
  7. SpringMVC 文件上传
  8. linux服务器知识学习:了解Linux系统的启动过程
  9. 【catia对模型无法进行操作,只能对树型图操作】
  10. http上传文件服务器限制大小,修改Nginx与Apache配置参数解决http状态码:413上传文件大小限制问题...
  11. 原生JS活动倒计时实现思路
  12. 02. 只允许使用QQ和微信 - 服务 ❀ 飞塔 (Fortinet6.0) 防火墙
  13. 台式计算机硬盘英寸,浅谈3.5英寸硬盘与2.5英寸硬盘的区别
  14. Tensorflow Serving模型指向s3地址,Could not find base path?
  15. 〖全域运营实战白宝书 - 运营角色认知篇④〗- 与运营打交道的小伙伴
  16. C++ 炼气期之算术运算符
  17. 〖Python 数据库开发实战 - Python与Redis交互篇⑪〗- 综合案例 - 新闻管理系统 - 缓存新闻数据至redis
  18. 关于np.random.choice
  19. Windows批处理修改文件名拼接日期
  20. External Sort(外排序)

热门文章

  1. 很精彩的一篇传道文 (寻找罗素的三激情时发现的)
  2. 请用c语言写一个程序使一个小人在一个16*16的迷宫里做随机运动
  3. 伯恩斯新情绪疗法--反驳消极想法
  4. 娱乐与办公 我与华为平板 M3 青春版的日常
  5. A012-anim资源
  6. SCPI协议C语言,使用SCPI语言实现计算机与设备仪器通讯.pdf
  7. 静态时序分析之时序收敛技巧(Xilinx FPGA)
  8. laravel RBAC laravel-permission使用
  9. 抖音滑块笔记(一些让我觉得很坑的点)
  10. mysql中输入中文或英文 字符类型的设置