Java kettle 数据清洗_ETL工具Kettle使用以及与Java整合实现数据清洗
本文主要讲述kettle的使用和与Java整合,具体下载与安装请自行百度!
kettle有两种脚本方式:转换和工作,工作中可以添加转换.以下以转换为例.
1.新建一个转换,
2.在工作中经常用到的是表输入和表输出(从一个数据库中提炼数据,插入到另外一个数据库中进行保存)
点击核心对象 --> 输入 --> 表输入
这个节点是用来从数据库中查询数据
点击“表输入”-->新建 首先创建一个数据库连接,要让kettle知道从哪里查询数据
kettle支持多种数据库连接,因为工作中用到的是mysql,所以其余的可以自行百度了解
因为在使用过程中,可能数据库编码方式不一致,所以需要制定编码,在创建数据连接的时候,点击高级选项卡,如图所示(set names utf8;)
在点击选项选项卡,如图所示:characterEncoding:utf8
创建完成后,点击保存,下面就是开始写sql,kettle支持sql中油自定义参数的形式,参数要使用${}来进行创建。注意一点,要勾选下面的,替换sql语句里的变量。
创建好后点击确定。
在创建一个节点,用来接收数据,点击输出中的表输出,创建数据库连接,和上面创建步骤一样
点击输入字段映射,可自动生成对应字段。
3.创建完成后,使用shift和鼠标左键将两个节点连接在一起
4.启动:
如果在查询时自定义了参数,那么在启动时需要个参数赋值:
5.还需注意一点,如果没有创建资源库,那么创建的转换/作业是要保存成脚本存放到本地,但是,如果已创建了资源库,那么脚本会错放到数据库中,不会生成文件!
6.资源库的创建
第一次需要新建资源库,如果已经创建,选择对应的资源库然后输入账号密码即可(账号密码默认admin)
在创建资源库时,点击+号,然后会出现图中的样式,我们选择第二个,会将数据生成到数据库中进行保存。
我们需要指定资源库存放的数据库连接是哪个,创建方式和上面我们创建节点的数据库连接一样,创建完后,选择数据库连接,名称和描述自己取名即可(尽量不要重复,与Java整合时需要这两个参数)
创建完成后,我们输入账号密码即可登录到资源库中。
Java kettle 数据清洗_ETL工具Kettle使用以及与Java整合实现数据清洗相关推荐
- kettle使用_ETL工具(kettle)-《PentahoKettle解决方案-使用PDI构建开源ETL解决方案》
Matt Casters的博客:http://www.ibridge.be/. www.kettle.be 书籍: <Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案&g ...
- kettle使用_ETL工具(kettle)使用系列(二)
## 本章介绍一些kettle技巧和相关的问题解决方案 kettle数据抽取中文乱码(一) ==spoon.bak文件找到if "%PENTAHO_DI_JAVA_OPTIONS%&quo ...
- 运行java程序需要的工具软件的目录,运行Java程序需要的工具软件所在的目录是A.JDK的bin目录B.JDK的demo目录C.JDK的lib目录D.JDKR的j...
运行Java程序需要的工具软件所在的目录是A.JDK的bin目录B.JDK的demo目录C.JDK的lib目录D.JDKR的j 更多相关问题 [多选] 下列收汇需入待核查账户的是(). [判断题] 教 ...
- Java 音频提升音量工具(附代码) | Java工具类
目录 前言 Maven依赖 代码 总结 前言 本文提供将音频提升音量的java工具类代码,一如既往的实用主义分享. Maven依赖 <dependency><groupId>c ...
- kettle清洗mysql数据_ETL工具Kettle使用以及与Java整合实现数据清洗
本文主要讲述kettle的使用和与Java整合,具体下载与安装请自行百度! kettle有两种脚本方式:转换和工作,工作中可以添加转换.以下以转换为例. 1.新建一个转换, 2.在工作中经常用到的是表 ...
- kettle mysql 导入数据库_ETL工具—Kettle数据的导入导出—数据库到数据库
ETL简介: ETL(Extract-Transform-Load的缩写,即数据抽取.转换.装载的过程) 数据库到数据库 下面讲解:kettle工具实现方法 案例目的:从用户scott下将emp表导入 ...
- kettle将excel导入数据库_ETL工具—Kettle数据的导入导出—Excel表到数据库
案例目的:当Excel中有几万条记录或者更多数据时,使用Kettle导入到数据库中.速度就能感到比复制粘贴快很多. 这里我会演示将"data.xlsx"表中数据有15万多条记录,使 ...
- java用什么测试工具_10款常用的JAVA测试工具
JTest最大的优势在于静态代码分析,至于自动生成测试代码,当然生成测试代码框架也是不错的,但要做好 参考网站:http://www.parasoft.com/jsp/aep/aep.jsp推荐指数: ...
- java分析内存泄露工具_Eclipse Memory Analyzer(Java内存泄漏分析工具)
概述 一个大型的Java项目也许从开发到测试结束并未发现一些大的问题,但是在生产环境中还是会出现一些非常棘手的问题,如内存泄漏,遇到这样的问题对于一个经验尚浅的开发人员来说难度非常大,好的一点是JVM ...
最新文章
- 【CyberSecurityLearning 41】Linux密码破解以及菜单加密
- css input光标粗细,如何用CSS原生属性caret-color改变input输入框光标颜色
- ubuntu中make头文件找不到_和平精英:游戏中找不到人怎么办?这些技巧帮你练出“火眼金睛”...
- Android 属性动画ObjectAnimator使用demo,组合动画
- 华为手机获取状态栏高度是错误的_你的华为手机状态栏有HD图标吗?这又代表着什么?看完你就懂了...
- LeetCode刷题——最长回文子串
- SpringMVC 文件上传
- linux服务器知识学习:了解Linux系统的启动过程
- 【catia对模型无法进行操作,只能对树型图操作】
- http上传文件服务器限制大小,修改Nginx与Apache配置参数解决http状态码:413上传文件大小限制问题...
- 原生JS活动倒计时实现思路
- 02. 只允许使用QQ和微信 - 服务 ❀ 飞塔 (Fortinet6.0) 防火墙
- 台式计算机硬盘英寸,浅谈3.5英寸硬盘与2.5英寸硬盘的区别
- Tensorflow Serving模型指向s3地址,Could not find base path?
- 〖全域运营实战白宝书 - 运营角色认知篇④〗- 与运营打交道的小伙伴
- C++ 炼气期之算术运算符
- 〖Python 数据库开发实战 - Python与Redis交互篇⑪〗- 综合案例 - 新闻管理系统 - 缓存新闻数据至redis
- 关于np.random.choice
- Windows批处理修改文件名拼接日期
- External Sort(外排序)