kettle这工具真的太人性化了,把操作变成了傻瓜的的拖拉拽,用户只需要配置数据提取的库信息、提取的sql逻辑、目标所需的数据信息就可以实现快速的数据同步;

之前我有用过阿里的datax,虽然个人感觉也挺好用的,但是个人还是更喜欢kettle的简单化;

kettle基于java开源,安装和使用需要jdk,虽然我不是很喜欢Java,但不得不说,Linux平台和window平台都能使用,而windows平台更是有傻瓜式的中文操作界面,对新人非常友好;

kettle操作主要分为三部:

1、配置数据连接和数据提取sql

2、建立一个转换,把所有的操作变成实际所需的东西

3、创建一个job文件把所有的转换串联起来,做成一个完整的连续动作

最后还可以写一个定时任务,定时执行job文件实现定时的数据同步

配置数据连接都需要在文件>新建>转换里面新建一个转换,保存转换文件,格式为ktr,接下来就可以拖拉拽了

点开输入里面有很多方式:

从数据库提取就把表输入拉到右边空格

上图中左边就是表输入右边是输出为excel

按住shift拉动鼠标就可以连线了,双击表输入配置数据库连接信息和sql提取逻辑,同样的双击输出配置excel输出方式等,这样就能得到一个excel,同样的定时执行就能定时的得到excel数据。

你会发现不管是输入输出,数据来源和走向格式都有多种多样,功能非常强大,你以为这样就结束了?

真正的强大是kettle还可以配置job文件,主要作用就是把各个 转换动作串联起来变成一个完成的故事线;比如:

这里我通过开始,读取表1做成一个excel,读取表2添加到表1的excel中做成一个sheet,再判断这个excel是否存在,因为我再转换表1和表2的时候设定了没有数据就不创建excel,所以当有数据时候,发送邮件给我,并删除这次的数据,如果没有数据就不发邮件给我,中间任何的错误导致流程没走下去的都发预警邮件给我;

通过创建job文件可以得到一个完整的故事线动作,所需的第一步就是再文件>新建>job创建一个kjb格式的job文件,这时候左边工具栏会变成:

而你所必须要有的是,一个故事的开始和结束,所以通用中的start和success是必须要的:

你自定义的动作就可以把转换拉到右边双击关联自己创建的转换脚本ktr文件,如果需要判断就去左边条件里面去找,如果需要额外自定义脚本就去左边找到脚本图标双击关联上自己的脚本,同样的shift加鼠标拖动连线,邮件线可以选择真与假的结果走向和取消连线;

通过各种自定义diy,你可以快速的得到一个数据同步或者数据获取方案;

最后,个人感觉kettle性能还算可以,也许市面上很多工具性能比他强,但是他有点极大,开源、傻瓜式开发、便捷、多平台等等,个人也算是非常喜欢的一个工具,如果对数据同步实时性要求不算很高的,还是值得推荐;加上一个系统定时任务定时执行kettle的job文件就可以实现定时的数据拉取或者报表啦。

数据同步工具kettle相关推荐

  1. ETL的数据同步工具调研(持续更新中)

    扯白了,数据同步工具就是"导数据 "的 名称 社区响应 国内使用情况(以前程无忧为参考) SQOOP 更新缓慢,对于hbase2.x以上版本使用时需要老版本的jar包 9页 Dat ...

  2. etl数据抽取工具_数据同步工具ETL、ELT傻傻分不清楚?3分钟看懂两者区别

    什么是数据同步工具(ETL.ELT) 数据同步工具ETL或者ELT的作用是将业务系统的数据经过抽取.清洗转换之后加载到数据仓库的过程,目的是将企业中的分散.零乱.标准不统一的数据整合到一起,为企业的决 ...

  3. 数据同步工具Sqoop

    大数据Hadoop之--数据同步工具Sqoop Sqoop基本原理及常用方法 1 概述 Apache Sqoop(SQL-to-Hadoop)项目旨在协助RDBMS(Relational Databa ...

  4. Linux的rsync远程数据同步工具

    Rsync(remote synchronize) 是一个远程数据同步工具,可以使用"Rsync算法"同步本地和远程主机之间的文件. rsync的好处是只同步两个文件不同的部分,相 ...

  5. fox pro删除单条数据_Mac文件夹数据同步工具——Sync Folders Pro

    Mac版同步文件夹Pro(文件夹数据同步工具)分享给大家!Mac版同步文件夹Pro是一种功能强大的文件夹数据同步工具,可帮助您同步两一个文件夹的内容,包括任何子文件夹.使用文件夹同步软件,允许您在任一 ...

  6. DataX离线数据同步工具/平台

    DataX离线数据同步工具/平台 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL.SQL Server.Oracle.PostgreSQL.HDFS.Hive.O ...

  7. 分享改进 高性能数据同步工具(一)

    题外:在博文索引中暂时列出了开源的计划一览,虫子开源的目的是希望能有更多的交流,部分软件可能小得连开源协议的认证价值都没有.不管程序有多小多简单,用心把一个完整的设计思路.实现过程以及测试结果展现给大 ...

  8. canal - 数据同步工具

    一.应用场景 在前面Echarts - 实现图表显示中,我们使用了服务调用(统计表中的信息通过调用用户模块服务来获取)获取统计信息,这样耦合度高,效率相对较低,目前有另一种方法,通过实时同步数据库表的 ...

  9. 高效数据同步工具DataX的使用

    一.DataX 简介 DataX 是阿里云 DataWorks 数据集成 的开源版本,主要就是用于实现数据间的离线同步. DataX 致力于实现包括关系型数据库(MySQL.Oracle 等).HDF ...

  10. 数据同步工具的研究(实时)

    数据同步工具的研究(实时同步): FlinkCDC.Canal.Maxwell.Debezium --2023年01月17日 --Yahui Di 1. 常用CDC方案比较 2. FlinkCDC F ...

最新文章

  1. amp 保留指定位c语言,C语言位运算符学习
  2. 亿级用户基于微服务的互联网系统稳定性~
  3. 解决vs2010下不能创建项目及文件的问题
  4. 泛函分析——有界线性算子和函数
  5. 博客新家(agiledon.github.com)
  6. 180°舵机的使用步骤
  7. Protobuf使用规范分享
  8. VMware设置及linux静态ip设置
  9. spring 启动完成后事件监听器处理
  10. python爬虫工程师工作内容_爬虫岗位职责
  11. 文本文件以EF BB开头,使用UTF8读取
  12. 使用Junit对Android应用进行单元测试
  13. eclipse中文教程
  14. 项目部署到tomcat出现js中文乱码解决方案
  15. 科学家发现程序员秃头新原因,毛囊干细胞竟会悄悄逃走
  16. P13~P14 谋定而后动,知止而有得
  17. timestamp 与 nonce 防止重放攻击
  18. tomcat下载指定版本
  19. 国内首款红外测温5G手机;华为5G汽车模组正式商用;台湾发放首张5G牌照
  20. 继承viewgroup

热门文章

  1. 基于Java的电子会议预约管理系统
  2. python如何解压zip文件_Python压缩解压zip文件
  3. ubuntu 解压与压缩 zip 文件
  4. ElasticJob‐Lite:扩展作业类型
  5. 大华事件检测智能服务器,大华股份发布全新智能视频监控服务器,提供高达768Mbps的存储带宽...
  6. 虚拟机中无法使用鼠标滚轮(罗技鼠标)
  7. 校园网破解|校园网wifi破解|校园网免认证教程-SaoPanel
  8. 将两张图片合并成一个PDF,不收费
  9. 项目,项目集与项目组合的关系
  10. 【你们项目组有几个测试,你负责什么,迭代了几个版本,迭代周期,写了多少测试用例?】