KETTLE-初探

  • 概念阐述
  • 优点
  • 流程介绍
  • 环境准备
  • 工具结构
  • 版本更替
  • 学习资料

概念阐述

  1. ETL(Extract-Transform-Load)工具,即数据抽取、转换、装载。国内称为水壶
  2. 工作流程:将各种来源数据汇入到水壶中,进行数据处理,以特定格式输出到文件、数据库等装载容器
  3. 来自Borderfree的副总裁Warren Chang对Pentaho-KETTLE的评价:在业务中传递数据是一门艺术,而Pentaho将艺术转变成巨大的商业价值

优点

  • 直观的拖放设计,想拖什么就拖什么,然后组合在一起
  • 丰富的访问数据来源的组件,支持关系型数据库、非关系型数据库、大数据仓库、企业应用(如日志平台)等等
    • 关系型数据库-Relational database management system(RDBMS):Oracle、IBM-DB2、MySQL、Miscrosoft SQL Server
    • 非关系型数据库和对象存储:MongoDB、Cassandra,HBase、Hitachi Content Platform
    • 分析型数据库:Vertica、Greenplum、Teradata、SAP HANA、Amazon Redshift、Google Big Query、Microsoft Azure SQL Data、Warehouse (DW)
    • 业务应用(猜测是获取大量数据的接口,如日志系统):Salesforce、Google Analytics
    • Spark and Hadoop: Cloudera、Hortonworks、Amazon EMR、MapR、Microsoft Azure HDInsights
    • 非结构化数据:xml、json、excel、csv、txt、avro、parquet、orc、音频、视频等非结构化文件
  • 通过数据获取组件,快速获取、分析和装载大量数据,产出分析图表、直观分析结果或分析报告
  • 强大的组件组合能力,将一个个转换组合起来,完成功能,包括通知和警报
  • 完整的企业级调度系统,支持协调工作流程,拥有用于测试、优化作业执行的调试器
  • 丰富的数据分析、数据质量控制组件,去除不符合业务规则、冗余的数据、验证数据的标准性(如电子邮箱)
    • 如计数、数学函数、字符串处理、过滤、排序、正则验证等
  • 强大的管理功能
    • 共享存储库(转换和作业),开发人员、数据分析师、数据管理员进行协作
    • 版本管理,可以回退到某个版本的作业
    • 用户角色权限管理或集成第三方安全认证系统

流程介绍

有两个技术名词,Transformation(转换)和Job(作业)
转换可以包含多个转换、多个组件
作业可以包含多个转换、多个作业、多个组件

环境准备

  • JDK-1.8
  • Data Integration-6.1(最新为8.2Stable,Data Integration文件夹为历史版本,Pentaho 8.x文件夹为8以上版本)下载

工具结构

版本更替

  • 待梳理
版本 新增特性
KETTLE-8.2 https://help.pentaho.com/Documentation/8.2/Whats_New
KETTLE-8.1 https://help.pentaho.com/Documentation/8.1/Whats_New
KETTLE-8.0 https://help.pentaho.com/Documentation/8.0/Whats_New
KETTLE-7.1 https://help.pentaho.com/Documentation/7.1/Whats_New
KETTLE-7.0 https://help.pentaho.com/Documentation/7.0/0C0
KETTLE-6.1 https://help.pentaho.com/Documentation/6.1/0C0
KETTLE-6.0 https://help.pentaho.com/Documentation/6.0/0C0
KETTLE-5.4 https://help.pentaho.com/Documentation/5.4/0T0/040
KETTLE-5.3 https://help.pentaho.com/Documentation/5.3/0T0/040
KETTLE-5.2 https://help.pentaho.com/Documentation/5.2/0T0/040/005
KETTLE-5.1 https://help.pentaho.com/Documentation/5.1/0T0/040/000

学习资料

  • KETTLE介绍
  • KETTLE官网
  • KETTLE文档
  • KETTLE-8.2-转换组件使用说明
  • KETTLE-8.2-作业组件使用说明
  • KETTLE-ISSUE
  • KETTLE-源码,官方例子在\assemblies\samples\src\main\resources

KETTLE教程-初探相关推荐

  1. kettle 教程(四):自定义 Java 代码

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/qqfo24/article/detai ...

  2. kettle教程---kettle作业调度,根据更新时间增量更新

    附:Kettle实战视频教程,需要的朋友可以看看学习下哈~~ kettle实战第一讲-文件和数据库表的互相转换处理_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili kettle实战第二讲-数据库单 ...

  3. Kettle教程(二):Kettle目录结构介绍

    文章目录 前言 一.Kettle的Spoon/Pan/Kitchen/Carte 简介 1.Spoon 2.Pan 3.Kitchen 4.Carte 二.Kettle的目录结构介绍 三.总结 前言 ...

  4. Kettle教程(三):Excel转换文本

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一.Excel输入 1.创建Excel文件输入源 2.建立一个新的转换: 3.选择工作表.字段 二.文本输出 1.选择 ...

  5. 【使用指南】Kettle转换使用教程

    #Kettle转换使用教程 ##概述 Kettle是一款国外开源的ETL工具,纯java编写的ETL工具 ,可以在Window.Linux.Unix上运行,绿色无需安装,数据抽取高效稳定.并且Kett ...

  6. kettle连接不上es7_kettle常见问题解决

    摘要:本文主要讨论如何在你自己的Java应用程序中集成Kettle 如果你需要在自己的Java应用程序中集成Kettle , 一般来说有两种应用需求,一种是通过纯设计器来设计ETL转换任务,然后保存成 ...

  7. 开源ETL工具kettle系列

    开源ETL工具kettle系列之常见问题 摘要:本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案 1. J ...

  8. 用Kettle的一套流程完成对整个数据库迁移

    转自:  https://blog.csdn.net/maenlai0086/article/details/80829143 Kettle日常使用汇总整理:https://www.cnblogs.c ...

  9. KETTLE实现循环批量多表抽取添加字段

    转自: https://blog.csdn.net/qq_41704358/article/details/79519133 kettle 教程(二):常用输出(插入更新.表输出.执行 SQL 脚本) ...

  10. KETTLE 9.1 最新版本下载地址

    百度网盘下载地址:https://pan.baidu.com/s/1n23gYVYzZDrxMW23-2hWrw 提取码:iiwi 如果对您有所帮助,希望能点赞鼓励. 需要kettle教程的可加QQ或 ...

最新文章

  1. SQL 判断表是否存在 数据表不存在是致命错误
  2. java indexof int_Java Stack indexOf(Object, int)用法及代码示例
  3. c语言全国二级考试全对,全国计算机c语言二级考试通用复习资料.doc
  4. java 重写session_使用Shiro重写Session 自定义SESSION
  5. Shell 条件表达式的正则匹配
  6. Oracle系统表大全(转)
  7. 基于visual Studio2013解决面试题之0202上下排
  8. Mellanox:撑起国内超融合的网络天空
  9. 一个简单小说阅读网页html,简单版小说搜索阅读(64位程序)
  10. 微软官方帮助文档的中文网站和英文网站
  11. python 正则re模块 group() groups()
  12. python excel数据合并_如何用python将excel数据合并
  13. docker 配置远程deamon
  14. 如何使用IIS发布网站?
  15. IOS开发之——硬件开发-距离传感器(02)
  16. js 简易的筋斗云,图片动画
  17. 【Linux】命令别名与历史命令(alise\history)
  18. python爬取芒果TV《乘风破浪的姐姐》弹幕数据(已完成)
  19. VB操作EXCEL方法汇总
  20. 华为ModelArts(声音分类与文本分类项目的创建及使用)

热门文章

  1. python--------集合练习题(问卷的调查)
  2. PLC编程之ST语言
  3. 8086汇编语言(一) 汇编语言源程序
  4. 添加内核驱动模块(5)(mydriver.c+ Konfig+Makefile )
  5. 菁搜FTP搜索引擎 photo2
  6. 单径瑞利信道中的BPSK相干解调的(理论)误码率性能
  7. 花一天时间做一个高质量飞机大战游戏,过万字Unity完整教程!漂亮学妹看了直呼666!
  8. 织梦采集插件,无需采集规则,补损值
  9. Android 系统源码——下载到编译
  10. 高等数学复习要点(期末考试同济版)