Matt Casters的博客:http://www.ibridge.be/www.kettle.be

书籍:

《Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案》 链接:https://pan.baidu.com/s/15iUOWOCb8g_YLo5WN9fh0A 提取码:5upf

kettle起源

Kettle一词起源于“KDE ETTL Environment”,因为最开始的计划是在K Desktop Environment(http://www.kde.org)上开发这个软件。在这个计划被取消后,才把它重命名为“Kettle ETTL Environment”.

kettle的设计

  1. 开放,可读的元数据格式(xml)
  2. 开放,可读的关系型资源库格式
  3. 开放的api
  4. 容易安装(少于2分钟)
  5. 对各类数据库开放
  6. 容易使用的图形用户界面
  7. 容易传送数据
  8. 容易把数据转换成各种格式 kettle的性能瓶颈应该主要在于数据的编码和解码。所以kettle的一个设计原则就是尽量不做数据的转换

插曲

2001年Matt就有了开发一个自己的ETL工具的想法
Matt:"我想写一个ETL软件。但这回占用我晚上和周末的时间"
Kathleen(Matt的夫人):“oh,太好了!要用多长时间?”
Matt:“如果一切顺利,第一个能运行的版本应该用三年时间,第一个完整的版本要用5年。”

kettle使用_ETL工具(kettle)-《PentahoKettle解决方案-使用PDI构建开源ETL解决方案》相关推荐

  1. [目录]Pentaho Kettle解决方案:使用PDI构建开源ETL解决方案

    第一部分:开始 1         ETL入门 1.1   OLTP和数据仓库对比 1.2   ETL是什么 1.2.1          ETL解决方案的演化过程 1.2.2          ET ...

  2. kettle使用_ETL工具(kettle)使用系列(二)

    ## 本章介绍一些kettle技巧和相关的问题解决方案 kettle数据抽取中文乱码(一) ==spoon.bak文件找到if "%PENTAHO_DI_JAVA_OPTIONS%&quo ...

  3. Java kettle 数据清洗_ETL工具Kettle使用以及与Java整合实现数据清洗

    本文主要讲述kettle的使用和与Java整合,具体下载与安装请自行百度! kettle有两种脚本方式:转换和工作,工作中可以添加转换.以下以转换为例. 1.新建一个转换, 2.在工作中经常用到的是表 ...

  4. kettle mysql 导入数据库_ETL工具—Kettle数据的导入导出—数据库到数据库

    ETL简介: ETL(Extract-Transform-Load的缩写,即数据抽取.转换.装载的过程) 数据库到数据库 下面讲解:kettle工具实现方法 案例目的:从用户scott下将emp表导入 ...

  5. kettle清洗mysql数据_ETL工具Kettle使用以及与Java整合实现数据清洗

    本文主要讲述kettle的使用和与Java整合,具体下载与安装请自行百度! kettle有两种脚本方式:转换和工作,工作中可以添加转换.以下以转换为例. 1.新建一个转换, 2.在工作中经常用到的是表 ...

  6. kettle将excel导入数据库_ETL工具—Kettle数据的导入导出—Excel表到数据库

    案例目的:当Excel中有几万条记录或者更多数据时,使用Kettle导入到数据库中.速度就能感到比复制粘贴快很多. 这里我会演示将"data.xlsx"表中数据有15万多条记录,使 ...

  7. 开源解决方案_OpenProject:一个开源项目管理解决方案

    开源解决方案 试图跟踪一个复杂的项目而又不淹没太多的信息仍然是我们许多人面临的挑战. 为了解决这个问题,我们开发了OpenProject ,这是一个基于Web的开源项目管理工具,可在整个项目生命周期中 ...

  8. 开源ETL工具kettle系列

    开源ETL工具kettle系列之常见问题 摘要:本文主要介绍使用kettle设计一些ETL任务时一些常见问题,这些问题大部分都不在官方FAQ上,你可以在kettle的论坛上找到一些问题的答案 1. J ...

  9. 《Kettle构建Hadoop ETL系统实践》大数据ETL开发工具选择Kettle的理由

    ETL一词是Extract.Transform.Load三个英文单词的首字母缩写,中文意为抽取.转换.装载.ETL是建立数据仓库最重要的处理过程,也是最能体现工作量的环节,一般会占到整个数据仓库项目工 ...

最新文章

  1. storm0.9.0.1安装
  2. Java虚拟机详解(四)------垃圾收集器
  3. 【设计模式】—— 命令模式Commond
  4. 播放RTMP协议的流媒体的几种选择
  5. 【译】nginx关于location部分
  6. C++中时间相关函数的使用
  7. java导入lang_为什么java.lang不需要导放
  8. Extjs弹出框的异步执行
  9. linux命令中info,Linux中zipinfo命令起什么作用呢?
  10. java8学习之Function与BiFunction函数式接口详解
  11. 迅为IMX6Q PLUS开发板烧写Android6.0系统方法
  12. 查询mysql数据库表占用空间大小_MySQL数据库查看数据表占用空间大小和记录数...
  13. 优雅的对 list 遍历进行 add 或者 remove 操作
  14. promoter:启动子预测程序(PPPs)软件现状及分析
  15. PDG转PDF全攻略
  16. 鲍威尔c 语言程序,优化设计-鲍威尔法程序(c语言).doc
  17. JavaWeb如何判断账户密码
  18. 第13章WEB13-JSP模式JDBC高级篇
  19. 奈奎斯特与香农定理_这样解释奈奎斯特定理和香农定理,初学者也能明白
  20. LinkList L与LinkList *L Lnode与*LinkList的区别

热门文章

  1. java重写重定向_JavaWeb请求转发与请求重定向理解
  2. Python练习之 对文件进行创建,然后重命名文件最近进行文件删除
  3. 基于Vitual Box建立虚拟机,虚拟机系统为Linux Ubuntu16.04
  4. C语言实现音乐播放器(Linux madplay)
  5. java url 本地文件是否存在_我的应用程序知道URL中是否存在文件会一直停止[重复]...
  6. 计算机应用技术专业全国排名,计算机应用技术专业全国排名
  7. oracle查看context,oracle context(上下文)
  8. java post get 请求_java get post 请求
  9. pwn环境搭建_pwndbg、pwntools环境搭建(Unix系统)
  10. linux下printf语句执行时间,linux下printf中\n刷新缓冲区的疑问(已解决)