ETL是Extract”、“ Transform” 、“Load”三个单词的首字母缩写分别代表了抽取、转换、装载、是数据仓库中重要的一环、ETL是数据的抽取清洗转换加载的过程,是数据进入数据仓库进行大数据分析的载入过程,抽取将数据从各种原始的业务系统中读取出来,这是所有工作的前提。转换按照预先设计好的规则将抽取得数据进行转换,使本来异构的数据格式能统一起来。装载将转换完的数据按计划增量或全部导入到数据仓库中。大数据的利器大家可能普遍说是hadoop,但是大家要知道如果我们不做预先的清洗和转换处理,我们进入hadoop后仅通过mapreduce进行数据清洗转换再进行分析,垃圾数据会导致我们的磁盘占用量会相当大,这样无形中提升了我们的硬件成本(硬盘大,内存小处理速度会很慢,内存大cpu性能低速度也会受影响),因此虽然hadoop理论上解决了烂机器拼起来解决大问题的问题,但是事实上如果我们有更好的节点速度必然是会普遍提升的,因此ETL在大数据环境下仍然是必不可少的数据交换工具。目前流行的数据进入仓库的过程有两种形式,一种是进入数据库后再进行清洗和转换,另外一条路线是首先进行清洗转换再进入数据库,我们的ETL属于后者。ETL是数据整合解决方案。目前的运行应用系统是用户花了大部分精力和构建的、系统中的数据时非常宝贵的、是不可代理的系统、它的存在是为了解决原始数据库中的数据来源与格式的不同导致的系统实施、数据整合问题。

KETTLE是一款很优秀的开源ELT工具、java编写的、可以在Window、Linux、Unix上运行、KETTLE应用广泛,而且使用方便、抽取高效稳定。仅仅学会使用就可以找到一份不错的工作、【数据层交换和高性能并发处理】课程***了大数据的一些处理方法,与目前流行的hadoop配合使用。分析KETTLE源码,即使对ETL兴趣不大,至少可以了解国外开源项目的一些源码,并且KETTLE本身也使用了很多开源项目,因此可以从该工具上学到更多东西。

转载于:https://blog.51cto.com/beifengwang/1328962

KETTLE、spoon使用相关推荐

  1. 数据库数据格式化之Kettle Spoon

    前言 现在的数据库种类越来越多,数据库备份的格式也越来越复杂,所以数据格式化一直是一个老生常谈的问题.据库备份文件格式那么多,既有SQL的,也有BAK的,还有TXT的等.数据库种类也有很多,MySQL ...

  2. ETL第一篇(Kettle Spoon) 初遇

    ETL第一篇(Kettle Spoon) 初遇 ETL第二篇 调用webservice 简介 Kettle 是一款国外开源的 ETL 工具,纯 Java 编写,绿色无需安装,数据抽取高效稳定(数据迁移 ...

  3. kettle Spoon 的简单使用

    Spoon分享 Kettle Spoon简介 ETL(Extract-Transform-Load的缩写,即数据抽取.转换.装载的过程),对于企业或行业应用来说,我们经常会遇到各种数据的处理,转换,迁 ...

  4. kettle spoon 数据同步

    kettle spoon 数据同步 博客分类:mysql kettle spoon 数据同步  写这篇随笔只为记录,免得忘记了. 第一步:建立一个转换,文件->新建->转换 第二步:打开转 ...

  5. [hadoop] kettle spoon 基础使用 (txt 内容抽取到excel中)

    spoon.bat 启动kettle. 测试数据 1. 新建转换 输入中选择文本文件输入 双击设置文本输入 字符集.分隔符设置 获取对应的字段,预览记录. 拖入 excel输出,设置转换关系 设置输出 ...

  6. 【Kettle Spoon】课程要点简记

    文章目录 一.入门 1.Kettle简介 2.Kettle下载 3.Kettle部署 4.界面简介 5.快速体验 6.执行结果 7.核心概念 二.输入控件 1.csv文件输入 2.文本文件输入 3.E ...

  7. 记录kettle spoon.bat 无法启动 (系统找不到指定的路径。) 只有无限接近死亡 才能领悟真滴

    先写解决方案 错误信息 DEBUG: Using value () from calling script DEBUG: _PENTAHO_JAVA_HOME= DEBUG: _PENTAHO_JAV ...

  8. kettle spoon判断增量更新_使用Kettle实现数据实时增量同步--时间戳增量回滚同步...

    使用Kettle实现数据实时增量同步 0. 前言 本文介绍了使用Kettle对一张业务表数据(500万条数据以上)进行实时(10秒)同步,采用了时间戳增量回滚同步的方法.关于ETL和Kettle的入门 ...

  9. kettle Spoon.bat闪退解决办法

    1.Java环境配置问题 java_home:D:\Program Files\Java\jdk1.7.0_25(安装jdk路径) classpath:.;%java_home%\lib\dt.jar ...

  10. Kettle — Spoon加载源码解析

    在Kettle中,我们知道Spoon是其中最重要的一个组件.它可以让我们以图形化的方式开发转换和作业等工作. 在spoon中Kettle采用了Xul界面技术和Swt相结合的方式进行图形界面的开发. 启 ...

最新文章

  1. 【洛谷P3846】【TJOI2007】—可爱的质数(BSGS模板)
  2. lsof根据端口查进程
  3. adobe premiere elements 2019中文版
  4. php把数字转化字符串,php中把数字转化为字符串的方法有哪些?-PHP问题
  5. Creating Your First Blockchain with Java. Part 1.
  6. 前驱和后驱什么意思_14.98万!造型酷似“保时捷”,后置后驱续航510,这款SUV要火...
  7. 【Python学习】 - 解决DataFrame占用内存过大问题
  8. Restic 跨平台加密备份工具
  9. 利用Opencv在PictureControl中显示照片
  10. 分治-寻找第k小的数
  11. Memcached实战之单机部署----单实例/多实例
  12. android PopupWindow实现从底部弹出或滑出选择菜单或窗口
  13. modulenotfounderror python_你所不知道的 【ModuleNotFoundError: No module named ''; '' is not a package】...
  14. 动态SLIC加载(DBSLDR)激活win7
  15. 计算机网络谢希仁第八版 课后答案第七版课后答案
  16. 文献笔记(4)(2018ISSCC 13.3)
  17. 使SplitContainer中某个Panel宽度、高度不变
  18. 为什么打工人996会猝死,而老板007不会?
  19. 【电赛练习】手写绘图板 2013电赛G题
  20. 使用scrapy框架爬取携程旅行数据

热门文章

  1. 和利时dcs系统服务器设置,和利时DCS系统组态流程
  2. 解决:UnsatisfiedDependencyException
  3. 酷派春雷com.yulong.android,酷派7260 (春雷)一键刷机教程,亲测可用
  4. Mac 微信防撤回免认证登录多开插件:Tweak
  5. 众神的盛宴!阿里巴巴数学竞赛颁奖典礼,在江湖中一直流传许久的传说一一现身!...
  6. vim插件-对齐插件tabular
  7. 万物皆“数”:你最好学学微积分,它是上帝的语言
  8. 三菱plc编程有c语言吗,三菱plc编程用什么语言
  9. 方舟代码_源代码丢失的方舟
  10. 最简易的流水记账软件分享