最近沉迷Python爬虫学习,很有意思,即时刹车,坚持一步一学习,一步一整理
Kettle目前工作用于数据库搬运,例如Oracle定时搬运到mysql中间表,以便于加速查询

1.相关学习资料

【尚硅谷】大数据技术之Kettle视频教程
网盘资料下载:https://pan.baidu.com/s/1JxwmmPoeFc7HZuK-E5jzhg
提取码:g1jo

2.Kettle概述

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle 这个ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
Kettle(现在已经更名为PDI,Pentaho Data Integration-Pentaho数据集成)。

2.1 Kettle的两种设计

2.2 Kettle的核心组件

3 安装部署(参考视频)

4 Kettle调优

1、调整JVM大小进行性能优化,修改Kettle根目录下的Spoon脚本

参数参考:
-Xmx2048m:设置JVM最大可用内存为2048M。
-Xms1024m:设置JVM促使内存为1024m。此值可以设置与-Xmx相同,以避免每次垃圾回收完成后JVM重新分配内存。
-Xmn2g:设置年轻代大小为2G。整个JVM内存大小=年轻代大小 + 年老代大小 + 持久代大小。持久代一般固定大小为64m,所以增大年轻代后,将会减小年老代大小。此值对系统性能影响较大,Sun官方推荐配置为整个堆的3/8。
-Xss128k:设置每个线程的堆栈大小。JDK5.0以后每个线程堆栈大小为1M,以前每个线程堆栈大小为256K。更具应用的线程所需内存大小进行调整。在相同物理内存下,减小这个值能生成更多的线程。但是操作系统对一个进程内的线程数还是有限制的,不能无限生成,经验值在3000~5000左右。
2、 调整提交(Commit)记录数大小进行优化,Kettle默认Commit数量为:1000,可以根据数据量大小来设置Commitsize:1000~50000
3、尽量使用数据库连接池;
4、尽量提高批处理的commit size;
5、尽量使用缓存,缓存尽量大一些(主要是文本文件和数据流);
6、Kettle是Java做的,尽量用大一点的内存参数启动Kettle;
7、可以使用sql来做的一些操作尽量用sql;
Group , merge , stream lookup,split field这些操作都是比较慢的,想办法避免他们.,能用sql就用sql;
8、插入大量数据的时候尽量把索引删掉;
9、尽量避免使用update , delete操作,尤其是update,如果可以把update变成先delete, 后insert;
10、能使用truncate table的时候,就不要使用deleteall row这种类似sql合理的分区,如果删除操作是基于某一个分区的,就不要使用delete row这种方式(不管是deletesql还是delete步骤),直接把分区drop掉,再重新创建;
11、尽量缩小输入的数据集的大小(增量更新也是为了这个目的);
12、尽量使用数据库原生的方式装载文本文件(Oracle的sqlloader, mysql的bulk loader步骤)

5 Linux 部署调度任务注意点

一般情况在win上编辑好,直接放到Linux上定时调度
Linux设置kettle的任务启动

6 总结

1.ETL为大数据岗位常见工作内容,借助工具更简单。
2.大数据时则是大量工具运用,除此之外写sql加工数据。
3.kettle工具入门大数据既简单又容易了解日常工作,可接受度较高。

从工具了解大数据之Kettle相关推荐

  1. TOOM舆情分析和报告工具,大数据决策免费舆情监控辅助工具?

    大数据舆情工具是一种利用大数据技术进行舆情监控.分析.评估和预测的工具,以提高企业舆情应对能力.舆情监控工具可以帮助企业提高舆情应对能力,提升企业形象,以更好地处理各种舆情问题,TOOM舆情分析和报告 ...

  2. 大数据:Kettle导入数据到HDFS

    由于之前一直负责大数据项目,之前用Kettle(pdi)7.1把SQL Server的数据导入到HDFS系统中一直失败,期间由于其他项目中断,就没有继续往下研究,最近因为其他项目完结,继续在网上找了很 ...

  3. url采集工具_大数据关键技术浅谈之大数据采集

    在前几篇文章中,企通查为大家介绍了大数据处理的基本流程.从大数据的一系列处理过程中(抽取.集成.分析.解释),我们可以发现这一整套流程中涵盖了数据存储.处理.应用等多方面的技术. 大数据价值的完美体现 ...

  4. 论各类BI工具的“大数据”特性!

    市面上的BI工具形形色色,功能性能包装得十分亮丽,但实际应用中我们往往更关注的是朴实的技术特性和解决方案.对于大数据,未来的应用趋势不可抵挡,很多企业也正存在大数据分析处理展现的需求,以下我们列举市面 ...

  5. python做大数据可视化软件_一般用哪些工具做大数据可视化分析?

    大家都回答的是工具产品,似乎都没有人讲讲R语言和Python,怒答. -------------------------------------------多图预警! R-ggplot2 ggplot ...

  6. mapbox矢量切片_使用Tippecanoe工具处理大数据量的矢量数据切片

    Tippecanoe是Mapbox的一个开源切片工具,项目地址:https://github.com/mapbox/tippecanoe,Mapbox常规的切片方法tilelive-copy参见另一篇 ...

  7. 大数据的主流数据分析工具_大数据不会成为主流,它已经存在

    大数据的主流数据分析工具 对于IDC Directions而言,大数据已经成为主流. 不可否认,随着大数据的不断增长,大数据正变得越来越广泛. 造成这种情况的部分原因是,许多事情都在推动大数据,但有趣 ...

  8. 大数据 - 120GB的TXT文本文件快速排序工具附带大数据文件按行切分功能

    测试数据大小:121GB和152GB,TXT数据格式:一共4列27.5亿行 关于如何生成如此大的测试数据文件,请看我的另一篇博客介绍含Java源码代码 如何实现一款随机测试大数据生成工具(适用于任何排 ...

  9. DataWei免费的报表工具,大数据可视化平台

    DataWei数据平台致力于数据可视化领域:智能报表.手机报表.大数据可视化.非商業,完全免費. 大家可以在綫體驗:http://www.datawei.com 有興趣的一起來討論.

最新文章

  1. PTA—输出全排列 (20分) 递归回溯思想
  2. weblogic 部署后出现Error 404–Not Found
  3. linux中文件描述符fd和文件指针flip的理解
  4. 临近期末,图书管理系统课设项目安排上(附源码)
  5. Linux学习日记之sshd服务
  6. scp 一次拷贝多个文件
  7. python将字典写入csv_Python如何把字典写入到CSV文件的方法示例
  8. 饭局潜规则,吃饭时的最大忌讳,就是低头玩手机
  9. 我所理解的Cocos2d-x
  10. 1.3 Linux存储技术
  11. 【个人笔记一】ART系统类的编译解析加载探究
  12. Nginx搭建视频点播和视频直播服务器
  13. flux护眼软件设置
  14. 金蝶K3提取供应商信息生成在线Web页面供应商信息一览表
  15. linux看视频插件,Linux系统下安装Adobe Flash Player插件观播放视频
  16. 为什么“高大上”的算法工程师变成了数据民工?
  17. 用友软件T3版本不同的开账时间,期初余额应该如何录入?
  18. 视频怎么制作虚化边框背景的效果?
  19. 连续三次世界500强面试经历
  20. {渡一教育}成哥HTML课程干货笔记整--2

热门文章

  1. HTTP请求携带用户密码验证
  2. Pinta 1.0发布
  3. 即时编译器的中间表达形式(IR)
  4. 计算机考研是属于工学呢还是理学呀,计算机考研是属于工学呢还是理学
  5. 纯css实现正方体图片旋转效果
  6. golang emoji表情处理
  7. potato社交苹果版下载-potato土豆社交ios下载
  8. 简谈几种ddos防御方法
  9. LCD12864 液晶显示-汉字及自定义显示(串口)
  10. PS3 可播放的多媒体类型