1 引言:

项目最近要引入大数据技术,使用其处理加工日上网话单数据,需要kettle把源系统的文本数据load到Hadoop环境中

2 准备工作:

1 首先

要了解支持hadoop的Kettle版本情况,由于kettle资料网上较少,所以最好去官网找,官网的url:

http://wiki.pentaho.com/display/BAD/Configuring+Pentaho+for+your+Hadoop+Distro+and+Version

打开这个url 到页面最下面的底端,如下图:

archive 下面的from PDI 4.3 、 from PDI 4.4 、 from PDI 5.0 即表示支持hadoop的pdi 版本。pdi即pentaho data integration 又称kettle。PDI 4.3 、  PDI 4.4 、 PDI 5.0 即是kettle 4.3 、4.4、 5.0 ,这个版本号 包括比其更高的版本(即kettle 5.0.X ,5.1,5.2也支持hadoop)。

2 其次

不同的kettle版本支持的hadoop版本不一样,以5.1为例子,下面的链接是5.1的支持情况

http://wiki.pentaho.com/display/BAD/Configuring+Pentaho+for+your+Hadoop+Distro+and+Version

下图为链接打开的页面的中间部分:

determine the proper shim for hadoop Distro and version 大概意思是 为hadoop版本选择合适的套件。表格上面的一行:apache、cloudera、hortonworks、intel、mapr指的是发行方。点击他们来选择你 想连接的hadoop的发行方 。上图 以apache hadoop为例:

Version 指版hadoop版本号 ,shim 指kettle提供给该hadoop套件的名称,Download 里面的 included in 5.0,5.1 指kettle的5.0、5.1版本安装包里面已经有内置的插件,一句话来讲 就是kettle5.1及5.0版本已有插件提供支持apache hadoop版本0.20.x  。不需要额外下载。NS 是不支持的意思 图片下面也有解释。

上图说明的是对 cloudera的 hadoop支持的情况 ,Download 里面 download的蓝色字体超链接的说明 是要除了下kettle的安装包外另外下载的 ,带 included in 5.0,5.1 说明 kettle 5.0,5.1版本的本身就支持(内置有插件)。


由上面两图得到的结论是 kettle 5.1 支持 apache hadoop 0.20.x版本 及cloudera hadoop CDH4.0 到CDH5。

3  试验运行:

1 首先配置工作

当前我用的hadoop 版本是hadoop-2.2.0-cdh5.0 所以用kettle 5.1 且其内置有hadoop插件。去kettle官网下载:

解压之后 就是:

下载好之后,现在就需要做配置的工作了,配置的工作在kettle安装文件里面做:

配置办法参考:http://wiki.pentaho.com/display/BAD/Hadoop

进页面之后 先点击collapse 收缩所有的菜单树 如上图。  Configuring Pentaho for your Hadoop Distro and Version 意思是为hadoop 版本做配置 点击进去:页面的上面 就是上面说过的kettle对hadoop的支持情况。

我们到页面的中间部分去,如下图:

1 意思是 你想要连接的hadoop发行版 已经被kettle支持了,但是没有内置插件,需要下载,这种情况最好 看下:Install Hadoop Distribution Shim

2 意思是你想连接的hadoop发行版 还有没有被kettle支持,可以自己填写相应的信息 要求pentaho 开发一个。

还有1种情况 就是上面说的hadoop发行版 已经被kettle支持了 且有内置的插件。

3 就是配置了。

3.1 stop application 就是如果kettle在运行 先停掉他。

3.2 打开安装文件夹 我们这边是kettle 所以就是spoon那个的文件路径:

3.3 编辑 plugin.properties文件

3.4 改一个配置值 下图画圈的地方

改成 对应你hadoop的shim值 (上图的表格里面的shim) 我这边是cdh50:

改之后保存:

至此 配置工作做完。

2 然后开发脚本工作

下面开始开发脚本 官方参考:http://wiki.pentaho.com/display/BAD/Loading+Data+into+HDFS

打开 kettle 运行spoon.bat

:

新建一个kjb文件 拖一个开始图元

再拖一个

hadoop copy files即是 load数据到 hdfs里面。

copy files里面的配置:

 意思是当前kjb脚本所在路径 在我这边文件夹是:

目标文件 是 hdfs://ip:hdfs端口/路径

填之前可以点击browse 按钮 测试

如下图 :填好server 和port后  点击connect 如果没有报错 出现红框里面的hdfs://......... 就说明连接成功了(如下图)。

注意只要连接成功,说明kettle对hadoop的配置就没有问题。

可以运行脚本试试了:

如上图,脚本运行成功。

在hadoop home bin下面查看:

文件成功load.

至此,kettle load文本数据到hdfs成功!

4 备注:

所有的步骤都可以参考官网:

http://wiki.pentaho.com/display/BAD/Hadoop

上图 1 是配置 2 是加载数据到hadoop 集群 3 是加载数据到hdfs 还有其他到 Hive 到Hbase等。

kettle连接hadoophdfs图文详解相关推荐

  1. 电脑连接电视方法详解_查看电脑配置的几种方法(图文详解)

    很多朋友想要了解自己电脑详细的配置的时候,一般都是通过第三方的工具检测的.那么有没有其他更好的方法可以在win系统下查看电脑配置呢?今天我就给大家分享一下如何查看电脑配置. 查看电脑配置的几种方法图文 ...

  2. PLSQL Developer概念学习系列之如何正确登录连接上Oracle(图文详解)

    不多说,直接上干货! 进入PLSQL Developer 1.双击 2.得到 比如,我这里安装的是 全网最详细的Windows系统里Oracle 11g R2 Database服务器端(64bit)的 ...

  3. 计算机刷新的作用,图文详解Win8重置和刷新功能:超强自我治愈

    直接自愈,Windows8出故障之后,伴随着重置和刷新两大新功能,世上无难事了啊.微软Windows8团队今日在官方博客详细向用户解释Win8的重置和刷新PC功能,将可一键复位系统到最佳状态.视频演示 ...

  4. 可视化的Redis数据库管理工具redis-desktop-manager的初步使用(图文详解)

    不多说,直接上干货! 无论是Linux 还是 Windows里安装Redis, Windows里如何正确安装Redis以服务运行(博主推荐)(图文详解) Windows下如何正确下载并安装可视化的Re ...

  5. qt on android qml,Qt on Android: Qt Quick 之 Hello World 图文详解

    在上一篇文章,<Qt on Android:QML 语言基础>中,我们介绍了 QML 语言的语法,在最后我们遗留了一些问题没有展开,这篇呢,我们就正式开始撰写 Qt Quick 程序,而那 ...

  6. python爬虫图片实例-【图文详解】python爬虫实战——5分钟做个图片自动下载器...

    我想要(下)的,我现在就要 python爬虫实战--图片自动下载器 之前介绍了那么多基本知识[Python爬虫]入门知识(没看的赶紧去看)大家也估计手痒了.想要实际做个小东西来看看,毕竟: talk ...

  7. Git客户端图文详解如何安装配置GitHub操作流程攻略

    Git客户端图文详解如何安装配置GitHub操作流程攻略 软件应用 爱分享  3个月前 (08-15)  8896浏览  0评论 Git介绍 分布式 : Git版本控制系统是一个分布式的系统, 是用来 ...

  8. 阿里云linux centos 一键部署web环境--图文详解

    阿里云linux centos 一键部署web环境--图文详解 标签: linux阿里云一键部署 2017-04-15 12:28 386人阅读 评论(0) 收藏 举报  分类: linux(11)  ...

  9. mysql安装教程8.0.21安装_mysql8.0.21安装教程图文详解

    1.下载 下载链接 点击download,这里可能需要登录甲骨文的账号,登录一下即可 2.解压 下载好会得到一个安装包 把它解压到一个能找到的目录下即可,我的是这样(my.ini文件你们应该没有) 3 ...

最新文章

  1. Cookies工作原理
  2. 使用Cython库包对python的py文件(源码)进行加密,把python的.py文件生成.so文件并调用
  3. BZOJ 1738: [Usaco2005 mar]Ombrophobic Bovines 发抖的牛( floyd + 二分答案 + 最大流 )
  4. 架构实例之Demo_JSP
  5. 【antd】输入控件的思想
  6. nagios(icinga)借助check_hp插件监控惠普服务器硬件信息
  7. 如何在电话中交谈_11
  8. 二、十六进制数互相转换
  9. 2019新悦动打火困难解决了吗_悦动大面积存在启动困难北京现代检查不出原因就换零件...
  10. LeetCode344反转字符串
  11. php 自定义 引用函数,php总结6——自定义函数、引用传值
  12. 机器学习理论与实战:逻辑回归
  13. PostgreSQL是否区分大小写
  14. 医疗器械公司规章制度范本
  15. Python中写入文件操作
  16. github windows系统监控_windows快速制作U盘启动工具Rufus
  17. 微信提示在客户端提交验证_微信提示非常用设备要求输入短信验证码解决方法...
  18. 【励志】比风水厉害100倍的宇宙定律
  19. 微服务项目架构演变过程
  20. SSM+MySQL+JSP教务管理系统设计与实现(附源码下载地址)

热门文章

  1. vue 左右滑动菜单_Vue实现左右菜单联动实现代码
  2. php实现二叉搜索树,二叉搜索树有几种实现方式
  3. java中的topicFont_Fontmin 快速指南
  4. Eclipse安装AmaterasUML
  5. todolist实现删除的功能_coc-todolist: nvim/vim 的 todolist/task 管理插件
  6. android webview 数字键盘,android – 在WebView中显示数字键盘
  7. bim 模型web页面展示_BIM+装配式建筑工程师2020年必须拿下的技能证书
  8. mysql5.5.21安装图解_Windows系统安装MySQL5.5.21图解教程
  9. PHP页面运行一半,在PHP中仅缓存页面的一部分
  10. autojs定时可以选定日期吗_Excel工作表中的7个“一键完成”,你真的都了解、掌握吗?...