上一篇博客《还不会使用大数据ETL工具Kettle,你就真的out了!》博主已经为大家介绍了Kettle简单的使用操作,也确实谈到了后面会出较复杂操作的教程,其中当数与大数据组件之前的一些操作。所以本篇博客,博主为大家带来Kettle集成配置大数据的教程,为下一篇Kettle的进阶操作做铺垫!

文章目录

  • Kettle集成大数据
    • 1. 修改配置文件
    • 2. 移动jar包路径
    • 3.上传集群核心配置文件到本地并替换
    • 4.测试
      • 1. 新建一个集群(new Cluster)
      • 2. 配置集群信息

Kettle集成大数据

1. 修改配置文件

我们打开Kettle安装目录下的pentaho-big-data-plugin文件夹
data-integration\plugins\pentaho-big-data-plugin
修改plugin.properties文件,把active.hadoop.configuration的值设置成:cdh514

2. 移动jar包路径

我们进入到cdh15文件夹的lib目下
data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514\lib
可以发现里面有两个文件夹和一堆jar包

我们只需要做的是把clientpmr这两个文件夹里的jar包拿出来放置到它们父目录,也就是图中所示目录下。

3.上传集群核心配置文件到本地并替换

因为后续我们需要kettle连接集群的大数据相关组件,所以这一步需要将集群上相关的核心配置文件上传到window本地,在kettle的目录下进行替换操作!

操作路径为:
data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514

本步骤中,我们需要替换的配置文件有


是不是很眼熟,这不都是hadoop集群上的核心配置文件吗

是的,我们打开集群,进入到Hadoop的etc/hadoop目录下
cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
开始往windows端上传文件
sz yarn-site.xml hdfs-site.xml mapred-site.xml core-site.xml

进入到hive的目录
cd /export/servers/hive-1.1.0-cdh5.14.0/conf
同理
sz hive-site.xml

为了后续也能正常使用hbase,这里的操作也与上面一致
cd /export/servers/hbase-1.2.0-cdh5.14.0/conf
sz hbase-site.xml

然后将文件全部复制到data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514下替换即可


执行到这里,我们来测试一下环境是否整合好了

4.测试

1. 新建一个集群(new Cluster)

2. 配置集群信息


看到步骤2这样测试显示的结果,说明我们的环境就整合好了~


本篇只是环境整合篇,还未涉及到与Kettle任何实质性的操作,因此就到这就先结束了。下一篇博客博主将为大家详细介绍更多Kettle的转换操作,敬请期待!

如果对你有所帮助,记得点赞评论关注三连|ू・ω・` )

一招教你用Kettle整合大数据和Hive,HBase的环境!相关推荐

  1. 【学习笔记】大数据技术之HBase

    大数据技术之HBase 思考? 1. RegionServer和Master的区别? 2. Hbase端口 3. HBase写流程中,为什么要和zk进行交互? 第 1 章 HBase 简介 1.1 H ...

  2. Cris 小哥哥的大数据项目之 HBase 模拟微博核心功能

    Cris 小哥哥的大数据项目之 HBase 模拟微博核心功能 Author:Cris 文章目录 Cris 小哥哥的大数据项目之 HBase 模拟微博核心功能 Author:Cris 0. 序 1. 需 ...

  3. 云时代的大数据存储-云HBase

    纵观数据库发展的几十年,从网状数据库.层次数据库到RDBMS数据库,在最近几年的NewSQL的兴起,加上开源的运动,再加上云的特性,可以说是日新月异.在20世纪80年代后,大部分的业务确定了使用RDB ...

  4. 大数据第三季--Hive(day3)-徐培成-专题视频课程

    大数据第三季--Hive(day3)-1425人已学习 课程介绍         大数据第三季--Hive(day3) 课程收益     大数据第三季--Hive(day3) 讲师介绍     徐培成 ...

  5. 大数据之Hive入门

    1 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计.Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供 ...

  6. 03 大数据hadoop发展简史及环境安装

    文章目录 大数据hadoop发展简史及环境安装 1.hadoop的介绍以及发展历史 2.hadoop的历史版本介绍 3.hadoop三大公司发型版本介绍 3.1免费开源版本apache: 3.2免费开 ...

  7. 大数据技术之 HBase安装配置

    大数据技术之 HBase安装 1.hbase依赖于hadoop以及zookeeper,所以 1.1 首先myhadoop.sh start 1.2 然后zk.sh start 接下来安装hbase 1 ...

  8. 大数据技术之 HBase简介

    大数据技术之 HBase 第 1 章 HBase 简介 1.1 HBase 定义 HBase 是一种分布式.可扩展.支持海量数据存储的 NoSQL 数据库. 1.2 HBase 数据模型 逻辑上,HB ...

  9. Python + 大数据-Hadoop生态-Linux(一)-环境搭建和Vi

    Python + 大数据-Hadoop生态-Linux(一)-环境搭建和Vi 今日课程学习目标 1.了解Linux操作系统发展介绍.安装配置 2.掌握SSH原理机制.Linux文件上传下载 3.掌握L ...

最新文章

  1. 写文章的时候,还是应该现在typora里面写,之后放在latex...因为typora好改
  2. Spark 1.2 编译
  3. 中南大学夏令营集训营
  4. Scala _03方法与函数
  5. linq结果转换object_【JavaScript 教程】标准库—Object 对象
  6. 特斯拉不顾疫情开工,马斯克放话:若要逮捕,冲我一个人来!
  7. 关于使用layer弹出框展现echarts不显示的问题
  8. dapper框架_.net core 基于Dapper 的分库分表开源框架(core-data)
  9. 随机游走分割算法(Random Walk Segmentation Algorithm)
  10. turbo c是什么?
  11. java调用webservice接口 几种方法
  12. 手把手搭建一个属于自己的在线 IDE
  13. php 模拟蜘蛛,php 实现使用curl模拟百度蜘蛛进行采集
  14. 用计算机弹奏七月上,七月上歌词背后的故事 七月上背景故事介绍
  15. 【JAVA】贪吃蛇的初步实现(一)
  16. 如何检查NAS硬盘有坏没有
  17. OSChina 周二乱弹 ——女王节 教你撩妹新技能
  18. 如何在word中写伪代码
  19. 数据挖掘技术及其应用
  20. 个人电脑链接本地/云服务器

热门文章

  1. ES6—ES13总结
  2. postman基本功能介绍
  3. UI自动化测试AutoIT工具使用
  4. HTML ===> 向右侧展开div
  5. 指令集与左岸芯慧正式启动“中国农业智能操作系统”共建
  6. 武松大战蒋门神(35)
  7. 折价400元:三星也能换魅族手机了
  8. 如何用迅雷下载python_用Python调用迅雷批量下载excel表内的链接,并同时对文件重命名(使用的是openpyxl)...
  9. Python OpenCV 自动生成快乐源泉小瓶子图片(OpenCV中文写字)
  10. 老虎证券国际完成5亿C轮融资 估值10.6亿美元成新独角兽