一招教你用Kettle整合大数据和Hive,HBase的环境!
上一篇博客《还不会使用大数据ETL工具Kettle,你就真的out了!》博主已经为大家介绍了Kettle简单的使用操作,也确实谈到了后面会出较复杂操作的教程,其中当数与大数据组件之前的一些操作。所以本篇博客,博主为大家带来Kettle集成配置大数据的教程,为下一篇Kettle的进阶操作做铺垫!
文章目录
- Kettle集成大数据
- 1. 修改配置文件
- 2. 移动jar包路径
- 3.上传集群核心配置文件到本地并替换
- 4.测试
- 1. 新建一个集群(new Cluster)
- 2. 配置集群信息
Kettle集成大数据
1. 修改配置文件
我们打开Kettle安装目录下的pentaho-big-data-plugin文件夹
data-integration\plugins\pentaho-big-data-plugin
修改plugin.properties文件,把active.hadoop.configuration的值设置成:cdh514
2. 移动jar包路径
我们进入到cdh15文件夹的lib目下
data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514\lib
可以发现里面有两个文件夹和一堆jar包
我们只需要做的是把client和pmr这两个文件夹里的jar包拿出来放置到它们父目录,也就是图中所示目录下。
3.上传集群核心配置文件到本地并替换
因为后续我们需要kettle连接集群的大数据相关组件,所以这一步需要将集群上相关的核心配置文件上传到window本地,在kettle的目录下进行替换操作!
操作路径为:
data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514
本步骤中,我们需要替换的配置文件有
是不是很眼熟,这不都是hadoop集群上的核心配置文件吗
是的,我们打开集群,进入到Hadoop的etc/hadoop目录下
cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
开始往windows端上传文件
sz yarn-site.xml hdfs-site.xml mapred-site.xml core-site.xml
进入到hive的目录
cd /export/servers/hive-1.1.0-cdh5.14.0/conf
同理
sz hive-site.xml
为了后续也能正常使用hbase,这里的操作也与上面一致
cd /export/servers/hbase-1.2.0-cdh5.14.0/conf
sz hbase-site.xml
然后将文件全部复制到data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\cdh514
下替换即可
执行到这里,我们来测试一下环境是否整合好了
4.测试
1. 新建一个集群(new Cluster)
2. 配置集群信息
看到步骤2这样测试显示的结果,说明我们的环境就整合好了~
本篇只是环境整合篇,还未涉及到与Kettle任何实质性的操作,因此就到这就先结束了。下一篇博客博主将为大家详细介绍更多Kettle的转换操作,敬请期待!
如果对你有所帮助,记得点赞评论关注三连|ू・ω・` )
一招教你用Kettle整合大数据和Hive,HBase的环境!相关推荐
- 【学习笔记】大数据技术之HBase
大数据技术之HBase 思考? 1. RegionServer和Master的区别? 2. Hbase端口 3. HBase写流程中,为什么要和zk进行交互? 第 1 章 HBase 简介 1.1 H ...
- Cris 小哥哥的大数据项目之 HBase 模拟微博核心功能
Cris 小哥哥的大数据项目之 HBase 模拟微博核心功能 Author:Cris 文章目录 Cris 小哥哥的大数据项目之 HBase 模拟微博核心功能 Author:Cris 0. 序 1. 需 ...
- 云时代的大数据存储-云HBase
纵观数据库发展的几十年,从网状数据库.层次数据库到RDBMS数据库,在最近几年的NewSQL的兴起,加上开源的运动,再加上云的特性,可以说是日新月异.在20世纪80年代后,大部分的业务确定了使用RDB ...
- 大数据第三季--Hive(day3)-徐培成-专题视频课程
大数据第三季--Hive(day3)-1425人已学习 课程介绍 大数据第三季--Hive(day3) 课程收益 大数据第三季--Hive(day3) 讲师介绍 徐培成 ...
- 大数据之Hive入门
1 Hive基本概念 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计.Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供 ...
- 03 大数据hadoop发展简史及环境安装
文章目录 大数据hadoop发展简史及环境安装 1.hadoop的介绍以及发展历史 2.hadoop的历史版本介绍 3.hadoop三大公司发型版本介绍 3.1免费开源版本apache: 3.2免费开 ...
- 大数据技术之 HBase安装配置
大数据技术之 HBase安装 1.hbase依赖于hadoop以及zookeeper,所以 1.1 首先myhadoop.sh start 1.2 然后zk.sh start 接下来安装hbase 1 ...
- 大数据技术之 HBase简介
大数据技术之 HBase 第 1 章 HBase 简介 1.1 HBase 定义 HBase 是一种分布式.可扩展.支持海量数据存储的 NoSQL 数据库. 1.2 HBase 数据模型 逻辑上,HB ...
- Python + 大数据-Hadoop生态-Linux(一)-环境搭建和Vi
Python + 大数据-Hadoop生态-Linux(一)-环境搭建和Vi 今日课程学习目标 1.了解Linux操作系统发展介绍.安装配置 2.掌握SSH原理机制.Linux文件上传下载 3.掌握L ...
最新文章
- 写文章的时候,还是应该现在typora里面写,之后放在latex...因为typora好改
- Spark 1.2 编译
- 中南大学夏令营集训营
- Scala _03方法与函数
- linq结果转换object_【JavaScript 教程】标准库—Object 对象
- 特斯拉不顾疫情开工,马斯克放话:若要逮捕,冲我一个人来!
- 关于使用layer弹出框展现echarts不显示的问题
- dapper框架_.net core 基于Dapper 的分库分表开源框架(core-data)
- 随机游走分割算法(Random Walk Segmentation Algorithm)
- turbo c是什么?
- java调用webservice接口 几种方法
- 手把手搭建一个属于自己的在线 IDE
- php 模拟蜘蛛,php 实现使用curl模拟百度蜘蛛进行采集
- 用计算机弹奏七月上,七月上歌词背后的故事 七月上背景故事介绍
- 【JAVA】贪吃蛇的初步实现(一)
- 如何检查NAS硬盘有坏没有
- OSChina 周二乱弹 ——女王节 教你撩妹新技能
- 如何在word中写伪代码
- 数据挖掘技术及其应用
- 个人电脑链接本地/云服务器
热门文章
- ES6—ES13总结
- postman基本功能介绍
- UI自动化测试AutoIT工具使用
- HTML ===> 向右侧展开div
- 指令集与左岸芯慧正式启动“中国农业智能操作系统”共建
- 武松大战蒋门神(35)
- 折价400元:三星也能换魅族手机了
- 如何用迅雷下载python_用Python调用迅雷批量下载excel表内的链接,并同时对文件重命名(使用的是openpyxl)...
- Python OpenCV 自动生成快乐源泉小瓶子图片(OpenCV中文写字)
- 老虎证券国际完成5亿C轮融资 估值10.6亿美元成新独角兽