GreenPlum6.x之ETL工具
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录
- 前言
- 一、ETL是什么?
- 二、数据加载工具GPLoad
- 1.GPLoad安装部署
- 2.编写控制文件test.yml
- 总结
前言
提示:这里可以添加本文要记录的大概内容:
GreenPlum作为一款定位为OLAP系统的分布式数据库平台,具有非常强大的ETL功能,其中存储过程和GPLoad是必须掌握的数据仓库开发工具。
提示:以下是本篇文章正文内容,下面案例可供参考
一、ETL是什么?
ETL是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
ETL 是企业数据应用过程中的一个数据流(pipeline)的控制技术,把原始的数据经过一定的处理,放入数据仓库里。
ETL的目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。
二、数据加载工具GPLoad
1.GPLoad安装部署
代码如下(示例):
#在虚拟机增加了一台做ETL的服务器
192.168.1.200 gpetlmkdir -p /gpdata/gpadmin/greenplum-db-clients
chown -R hadoop:hadoop /gpdata/gpadmin/greenplum-db-clientsroot: yum install apr apr-util bzip2 libyaml libevent rsyncroot:
cd /gpdata/gpadmin/greenplum-db-clients
rpm -ivh greenplum-db-clients-6.18.0-rhel7-x86_64.rpm
rpm -ivh --prefix=/gpdata/gpadmin/greenplum-db-clients/ greenplum-db-clients-6.18.1-rhel7-x86_64.rpm#将软件赋权给实际管理员用户
ls -al
chown -Rf hadoop:hadoop /gpdata/gpadmin/greenplum-db-clients*#设置环境变量
source /gpdata/gpadmin/greenplum-db-clients/greenplum-db-clients-6.18.1/greenplum_loaders_path.sh
2.编写控制文件test.yml
代码如下(示例):
VERSION: 1.0.0.1
DATABASE: gpdb
USER: gpadmin
HOST: 192.168.1.201
PORT: 5432
GPLOAD:INPUT:- SOURCE:LOCAL_HOSTNAME:- 192.168.1.200PORT: 8080FILE:- /home/test/test.csv #数据文件路径- COLUMNS:- id: INT8- MAX_LINE_LENGTH: 1000000- FORMAT: csv- DELIMITER: ','- HEADER: trueOUTPUT:- TABLE: public.t_test #测试表,表中包含字段id 类型为INT8- MODE: insert
#准备数据文件test.csv
id
1
2
3
4#执行gpload
gpload -f test.yml
#成功导入数据则安装成功,否则根据具体提示处理
总结
记录点点滴滴
GreenPlum6.x之ETL工具相关推荐
- 系统设计与架构笔记:ETL工具开发和设计的建议
好久没写博客了,不是自己偷懒,的确是没有时间哦. 最近项目组里想做一个ETL数据抽取工具,这是一个研发项目,但是感觉公司并不是特别重视,不重视不是代表它不重要,而是可能不会对这个项目要求太高,能满足我 ...
- oracle视图能用etl工具_(转)使用kettle作为sqlserver2008和oracle10G之间的ETL工具
转 http://blog.sina.com.cn/s/blog_664558d30100qga9.html 实际工作过程中,常常会遇到将数据从一个数据库迁入到另外一个数据库,以sqlserver20 ...
- ETL工具框架开源软件
http://www.oschina.net/project/tag/453/etl 开源ETL工具 Kettle Talend KETL CloverETL Apatar Scriptella ET ...
- ETL工具调度之中美PK
ETL调度工具中美PK ( TASKCTL VS Control-M) 美方:Control-M ( www.bmc.com) 中方:TASKCTL ( www.taskctl.com ) 毫无疑 ...
- 六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate)...
六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate) 比较维度\产品 DataPipeline ...
- 【ETL】ETL----如何决定是否采用ETL工具
原文链接:https://blog.csdn.net/cormier_an/article/details/12349533?utm_source=blogxgwz1 ETL工具还是手工编码 (购买工 ...
- 【ETL】ETL介绍与ETL工具比较
本文转载自:http://blog.csdn.net/u013412535/article/details/43462537 ETL,是英文 Extract-Transform-Load 的缩写,用来 ...
- ETL工具Kettle使用
1.下载kettle:https://sourceforge.net/projects/pentaho/files/Data%20Integration/7.0/pdi-ce-7.0.0.0-25.z ...
- ETL工具大全,你了解多少
这些年,几乎都与ETL打交道,接触过多种ETL工具.现将这些工具做个整理,与大家分享. 一 ETL工具 [国外] 1. datastage 点评:最专业的ETL工具,价格不菲,使用难度一般 下载地址: ...
最新文章
- rman命令学习-tina(下)
- 搭建“双11”大型网站架构必须掌握的 5 个核心知识
- PyQt5 技术篇 - 按钮隐藏并保留位置,pyqt5设置按钮的可见度,设置按钮透明度
- 如何在ESXi 5.5主机上安装ESXi 5.5客户机
- 数据库SQL语言从入门到精通--Part 4--SQL语言中的模式、基本表、视图
- 前端累加nan怎么解决_前端面试,你有必要知道的一些JavaScript 面试题(上)
- ruby .each_Ruby中带有示例的Array.each方法
- 服务器文件夹和电脑文件夹同步软件哪个好,windows文件同步备份软件-文件夹同步工具哪个好?...
- c语言topk函数并获取下标,C语言函数语法大全(一)
- c++tcp接收文件缓存多大合适_linux高性能网络编程之tcp连接的内存使用
- Android6.0 dump h264/h265编码裸流(二)
- oracle11g运行超慢,oracle11g安装后电脑启动很慢怎么解决
- 【leetcode 简单】 第六十六题 用栈实现队列
- 苹果系统安装服务器打印机,如何在MAC系统下安装打印机驱动
- 网页数据实时更新的三种简单方法
- 如何用计算机画地形地貌图,地形图是如何绘制出来的
- Error: Duplicate resources
- 淘客联盟系统维护光盘2008新春大礼包
- html如何制作扑克,用css制作扑克牌
- 年前找工作好,还是年后找工作好?求职需警惕,小心陷入羊群效应