提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 前言
  • 一、ETL是什么?
  • 二、数据加载工具GPLoad
    • 1.GPLoad安装部署
    • 2.编写控制文件test.yml
  • 总结

前言

提示:这里可以添加本文要记录的大概内容:

GreenPlum作为一款定位为OLAP系统的分布式数据库平台,具有非常强大的ETL功能,其中存储过程和GPLoad是必须掌握的数据仓库开发工具。


提示:以下是本篇文章正文内容,下面案例可供参考

一、ETL是什么?

ETL是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。
ETL 是企业数据应用过程中的一个数据流(pipeline)的控制技术,把原始的数据经过一定的处理,放入数据仓库里。
ETL的目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。

二、数据加载工具GPLoad

1.GPLoad安装部署

代码如下(示例):

#在虚拟机增加了一台做ETL的服务器
192.168.1.200 gpetlmkdir -p /gpdata/gpadmin/greenplum-db-clients
chown -R hadoop:hadoop /gpdata/gpadmin/greenplum-db-clientsroot: yum install apr apr-util bzip2 libyaml libevent rsyncroot:
cd /gpdata/gpadmin/greenplum-db-clients
rpm -ivh greenplum-db-clients-6.18.0-rhel7-x86_64.rpm
rpm -ivh --prefix=/gpdata/gpadmin/greenplum-db-clients/ greenplum-db-clients-6.18.1-rhel7-x86_64.rpm#将软件赋权给实际管理员用户
ls -al
chown -Rf hadoop:hadoop /gpdata/gpadmin/greenplum-db-clients*#设置环境变量
source /gpdata/gpadmin/greenplum-db-clients/greenplum-db-clients-6.18.1/greenplum_loaders_path.sh

2.编写控制文件test.yml

代码如下(示例):

VERSION: 1.0.0.1
DATABASE: gpdb
USER: gpadmin
HOST: 192.168.1.201
PORT: 5432
GPLOAD:INPUT:- SOURCE:LOCAL_HOSTNAME:- 192.168.1.200PORT: 8080FILE:- /home/test/test.csv #数据文件路径- COLUMNS:- id: INT8- MAX_LINE_LENGTH: 1000000- FORMAT: csv- DELIMITER: ','- HEADER: trueOUTPUT:- TABLE: public.t_test #测试表,表中包含字段id 类型为INT8- MODE: insert
#准备数据文件test.csv
id
1
2
3
4#执行gpload
gpload -f test.yml
#成功导入数据则安装成功,否则根据具体提示处理

总结

记录点点滴滴

GreenPlum6.x之ETL工具相关推荐

  1. 系统设计与架构笔记:ETL工具开发和设计的建议

    好久没写博客了,不是自己偷懒,的确是没有时间哦. 最近项目组里想做一个ETL数据抽取工具,这是一个研发项目,但是感觉公司并不是特别重视,不重视不是代表它不重要,而是可能不会对这个项目要求太高,能满足我 ...

  2. oracle视图能用etl工具_(转)使用kettle作为sqlserver2008和oracle10G之间的ETL工具

    转 http://blog.sina.com.cn/s/blog_664558d30100qga9.html 实际工作过程中,常常会遇到将数据从一个数据库迁入到另外一个数据库,以sqlserver20 ...

  3. ETL工具框架开源软件

    http://www.oschina.net/project/tag/453/etl 开源ETL工具 Kettle Talend KETL CloverETL Apatar Scriptella ET ...

  4. ETL工具调度之中美PK

    ETL调度工具中美PK ( TASKCTL VS Control-M) 美方:Control-M  ( www.bmc.com) 中方:TASKCTL  ( www.taskctl.com ) 毫无疑 ...

  5. 六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate)...

    六种 主流ETL 工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle Goldengate) 比较维度\产品 DataPipeline ...

  6. 【ETL】ETL----如何决定是否采用ETL工具

    原文链接:https://blog.csdn.net/cormier_an/article/details/12349533?utm_source=blogxgwz1 ETL工具还是手工编码 (购买工 ...

  7. 【ETL】ETL介绍与ETL工具比较

    本文转载自:http://blog.csdn.net/u013412535/article/details/43462537 ETL,是英文 Extract-Transform-Load 的缩写,用来 ...

  8. ETL工具Kettle使用

    1.下载kettle:https://sourceforge.net/projects/pentaho/files/Data%20Integration/7.0/pdi-ce-7.0.0.0-25.z ...

  9. ETL工具大全,你了解多少

    这些年,几乎都与ETL打交道,接触过多种ETL工具.现将这些工具做个整理,与大家分享. 一 ETL工具 [国外] 1. datastage 点评:最专业的ETL工具,价格不菲,使用难度一般 下载地址: ...

最新文章

  1. rman命令学习-tina(下)
  2. 搭建“双11”大型网站架构必须掌握的 5 个核心知识
  3. PyQt5 技术篇 - 按钮隐藏并保留位置,pyqt5设置按钮的可见度,设置按钮透明度
  4. 如何在ESXi 5.5主机上安装ESXi 5.5客户机
  5. 数据库SQL语言从入门到精通--Part 4--SQL语言中的模式、基本表、视图
  6. 前端累加nan怎么解决_前端面试,你有必要知道的一些JavaScript 面试题(上)
  7. ruby .each_Ruby中带有示例的Array.each方法
  8. 服务器文件夹和电脑文件夹同步软件哪个好,windows文件同步备份软件-文件夹同步工具哪个好?...
  9. c语言topk函数并获取下标,C语言函数语法大全(一)
  10. c++tcp接收文件缓存多大合适_linux高性能网络编程之tcp连接的内存使用
  11. Android6.0 dump h264/h265编码裸流(二)
  12. oracle11g运行超慢,oracle11g安装后电脑启动很慢怎么解决
  13. 【leetcode 简单】 第六十六题 用栈实现队列
  14. 苹果系统安装服务器打印机,如何在MAC系统下安装打印机驱动
  15. 网页数据实时更新的三种简单方法
  16. 如何用计算机画地形地貌图,地形图是如何绘制出来的
  17. Error: Duplicate resources
  18. 淘客联盟系统维护光盘2008新春大礼包
  19. html如何制作扑克,用css制作扑克牌
  20. 年前找工作好,还是年后找工作好?求职需警惕,小心陷入羊群效应

热门文章

  1. 生成不重复随机数——《超级处理器》应用
  2. GameFramework制作游戏(一)
  3. 视频会议对带宽的要求高不高
  4. 『转』魔兽争霸秘籍之高手速成大法
  5. flow 类型生成工具 flow-typed 简单使用
  6. 实用常识 | 如何将多张图片合成一张gif图片(使用Win10自带工具or利用Photoshop实现)
  7. 怎么把模糊的照片变清晰?这篇文章告诉你
  8. wget 自己服务器上的文件,关于linux:wget可以用于获取服务器上的所有文件吗?...
  9. PMP报名入口在哪里?不废话!
  10. oracle 查看表被锁和如何解锁