链接:https://pan.baidu.com/s/1MO-qL0Pxe6PojfZKsw3_qA
提取码:o7fl

Greenplum Stream Server (GPSS)是一个ETL(提取、转换、加载)工具。GPSS服务器的一个实例从一个或多个客户机接收流数据,使用Greenplum数据库可读的外部表将数据转换并插入到目标Greenplum表中。数据源和数据格式是特定于客户机的。数据源和数据格式由客户端指定。

1. GPSS安装(gpadmin用户操作)

安装文件为gpss-gpdb6-1.5.3-rhel7-x86_64.gppkg

# 安装
gppkg -i gpss-gpdb6-1.5.3-rhel7-x86_64.gppkg# 安装信息
==========================================================================
GPSS installation is complete! To proceed, create gpss extension in the
target database with:"CREATE EXTENSION gpss;"
==========================================================================
# 特别注意:扩展的安装只在当前数据库生效。

2.GPSS配置(主节点)

# 1.切换 gpadmin 用户并进入数据库命令行工具
su gpadmin
psql
# 2.启用扩展 GPSS
CREATE EXTENSION gpss;# 执行实例
[gpadmin@tcloud ~]$ psql
psql (9.4.24)
Type "help" for help.gp_sydb=# CREATE EXTENSION gpss;
CREATE EXTENSION
# 扩展仅对数据库 gp_sydb 有效

3.数据导入实例

3.1 YAML配置文件

GPKafka支持多种数据格式的导入,包括avro、csv、delimited、json等。这里给出的例子是json格式的,如果需要其他格式,可以从网络上查询配置文件的编写方式,这里使用json格式主要是为了和其他业务公共Topic下的数据。在gpadmin用户的任意目录创建YAML文件,进行编辑,粘贴进去按格式整理好的配置信息,保存退出。举例 gpkafkatest.yaml 文件内容如下:

DATABASE: gp_sydb                # 数据库
USER: gpadmin                   # 用户名
PASSWORD: gpadmin               # 密码
HOST: tcloud                    # master节点IP或hostname
PORT: 5432                      # GP数据库端口号
KAFKA:INPUT:SOURCE:BROKERS: tcloud:9092  # Kafka 连接地址端口TOPIC: gp-test            # kafka 数据TopicCOLUMNS:- NAME: jdataTYPE: jsonFORMAT: jsonERROR_LIMIT: 10          # 遇到错误退出的次数OUTPUT:SCHEMA: publicTABLE: gp_table         # 写入数据表MAPPING:                 # 字段配置(NAME 是数据库字典名 EXPRESSION 对应的是 Kafka 字段名)- NAME: idEXPRESSION: (jdata->>'ID')::varchar- NAME: nameEXPRESSION: (jdata->>'NAME')::varchar- NAME: genderEXPRESSION: (jdata->>'GENDER')::varchar- NAME: phoneEXPRESSION: (jdata->>'PHONE')::varchar- NAME: ageEXPRESSION: (jdata->>'AGE')::intCOMMIT:MAX_ROW: 10000              # 一次最多提交数量MINIMAL_INTERVAL: 20      # 等待多少时间一提交(毫秒)

3.2 执行脚本

进入对应的yaml文件目录

# 使用以下命令测试脚本执行
gpkafka load gpkafkatest.yaml# 后台运行脚本
nohup gpkafka load gpkafkatest.yaml 1>/dev/null 2>&1 &# root用户下执行
su - gpadmin -c " nohup gpkafka load /path/to/gpkafkatest.yaml 1>/dev/null 2>&1 & "# 添加到开机启动# 查询已执行脚本
ps -aux | grep gpkafka

进入对应的yaml文件目录,执行 gpkafka load gsmdata.yaml 命令进行测试,也可以执行 nohup gpkafka load gsmdata.yaml 1>/dev/null 2>&1 &让脚本保持在后台运行。如果在root用户下,需要执行 su - gpadmin -c " nohup gpkafka load gsmdata.yaml 1>/dev/null 2>&1 &" 来指定导入脚本在gpadmin(数据库用户下)下运行,也可以把该指令添加到开机启动服务里(打开/etc/rc.d/rc.local或/etc/rc.local文件,在末尾增加执行的指令内容),确保开机即开启脚本。

使用ps -aux | grep gpkafka查询已执行的脚本

4. 注意事项

配置文件中大部分内容都根据实际情况进行配置即可,需要注意的事项时数据表的字段类型配置问题,例如JSON中是字符串,数据表对应的字段是整形就会异常;例如JSON中式空字符串,数据表中对应的字段是时间戳,也会异常。为了防止在生产环境中出现异常导致数据入库停止,需要对入库的数据进行进一步清洗:

  • 对数据字段进行严格验证;
  • 删除值为空的属性;
  • 验证字符串的长度不能超过字段的长度(需要考虑编码);
  • 不能随意更改数据类型和字段长度。

Greenplum【部署 04】GPSS扩展安装并使用GPKafka实现Kafka数据导入Greenplum数据库(安装包网盘分享)相关推荐

  1. Greenplum【环境搭建 04】使用GPKafka实现Kafka数据导入Greenplum数据库(扩展安装文件网盘分享)

    分享资源地址及文件列表: 链接:https://pan.baidu.com/s/1XVTxKLkOYrL4pCZpFfs-Tg 提取码:sq90 包含文件: # 命令执行 gpkafka # 扩展安装 ...

  2. ubuntu 18.04安装hdp 3.1.0最新完整版(含安装包)

    节点准备 hostname ip 角色 ubuntu-1804-1 172.21.73.53 从节点 ubuntu-1804-2 172.21.73.54 主节点 ubuntu-1804-3 172. ...

  3. GPkafka-Kafka数据导入GreenPlum实践

    背景 Kafka是分布式消息订阅系统,有非常好的横向扩展性,可实时存储海量数据,是流数据处理中间件的事实标准.当通过Kafka和greenplum搭建流处理管道时,如何高速可靠的完成流数据加载,成为用 ...

  4. r语言从网页下载东西内容 r安装特定版本的r包 r从网页下载 安装包

    加载 library(RCurl) getBinaryURL(url, -, .opts = list(), curl = getCurlHandle(), .buf = binaryBuffer(. ...

  5. Linux下安装mysql以及配置用户与数据导入

    Linux下安装mysql以及配置用户与数据导入 yun安装mysql linux下有一个很神奇的东西叫yum,只要有源,用yum来安装是一件非常容易的事,什么都不用管,它会为你解决好一些软件依赖的问 ...

  6. 软件测试“因子表”使用测试工具PICT下载安装,PICT中文乱码问题,pict下载百度网盘分享

    有没有思考过"如何让有限的测试具有代表整体的测试覆盖率"? 在测试工作中,经常会遇到这样的场景:一个软件功能有多个输入项,每个输入项有多个可选项:一个接口有多个参数,每个参数有多个 ...

  7. Ubuntu 16.04 一系列软件安装命令,包括QQ、搜狗、Chrome、vlc、网易云音乐安装方法(转载)...

    转自博客:https://blog.csdn.net/fuchaosz/article/details/51882935 1 简介 Ubuntu 16.04安装完后,还需要做一些配置才能愉快的使用,包 ...

  8. Ubuntu 16.04 一系列软件安装命令,包括QQ、搜狗、Chrome、vlc、网易云音乐安装方法...

    转载地址: http://blog.csdn.net/fuchaosz/article/details/51882935 [+] 1 简介 Ubuntu 16.04安装完后,还需要做一些配置才能愉快的 ...

  9. Ubuntu16.04安装qq和微信(亲测 可用)附安装包下载链接

    最近把笔记本系统换成了ubuntu16.04,结果在用的时候需要用到微信和qq,但根据网上的好多资料都不能成功安装,弄的一晚上,终于装好了. qq下载链接:http://mirrors.aliyun. ...

最新文章

  1. 人均年薪250万, 拥有400名博士, 这家AI公司去年亏27亿
  2. Gamma阶段第九次scrum meeting
  3. 当脑机接口应用于建筑工地,会发生什么?
  4. 基于textureview编写opengl程序
  5. RHEL7 yum安装配置LAMP(Apache+PHP+MySql)服务器
  6. _variant_t和_bstr_t有什么区别
  7. P6834-[Cnoi2020]梦原【数学期望,树状数组】
  8. mysql 字符集测试_MySQL多字符集备份恢复测试
  9. iphone-common-codes-ccteam源代码 CCNSArray.m
  10. Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks -译文
  11. swoole 自定义eof 标记 带返回信息(自己修改)和 不带返回信息的原本demo
  12. JavaScript 一维数组、二维数组(某个属性)去重方法
  13. Struts2.0 xml文件的配置(package,namespace,action)
  14. (转)正则表达之零宽断言(零宽度正预测先行断言)
  15. [ 渗透工具篇 ] sqlmap 详解(一) sqlmap 安装详解
  16. i3-9100f和i5-9400f 的区别
  17. 一元线性回归(最小二乘法)
  18. Vue框架的初识入门
  19. HBuilderX网站打包APP
  20. photoshop插画插件_一键生成2.5D风格插画的PS插件

热门文章

  1. 【TensorFlow基础函数】tf.concat的用法
  2. 也许你会用到的58个硬件面试题!
  3. Python3 使用PIL/Pillow库将图片转换为txt文字云
  4. 吐温20龙沙化工Glycosperse_L-20KFG聚氧乙烯20山梨醇酐单月桂酸酯
  5. 海康设备接入EasyCVR,出现告警信息缺失且不同步该如何解决?
  6. uni-app注册全局组件
  7. macbook 如何在开盖的情况下连接外接显示器, 同时 macbook 的键盘和触摸板都能工作
  8. latex中文小标题_LaTeX标题怎样使用中文?
  9. 尚硅谷大数据技术之 DataX—4)DataX使用优化
  10. Latex 设置表格字体垂直居中且水平居中,字体放在表格最中央之简单好用的方法