主要通过一个数据采集与处理的案例来介绍Streamsets(3.13.0)的使用,主要将使用Edge数据流收集streamsets系统的日志和主机性能指标,通过收集数据流收集类数据并进行简单处理,发送至kafka中,性能指标数据入库数据流和日志数据入库数据流分别从kafka中消费数据,并将两类数据进行简单处理加载到数据库中。

学习目的:使用edge和streamset的数据互动,使用streamset进行分布式异步数据处理。

数据流图:

最终数据流的效果图:

需要配置5个数据流,两个edge采集数据流,一个数据收集数据流,两个数据处理与入库数据流

前期准备:

(1)需要在数据采集的节点上部署安装Edge(不会使用的同学可以参照前面文章)。

(2)一个现成kafka集群,并创建一个两个topic,kafka集群主要为了让数据流达到分布式异步处理的能力。

(3)一个现成的ES集群。

构建步骤:

1.首先构建日志数据采集器数据流

配置edge数据流发布的地址(该主机上一定要安装部署了edge)

配一下文件采集文件和数据格式,数据格式我们直接按文本传输

使用destination 类http client配置一下远程数据收集器的地址和APP ID

2.性能指标数据采集器数据流

配置edge数据流发布的地址(该主机上一定要安装部署了edge)

配置一下系统指标采集插件,采集哪些数据和采集的频率,这里我们采集host、cpu、内存、磁盘等,采集频率为两秒

使用destination 类http client同样配置一下数据收集器远程的url和APP ID

3.数据收集与处理数据流

使用origin 类http sevice组件,配置数据收集器的端口、最大并发量以及APP ID

使用Http 路由插件,将接受到的数据路由不到不同分支,这里配置日志和性能指标数据路由。

使用日志解析插件对收集到的日志数据进行解析,这里我们选择Log4j解析器,选择使用自定义日志格式,这里的格式按照streamset的格式:

 %d{ISO8601} [user:%X{s-user}] [pipeline:%X{s-entity}] [runner:%X{s-runner}] [thread:%t] [stage:%X{s-stage}] %-5p %c{1} - %m%n

使用kafka生成插件将两类数据输出到不同的topic中。

4.日志数据入库数据流

配置kafka地址和日志数据的topic和消费组

5.性能指标数据入库数据流

配置kafka地址和性能指标数据的topic和消费组

Streamsets实战之路正在更新中,尽情期待!!!

此文章为博主原创,转载请标明出处和原始链接,谢谢。

StreamSets实战之路(十五)-实战篇- 数据采集与处理相关推荐

  1. R语言实战笔记--第十五章 处理缺失数据

    R语言实战笔记–第十五章 处理缺失数据 标签(空格分隔): R语言 处理缺失数据 VIM mice 缺失值(NA),是导致我们计算错误的一大来源,处理缺失数据在实际的应用中有着较为重要的作用. 基本方 ...

  2. JAVA架构师之路十五:设计模式之策略模式

    JAVA架构师之路十四:设计模式之模板模式 策略模式 1. 策略模式 2. 优惠券案例 3. 支付案例 人生的游戏不在于拿了一副好牌,而在于怎样去打好坏牌,世上没有常胜将军,勇于超越自我者才能得到最后 ...

  3. Tensorflow实战学习(三十五)【实现基于LSTM语言模型】

    神经结构进步.GPU深度学习训练效率突破.RNN,时间序列数据有效,每个神经元通过内部组件保存输入信息. 卷积神经网络,图像分类,无法对视频每帧图像发生事情关联分析,无法利用前帧图像信息.RNN最大特 ...

  4. MATLAB实战系列(十五)-在matlab中如何实现Octave工具包的全自动加载?

    前言 俗话说,"工欲善其事必先利其器".想要高效地使用Octave,做好前期工作是相当有必要的.有的工具包安装后并不能被Octave自动使用,需要先加载才能使用.那么问题来了,要怎 ...

  5. 《机器学习实战》第十五章 MapReduce

    在学习这一章中又遇到了python2 和python3的不同之处导致的错误. 具体修改如下: print 在python2中是语句,在python3中是函数:print >> 这个用法在p ...

  6. JavaEE实战班第十五天

    今天改正了昨天提交作业的错误,并继续学习了静态static,包,权限修饰符和代码块,其中对代码块的理解不到位,主要体现在方法的重载方面,明天需要返工. 普通代码块 在执行的流程中 出现的 代码块, 我 ...

  7. Flink实战(八十五):flink-sql使用(十二)Flink 与 hive 结合使用(四)Hive Read Write

    0 简介 Using the HiveCatalog and Flink's connector to Hive, Flink can read and write from Hive data as ...

  8. 十五. 实战——mysql建库建表 字符集 和 排序规则

    1. 字符集和排序规则 字符集 当数据库需要适应不同的语言就需要有不同的字符集,如果不指定字符集的话,那么就会使用数据库的默认的字符集,每种字符集都有自己默认的排序规则.mysql默认字符集为utf8 ...

  9. 测开之路十五:构造函数、析构函数

    构造函数:用于将类转化成对象,必须返回一个对象(不能返回当前类自身的对象) 每一次实例化的时候,都会执行构造函数 析构函数:用于删除程序里不再使用的类实例 每一代码运行完毕都会调析构函数来删除实例 由 ...

  10. 嵌入式Linux驱动学习之路(十五)按键驱动-定时器防抖

    在之前的定时器驱动程序中,我们发现在连续按下按键的时候,正常情况下应该是一次按下对应一次松开.而程序有时候会显示是两次按下,一次松开.这个问题是因为在按下的时候,因为是机械按键,所以电压信号会产生一定 ...

最新文章

  1. 漫画:你会感觉容器使用起来很痛苦吗?
  2. python腾讯语音合成
  3. mysql 集群架构_mysql企业常用集群架构
  4. nedc和epa续航里程什么意思_NEDC、WLTP和EPA续航里程哪种最真实,用车注意事项都有什么...
  5. LeetCode 1616. 分割两个字符串得到回文串
  6. 饿了么前端DEMO 网址 VUE.js
  7. 数据结构之队列的定义与简单实现
  8. python异步高并发_python高并发异步服务器核心库forkcore使用方法
  9. 女生天天和我微信语音5小时以上,突然没有联系,应该怎么办?
  10. 【百度地图API】情人节求爱大作战——添加标注功能
  11. oracle EBS在中国的客户
  12. 基于vlan 无线用户隔离
  13. 武汉大学计算机学院周维,2016—2017 学年度武汉大学 优秀学生干部和社会活动积极分.PDF...
  14. 戴尔笔记本安装双系统(win10+ubuntu20.04)避坑记录
  15. 基于词表和N-gram算法的新词识别实验
  16. flutter 相机加入mask(遮罩层)
  17. 氮化硼修饰导热复合物和碳纤维氮化硼涂层|六方氮化硼修饰石墨化氮化碳复合光催化剂|六方氮化硼(h-BN)修饰玻碳电极(GCE-BN) 氮化物
  18. 恭喜!胡哥官宣当爸,透露老婆非公众人物
  19. 字符串匹配算法——暴力算法
  20. c语言单链表倒置(附原理讲解)

热门文章

  1. 移动应用开发学习通测试题答案
  2. python二维码批量拼接,多张高清二维码批量拼接
  3. MySQL调用存储过程和函数
  4. smartadmin mysql_smart-admin/README.md at master · Rainforestor/smart-admin · GitHub
  5. c++使用libiconv
  6. 启动vpn报网络扩展错误(问题篇)
  7. 网络工程师——正则表达式(模糊匹配)
  8. ISO9000 质量管理和质量保证系列国际标准
  9. 文字转语音怎么在线生成MP3格式的音频?
  10. 用chrome开发的时候关掉AdBlock插件