版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/a337895179/article/details/79109061
收起
什么是StreamSets数据收集器?
StreamSets 数据收集器是一个轻量级,强大的引擎,实时流数据。使用Data Collector在数据流中路由和处理数据。

要为Data Collector定义数据流,请配置管道。一个流水线由代表流水线起点和终点的阶段以及您想要执行的任何附加处理组成。配置管道后,单击“开始”,“ 数据收集器”开始工作。

Data Collector在数据到达原点时处理数据,在不需要时静静地等待。您可以查看有关数据的实时统计信息,在数据通过管道时检查数据,或仔细查看数据快照。

我应该如何使用Data Collector?
使用StreamSets 数据收集器就像一个管道的数据流。在整个企业数据拓扑结构中,您都有需要移动,收集和处理到目的地的数据流。Data Collector提供流之间的关键连接。

为了解决您的采集需求,您可以使用单个Data Collector运行一个或多个管道。或者,您可能会安装一系列Data Collector来在您的企业数据拓扑中传输数据。

这是如何工作的?
让我们通过它...

安装并启动Data Collector之后,使用 Data Collector UI登录并创建第一个管道。

你想要做什么?假设您想从目录中读取XML文件,并在将其移入HDFS之前删除换行符。要做到这一点,你需要从一个目录原点阶段开始,并将其配置为指向源文件目录。(您也可以将舞台归档文件处理完毕并将未完全处理的文件写入单独的目录中供审阅。)

若要删除换行符,请将目录连接到表达式评估程序处理器,并将其配置为从记录的最后一个字段中删除换行符。

要使数据可用于HDFS,请将Expression Evaluator连接到Hadoop FS目标阶段。您可以将舞台配置为将数据作为JSON对象编写(尽管您也可以使用其他数据格式)。

您可以预览数据以查看源数据如何在管道中移动,并注意到某些字段缺少数据。因此,您添加一个值替代品来替换这些字段中的空值。

现在数据流已经完成了,您可以配置管道错误记录处理,将错误记录写入文件,创建数据偏移警报以通知您字段名称更改的时间,并配置电子邮件警报以通知您管道会生成超过100个错误记录。然后,启动管道,Data Collector开始工作。

该数据采集器进入监控模式,并立即显示摘要和错误统计。为了更仔细地看看这个活动,你可以对流水线做一个快照,这样你就可以检查一组数据是如何通过流水线的。您会看到一些意外的数据,因此您需要为两个阶段之间的链接创建数据规则,以收集有关类似数据的信息,并设置一个警报,以便在数字太高时通知您。

那些写入文件的错误记录呢?他们保存错误的细节,所以你可以创建一个错误管道重新处理该数据。Et瞧!

StreamSets 数据收集器是一个强大的工具,但我们正在尽可能简单的使用它。所以试试看,点击帮助图标获取信息,如果您需要帮助,请联系我们。

登录并创建管道
启动Data Collector后,您可以登录到Data Collector并创建第一个管道。

您可以自定义用于访问Data Collector的地址和登录名。此过程使用默认设置。

1. 要使用用户界面访问数据收集器,请在浏览器的地址栏中输入以下URL:

HTTP:// <主机名>:18630 /

2. 如果更改了Data Collector配置文件中的默认Data Collector端口号,$ SDC_CONF / sdc.properties,请使用该号码。

4. 在“ 登录”对话框中,使用以下凭据登录:管理 / 管理。

如果您创建了自定义登录,请随时使用它。

5. 在“ 入门”页面上,单击“ 新建管道”。

6. 在“ 新建管道”窗口中,输入管道名称,可选输入描述,然后单击“ 保存”。

出现管道画布。“属性”面板显示管道属性。

7. 有关配置管道的步骤,请继续执行步骤3

相关信息

什么是管道?

数据收集器配置

数据收集器用户界面
Data Collector 提供基于Web的用户界面(UI)来配置管道,预览数据,监视管道和查看数据的快照。

该数据采集器 UI包括以下一般领域和图标:

区/图标

名称

描述

1

管道画布

画布用于配置,预览或监视管道。

2

属性面板/预览面板/监视器面板

在配置管道时,“属性”面板将显示管道或所选阶段的属性。您可以调整大小,最小化和最大化面板。

预览数据时,“预览”面板将显示进入和退出所选阶段或阶段组的数据。它也可以显示舞台属性和预览配置。

监视正在运行的管道时,“监视器”面板将显示实时指标和统计信息。

注意:某些图标和选项可能不会显示。显示的项目取决于您正在执行的任务和分配给您的用户帐户的角色。

配置显示
您可以配置Data Collector UI中的信息显示方式,如联机帮助版本,面板中的信息密度以及管道创建帮助栏。

1. 在Data Collector UI的右上角,单击帮助 > 设置。

2. 在“设置”对话框中,您可以配置以下选项:

显示设定

描述

时区

显示时区。用于在Data Collector UI中显示日期和时间,例如数据预览或快照数据中的日期时间 数据。

您可以选择以下选项之一:

· 世界标准时间

· 浏览器时区,通常使用操作系统时区。

· 当数据收集器运行在不同的机器中,操作系统的时区上数据采集计算机。

显示密度

定义面板中显示的信息的密度。

帮助文档

定义Data Collector使用的帮助项目:

· 本地帮助 - 使用与Data Collector一起安装的帮助项目 。

· 托管帮助 - 使用托管在StreamSets网站上的帮助项目。托管帮助包含最新的可用文档。需要互联网连接。

默认托管帮助。当互联网访问不可用时,Data Collector使用本地帮助。

这两个帮助项目提供上下文相关的帮助。

隐藏管道创建帮助栏

当管道不完整时,隐藏默认显示的管道配置帮助栏。

隐藏REST响应菜单

隐藏“REST响应”菜单,以便您不能请求REST API响应信息。

在后台运行预览以显示可用字段

在后台运行预览以显示可用字段的列表,并在配置管线和舞台属性时显示“选择带预览数据的字段”选项。

如果预览导致大量记录,则在后台运行预览可以冻结浏览器。要解决此问题,请清除该属性。

在属性中包装长行

包装您在属性中输入的长长的文本行。例如,您可以在配置舞台的前提条件时输入一长串文本。

清除后,用滚动条显示长长的文本行。

数据收集器用户界面 - 主页上的管道
Data Collector 在主页上显示所有可用管道和相关信息的列表。您可以选择一个管道类别,例如Running Pipelines,以查看所有可用管道的子集。

当您或您的用户组具有管道读取权限或创建管道时,管道将显示在主页上。

查看主页上的管道以执行管道维护,例如复制或共享管道。当您单击页面顶层图标集中的主页图标()时,您可以访问主页。您也可以在配置或监视管道时通过单击管道路径中的管道链接来访问主页。

区/图标

名称

描述

1

管道库

与此Data Collector关联的管道库。

图书馆列出:

· 管道状态 - 选择管道状态以按状态过滤列表中的管道。

· 管道标签 - 选择管道标签以按标签过滤列表中的管道。

2

管道列表

允许您选择一个或多个管道,然后在管道上执行操作,例如启动,停止或导出管道。

3

筛选字段

允许您按名称筛选管道。

4

显示详细资料

显示列表中每个管道的错误消息和警报文本的详细信息。

点赞 6
————————————————
版权声明:本文为CSDN博主「阿龙学堂」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/superzyl/article/details/79109061

StreamSets数据操作平台(数据移动及数据清洗强大工具)-第二篇相关推荐

  1. StreamSets数据操作平台(数据移动及数据清洗强大工具)

    前言:最近在公司接到一个业务:将MySQL的数据实时同步到HBase中,刚接手的时候一脸蒙,在不断的探索中,也发现其实这条线真的很好走,因为有很多方案可以选择.一下就是其中一种,后面我也会分享更多其他 ...

  2. c语言 bool_程序的数据要放到哪里呢?|C语言第二篇

    在C语言第一篇里我写到了编译器,在这里补充一个点,文本编辑器,编译器,IDE(集成开发环境)的区别. 文本编辑器是用作编写普通文字的应用软件,如window的记事本,atom,sublime,它常用来 ...

  3. 线性代数在计算机视觉的应用,线性代数在数据科学中的十大强大应用(二)

    本篇为机器学习与数据科学背后的线性代数知识系列的第二篇,本篇主要介绍自然语言处理(NLP)中的线性代数与计算机视觉(CV)中的线性代数.涵盖主成分分析(PCA)与奇异值分解(SVD)背后的线性代数知识 ...

  4. 图像在计算机中通过什么方式表示_线性代数在数据科学中的十大强大应用(二)...

    本篇为机器学习与数据科学背后的线性代数知识系列的第二篇,本篇主要介绍自然语言处理(NLP)中的线性代数与计算机视觉(CV)中的线性代数.涵盖主成分分析(PCA)与奇异值分解(SVD)背后的线性代数知识 ...

  5. R 多变量数据预处理_数据科学 | 第3讲 数据清洗与预处理

    点击上方蓝字,记得关注我们! 在实际数据挖掘过程中,我们拿到的初始数据,往往存在缺失值.重复值.异常值或者错误值,通常这类数据被称为"脏数据",需要对其进行清洗.另外有时数据的原始 ...

  6. 直播预告丨 统一数据操作平台— CloudQuery 应用指南

    随着需要使用的数据库种类日渐繁多,开发运维等技术人员如何高效便捷的访问.操作和管理数据,成了一个难题.因此,杭州图尔兹信息技术有限公司针对这一问题,设计并研发了 CloudQuery 数据操作平台. ...

  7. 大数据中数据清理怎么做的_针对不完整数据的大数据清洗方法与流程

    本发明属于大数据清洗技术领域,涉及一种针对不完整数据的大数据清洗方法. 背景技术: 随着信息化的进展,企业内部积累了大量的电子数据,这些数据对企业非常重要.但由于各种原因,导致企业现有系统数据库中存在 ...

  8. Python+大数据-数据处理与分析(三)-数据清洗

    Python+大数据-数据处理与分析(三)-数据清洗 1. 数据组合 1.1 数据聚合简介 在动手进行数据分析工作之前,需要进行数据清理工作,数据清理的主要目标是: 每个观测值成一行 每个变量成一列 ...

  9. 连载:阿里巴巴大数据实践—数据开发平台

    简介:介绍MaxCompute和阿里巴巴内部基于MaxCompute的大数据开发套件,并对在数据开发过程中经常遇到的问题和相关解决方案进行介绍. 前言: -更多关于数智化转型.数据中台内容请加入阿里云 ...

最新文章

  1. Leangoo用户设置在哪里?
  2. MPB:西农焦硕组-微生物生物地理学研究方法
  3. 《CSS揭秘》笔记(一)
  4. 判断线段相交 + vector. erase迭代指针 的使用 poj 2653 Pick-up sticks
  5. golang 结构体 slice 排序
  6. Spring Boot(09)——使用SpringMVC
  7. 算法复杂度分析(下):最好、最坏、平均、均摊等时间复杂度概述
  8. java将mysql数据写入到txt_java 追加写入数据到txt
  9. [fzu 2273]判断两个三角形的位置关系
  10. Windows下pip安装包报错:Microsoft Visual C++ 9.0 is required Unable to find vcvarsall.bat
  11. java里氏替换原则例子_java 设计原则(六)里氏替换原则
  12. python按照图片命名复制到不同文件夹下
  13. 定义和使用结构体变量
  14. oracle中的代码在那里写,oracle中如何编写树级代码-数据库专栏,ORACLE
  15. 基于JSP的房屋租赁管理系统
  16. 详解数据库锁机制和原理
  17. Linux下格式化sd卡和重新分区
  18. 美团大众点评2017校园招聘笔试(编程题)
  19. 面向对象设计,ORM,NHIBERNATE杂谈(有感)
  20. 沃通CA证书支持多所高校招投标文件电子签名

热门文章

  1. matlab基本矩阵运算,科学网—matlab中矩阵基本运算 - 成爱芳的博文
  2. Zookeeper 客户端API调用示例(基本使用,增删改查znode数据,监听znode,其它案例,其它网络参考资料)
  3. Struts2做下载
  4. mysql max_allowed_packet 设置过小导致记录写入失败
  5. 处理数字_2_计算某列的平均值
  6. Excel双样本T检验之成对检验
  7. 深度学习分割json_to_data报错Too many dimensions: 3 > 2
  8. C++const类型的引用参数
  9. 流程图绘制技巧及实战案例
  10. linux socket使用情况 ss -s ss -t -a | cat /proc/net/socketstat