StreamSets数据操作平台（数据移动及数据清洗强大工具）-第二篇

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。
本文链接：https://blog.csdn.net/a337895179/article/details/79109061
收起
什么是StreamSets数据收集器？
StreamSets 数据收集器是一个轻量级，强大的引擎，实时流数据。使用Data Collector在数据流中路由和处理数据。

要为Data Collector定义数据流，请配置管道。一个流水线由代表流水线起点和终点的阶段以及您想要执行的任何附加处理组成。配置管道后，单击“开始”，“ 数据收集器”开始工作。

Data Collector在数据到达原点时处理数据，在不需要时静静地等待。您可以查看有关数据的实时统计信息，在数据通过管道时检查数据，或仔细查看数据快照。

我应该如何使用Data Collector？
使用StreamSets 数据收集器就像一个管道的数据流。在整个企业数据拓扑结构中，您都有需要移动，收集和处理到目的地的数据流。Data Collector提供流之间的关键连接。

为了解决您的采集需求，您可以使用单个Data Collector运行一个或多个管道。或者，您可能会安装一系列Data Collector来在您的企业数据拓扑中传输数据。

这是如何工作的？
让我们通过它...

安装并启动Data Collector之后，使用 Data Collector UI登录并创建第一个管道。

你想要做什么？假设您想从目录中读取XML文件，并在将其移入HDFS之前删除换行符。要做到这一点，你需要从一个目录原点阶段开始，并将其配置为指向源文件目录。（您也可以将舞台归档文件处理完毕并将未完全处理的文件写入单独的目录中供审阅。）

若要删除换行符，请将目录连接到表达式评估程序处理器，并将其配置为从记录的最后一个字段中删除换行符。

要使数据可用于HDFS，请将Expression Evaluator连接到Hadoop FS目标阶段。您可以将舞台配置为将数据作为JSON对象编写（尽管您也可以使用其他数据格式）。

您可以预览数据以查看源数据如何在管道中移动，并注意到某些字段缺少数据。因此，您添加一个值替代品来替换这些字段中的空值。

现在数据流已经完成了，您可以配置管道错误记录处理，将错误记录写入文件，创建数据偏移警报以通知您字段名称更改的时间，并配置电子邮件警报以通知您管道会生成超过100个错误记录。然后，启动管道，Data Collector开始工作。

该数据采集器进入监控模式，并立即显示摘要和错误统计。为了更仔细地看看这个活动，你可以对流水线做一个快照，这样你就可以检查一组数据是如何通过流水线的。您会看到一些意外的数据，因此您需要为两个阶段之间的链接创建数据规则，以收集有关类似数据的信息，并设置一个警报，以便在数字太高时通知您。

那些写入文件的错误记录呢？他们保存错误的细节，所以你可以创建一个错误管道重新处理该数据。Et瞧！

StreamSets 数据收集器是一个强大的工具，但我们正在尽可能简单的使用它。所以试试看，点击帮助图标获取信息，如果您需要帮助，请联系我们。

登录并创建管道
启动Data Collector后，您可以登录到Data Collector并创建第一个管道。

您可以自定义用于访问Data Collector的地址和登录名。此过程使用默认设置。

1. 要使用用户界面访问数据收集器，请在浏览器的地址栏中输入以下URL：

HTTP：// <主机名>：18630 /

2. 如果更改了Data Collector配置文件中的默认Data Collector端口号，$ SDC_CONF / sdc.properties，请使用该号码。

4. 在“ 登录”对话框中，使用以下凭据登录：管理 / 管理。

如果您创建了自定义登录，请随时使用它。

5. 在“ 入门”页面上，单击“ 新建管道”。

6. 在“ 新建管道”窗口中，输入管道名称，可选输入描述，然后单击“ 保存”。

出现管道画布。“属性”面板显示管道属性。

7. 有关配置管道的步骤，请继续执行步骤3

StreamSets数据操作平台（数据移动及数据清洗强大工具）-第二篇相关推荐

StreamSets数据操作平台（数据移动及数据清洗强大工具）
前言:最近在公司接到一个业务:将MySQL的数据实时同步到HBase中,刚接手的时候一脸蒙,在不断的探索中,也发现其实这条线真的很好走,因为有很多方案可以选择.一下就是其中一种,后面我也会分享更多其他 ...
c语言 bool_程序的数据要放到哪里呢？|C语言第二篇
在C语言第一篇里我写到了编译器,在这里补充一个点,文本编辑器,编译器,IDE(集成开发环境)的区别. 文本编辑器是用作编写普通文字的应用软件,如window的记事本,atom,sublime,它常用来 ...
线性代数在计算机视觉的应用,线性代数在数据科学中的十大强大应用（二）
本篇为机器学习与数据科学背后的线性代数知识系列的第二篇,本篇主要介绍自然语言处理(NLP)中的线性代数与计算机视觉(CV)中的线性代数.涵盖主成分分析(PCA)与奇异值分解(SVD)背后的线性代数知识 ...
图像在计算机中通过什么方式表示_线性代数在数据科学中的十大强大应用（二）...
本篇为机器学习与数据科学背后的线性代数知识系列的第二篇,本篇主要介绍自然语言处理(NLP)中的线性代数与计算机视觉(CV)中的线性代数.涵盖主成分分析(PCA)与奇异值分解(SVD)背后的线性代数知识 ...
R 多变量数据预处理_数据科学 | 第3讲数据清洗与预处理
点击上方蓝字,记得关注我们! 在实际数据挖掘过程中,我们拿到的初始数据,往往存在缺失值.重复值.异常值或者错误值,通常这类数据被称为"脏数据",需要对其进行清洗.另外有时数据的原始 ...
直播预告丨统一数据操作平台— CloudQuery 应用指南
随着需要使用的数据库种类日渐繁多,开发运维等技术人员如何高效便捷的访问.操作和管理数据,成了一个难题.因此,杭州图尔兹信息技术有限公司针对这一问题,设计并研发了 CloudQuery 数据操作平台. ...
大数据中数据清理怎么做的_针对不完整数据的大数据清洗方法与流程
本发明属于大数据清洗技术领域,涉及一种针对不完整数据的大数据清洗方法. 背景技术: 随着信息化的进展,企业内部积累了大量的电子数据,这些数据对企业非常重要.但由于各种原因,导致企业现有系统数据库中存在 ...
Python+大数据-数据处理与分析(三)-数据清洗
Python+大数据-数据处理与分析(三)-数据清洗 1. 数据组合 1.1 数据聚合简介在动手进行数据分析工作之前,需要进行数据清理工作,数据清理的主要目标是: 每个观测值成一行每个变量成一列 ...
连载：阿里巴巴大数据实践—数据开发平台
简介:介绍MaxCompute和阿里巴巴内部基于MaxCompute的大数据开发套件,并对在数据开发过程中经常遇到的问题和相关解决方案进行介绍. 前言: -更多关于数智化转型.数据中台内容请加入阿里云 ...

StreamSets数据操作平台（数据移动及数据清洗强大工具）-第二篇

StreamSets数据操作平台（数据移动及数据清洗强大工具）-第二篇相关推荐

最新文章

热门文章