提到大数据,我们就离不开数据的收集整理,其中ETL是我们经常使用的用于构建数据仓库, 构建大数据的方法。

大数据处理阶段

此阶段的目标是使用单个模式来清理,规范化,处理和保存数据。最终结果是具有定义良好的架构的可信数据集。例如Spark之类的处理框架用于在机器集群中并行处理数据。在这里我们需要进行数据的验证,隔离掉不合法的数据,我们需要对不良数据进行筛选过滤。对于不规范的数据,我们需要有整理和清洁功能,我们要能够将一些低效的格式入json进行转换。同时我们可能还需要一些标准化的操作,比如对一些数值进行小数点位的精度转化。

大数据处理的最终目的就是创建一个可信数据集,然后下游系统可以依赖此数据源进行业务分析和数据计算。

对于大数据的处理,主要有下面的几个工具引擎。

Apache Hive

它是将SQL请求转换为MapReduce任务链的引擎。它主要实现的功能是对传入的SQL进行排序然后优化排序结果,最终得到高效率的请求结果。2018年它将MapReduce替换为Tez作为搜索引擎。它具有机器学习功能,并且在和其他流行的大数据框架进行集成。

Apache Spark

这是最著名的批处理框架。它是Hadoop生态系统的一部分,是一个托管集群,可提供强大的并性,有着精准的监控和出色的UI。它还支持流处理(结构化流)。基本上,Spark在内存中运行MapReduce作业,其性能是常规MapReduce性能的100倍。它与Hive集成以支持SQL,并可用于创建Hive表,视图或查询数据。它具有很多集成,支持多种格式,并且拥有庞大的社区。所有云提供商都支持它。它可以在YARN上运行作为Hadoop集群的一部分,还可以在Kubernetes和其他平台中使用。它具有许多的第三方库可以使用。

Apache Flink

第一个统一批处理和流传输的引擎,它可以用作像Kafka这样的微服务的主干。它可以作为Hadoop集群的一部分在YARN上运行,它还针对其他平台(如Kubernetes或Mesos)进行了优化。它非常快,并且提供实时流传输,使其成为针对低延迟流处理(尤其是有状态流)的一个比Spark更好的选择。它还具有用于SQL,机器学习等的库。它比Spark更快,是数据流的更好选择。

Apache Storm

是一个免费和开源的分布式实时计算系统,它专注于流传输,是Hadoop生态系统的托管解决方案部分。它具有可扩展性,容错性,可确保您的数据将得到处理,并且易于设置和操作。

Apache Samza

一个出色的有状态流处理引擎。Samza允许您构建有状态的应用程序,它可以从多个来源实时处理数据。它不仅可以在YARN集群上运行,也可以作为独立库单独运行。

Apache Beam

它本身不是引擎,而是将所有其他引擎结合在一起的统一编程模型的规范。它提供了可以与不同语言一起使用的编程模型,因此开发人员在处理大数据管道时不必学习新的语言。然后,它为可以在云或本地运行的处理步骤插入了不同的后端。Beam支持前面提到的所有引擎,您可以在它们之间轻松切换并在任何平台上运行它们:云,YARN,Mesos,Kubernetes。如果您要开始一个新项目,那么建议您从Beam开始,因为Beam是面向未来的。

Presto

Presto是一个开放源代码的分布式SQL查询引擎,适合于对各种大小,各种数据源进行交互式分析查询。

Presto是专为交互式分析而设计和编写的,当它的规模扩展到一定的规模的时候,它也可以实现商业数据仓库的处理速度。

Presto允许查询数据存在多个地方,包括Hive,Cassandra,关系数据库甚至专有数据存储。一个Presto查询可以合并来自多个来源的数据,从而可以在整个组织中进行分析。

Presto适用于期望响应时间从亚秒到数分钟不等的分析师。Presto打破了使用昂贵的商业解决方案进行快速分析或使用需要大量硬件的慢速“免费”解决方案之间的错误选择。

总结

处理引擎是当前在大数据词中使用的最著名的工具。作为大数据工程师,您将经常使用这些引擎。了解这些引擎的分布式特性并知道如何优化它们,保护它们并监视它们至关重要。

请记住,还有一些OLAP引擎提供了一种查询大量数据的单一解决方案,而无需编写复杂的转换,而是通过以一种特定的格式加载数据来提高查询的性能。

对于一个新项目,建议您研究Apache Beam,因为它在所有其他引擎的基础上提供了一个抽象,使您无需更改代码即可更改处理引擎。

对于流处理,特别是有状态流处理,请考虑Flink或Samza。对于批处理,请使用Spark。

大数据标签获取处理步骤_盘点大数据处理引擎相关推荐

  1. 大数据标签获取处理步骤_基于大数据的用户深层标签挖掘方法与流程

    本发明涉及大数据应用技术领域,尤其涉及一种基于大数据的用户深层标签挖掘方法. 背景技术: 用户画像建立的过程就是添加相应的标签,在数据挖掘领域称为标签化.标签是通过对用户信息分析而得到的高度精炼的特征 ...

  2. 大数据标签获取处理步骤_大数据处理分为哪些步骤

    具体的大数据处理方法确实有很多,但是根据笔者长时间的实践,总结了一个普遍适用的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助.大数据来源广泛,应用需求和数据类型都不尽相同,不过最基 ...

  3. 大数据标签获取处理步骤_用大数据给用户“打标签”,精准营销就是这么简单!...

    原标题:用大数据给用户"打标签",精准营销就是这么简单! 在互联网逐渐步入大数据时代后,不可避免的为企业及消费者行为带来一系列改变与重塑.其中最大的变化莫过于,消费者的一切行为在企 ...

  4. 网贷大数据什么时候会好_为什么大数据待遇那么好 如何入门大数据行业

    为什么大数据待遇那么好?如何入门大数据行业?在IT技术中,有不少技术因为低端人才的饱和,对从业者提出越来越高的要求,从而加大了初级程序员找工作的压力.相对于其他IT技术,大数据的人才需求正处于供不应求 ...

  5. 大数据在职研究生哪个好_各种大数据在职研究生到底有什么不同之处

    现在是互联网时代,大数据越来越受到关注,所以很多院校现在开设了大数据在职研究生,不过这种专业的在职研究生有三种方向,很多人对于他们之间的区别不太了解.那么,各种大数据在职研究生到底有什么不同之处呢?下 ...

  6. 大数据实验报告总结体会_建设大数据中台架构思考与总结

    简介 本文介绍完善的大数据中台架构了解这些架构里每个部分的位置,功能和含义及背后原理及应用场景. 帮助技术与产品经理对大数据技术体系有个全面的了解. 数据中台定义:集成离线数仓与实时数仓,并以多数据源 ...

  7. 学大数据要学哪些算法_学习大数据开发前需要掌握哪些技能?

    学习大数据开发前需要掌握哪些技能? 1. 数学知识 数学知识是数据分析师的基础知识. 对于初级数据分析师,了解一些描述统计相关的基础内容,有一定的公式计算能力即可,了解常用统计模型算法则是加分. 对于 ...

  8. 盐城大数据产业园人才公寓_盐城市大数据产业园获评大众创业万众创新示范基地...

    近日,江苏省发改委公布了2020年省大众创业万众创新示范基地评估结果,盐城大数据产业园被表彰为优秀区域类示范基地. 近年来,为深入实施创新驱动发展战略,盐城大数据产业园根据<江苏省大众创业万众创 ...

  9. 大数据营销案例沃尔玛_实现大数据营销的方式有哪些

    精准营销简单地说就是利用现代化的信息技术手段来实现个性化营销的活动,需要建立在精准定位和分析基础之上,运营商精准营销可以从以下几个方面进行. 首先,大数据精准营销要解决的首要问题是数据整合汇聚.运营商 ...

  10. 大数据资源整合分析平台_企业大数据管理软件_大数据资源整合管理系统

    在现如今大数据时代下,很多公司拥有大量的数据信息,这些数据繁多并且复杂,对于不懂技术的人员来讲,无疑是巨大的难题,这些数据背后存在着巨大的价值,我们可以利用大数据的方式,来提高数据的使用率,便可以挖掘 ...

最新文章

  1. 干货 | 时间序列预测类问题下的建模方案探索实践
  2. Style Report中报表组件的使用场景简析
  3. 【java】java工具类StringUtils,org.apache.commons.lang3.StringUtils
  4. HTML 5 Web Workers
  5. HashMap 和HashTable区别和实现原理。
  6. html类型转换函数,如何在JavaScript中转换数据类型?
  7. QTP中字符串替换函数
  8. url中隐藏php后缀,url中如何隐藏.php
  9. server2012 asp odb数据原_异地服务器文件及数据库定时备份
  10. 微信表情暂停使用,漂流瓶功能彻底再见!
  11. 客户引导你,还是你引导客户?
  12. AcWing 4247. 糖果(差分约束最短路)
  13. python装饰器详解 带参数-python中的装饰器详解
  14. SONiC项目的发展及其介绍
  15. 看看这段代码有没有内存泄露?
  16. 数据库基础知识(MySQL入门)
  17. python不允许使用关键字_Python不允许使用关键字作为变量名,但是允许使用内置函数名作为变量名,不过这会改变函数名的含义,所以不建议这样做...
  18. 爬取哔哩哔哩单个视频
  19. checkra1n越狱教程linux,Checkra1n iOS 13.6.1 越狱技术教程
  20. Kafka知识点概述

热门文章

  1. MSE(Media Source Extensions)介绍
  2. 肝毒净-道格拉斯实验室
  3. Maven项目的pom.xml配置文件格式初识
  4. Linux下MySQL的简单使用(一)
  5. mysql 小技巧
  6. sklearn10-使用总结
  7. [deviceone开发]-土地销售App开源
  8. Android SDK的安装教程
  9. 学技术不可盲目崇洋媚外,时刻记得要自主创新,勿忘国耻
  10. 用SetCapture捕获鼠标消息