大数据生态圈常用组件(二):概括介绍、功能特性、适用场景
三更灯火五更鸡,正是男儿读书时。
小编整理了一些常用的大数据组件,使用场景及功能特性,希望对后浪有所帮助。
分类 | 名称 | 简介 | 功能特点 | 使用场景 |
大数据存储 | HDFS | HDFS是一个分布式的文件系统,它具有高度的容错,高吞吐量,弹性伸缩等优点。是高度容错性和高吞吐量的海量数据存储解决方案。 |
高容错性 HDFS通过多方面保证数据的可靠性,多个副本并且分布到物理位置的不同服务器上,数据校验功能、后台的连续自检数据一致性功能保证了高容错。 高吞吐量 线性扩展 |
数据存储分析 HDFS有完善的生态,可快速的导入数据到HDFS存储起来,在HDFS的基础上进行分析处理。 历史数据备份 |
大数据存储 | Hbase | HBase 是一个高可靠、高性能、面向列的开源非关系型分布式数据库, 它是Hadoop的生态系统, 提供对数据的随机实时读/写访问。 |
易用性 HBase 采用 JAVA 语言编写, 并提供了易于使用的 JAVA API 供客户端访问, 基本能满足开发者的需求。 强一致性 可扩展性强 |
要求写操作吞吐量高 HBase 单台 Regionserver 的写 QPS 可以稳定在 2K~3K , 并且可以通过集群扩展不断增强集群的扩展性, 理论上不存在上限。 海量数据持久化 大规模数据集中进行随机访问 无需全部的关系型数据库特性 |
大数据存储 | KAFKA | KAFKA是一个分布式的流式平台。 |
弹性扩展 当服务器资源达到限制时候,Kafka 支持在不停服情况下弹性扩容/缩容节点。 大吞吐量 |
消息队列 通过 Kafka 作为消息队列,解耦了收消息和发消息的服务,收发过程在毫秒级完成。 海量日志 |
大数据存储 | Hive | hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为数据库表,并提供HiveSql查询功能。 |
面向超大规模数据集 基于Hadoop生态,Hive具有存储和计算的扩展能力,可支持高可达千亿级的数据集查询。。 支持多种数据格式 易于上手 内置大量UDF |
大数据集的批处理作业 如网络日志分析,统计网站某一时间段内的pv、uv,多维度的数据分析。 |
OALP | Presto | Presto是一种分布式SQL查询引擎,用于查询分布在一个或多个异构数据源上的大型数据集。 |
不是数据库 Presto不是传统意义上的数据库,也不是MySQL、PostgreSQL或者Oracle的代替品.它并不存储数据,是一款OLAP分析工具. 多数据源 海量数据 支持SQL 速度快 |
准实时计算 基准数据若实时更新,Presto可快速完成计算,实现准实时计算的场景. 交互式查询 |
OALP | ClickHouse | ClickHouse是一个用于快速OLAP分析的列式数据库管理系统 |
快速的明细数据查询 数据按列存储,查询时,将列向量化处并行处理,高效利用cpu,来使用当前服务器上可用的所有资源,充分压榨机器性能,达到亿级数据查询毫秒级返回 多服务器分布式处理 |
高实时性要求 ClickHouse支持在表中定义主键。为了使查询能够快速在主键中进行范围查找,数据总是以增量的方式有序的存储在MergeTree中。因此,数据可以持续不断高效的写入到表中,并且写入的过程中不会存在任何加锁的行为,可达到每秒写入数十万的写入性能 大规模事件和日志快速分析 漏斗分析 适合在线查询 |
OALP | Kudu | Kudu 是一个列式存储管理系统。支持水平可扩展,并具有高可用性特性。 |
快速的明细数据查询 数据存储在kudu,kudu与Impala紧密集成, impala将谓词下推到kudu,尽可能的接近底层kudu的底层,提高整体查询性能 高实时性要求 数据频繁更新 |
实时更新的应用 Kudu 通过高效的列式扫描提供了快速插入和更新的强大组合,从而在单个存储层上实现了实时分析用例,刚刚到达的数据就马上能被被终端用户使用访问到 时间序列应用 |
OALP | Kylin | Kylin是一个开源的分布式分析引擎,通过预计算构建cube实现快速查询分析。 |
交互式查询能力 通过Kylin,用户可以在kylin查询页面上与数据数据进行亚秒级交互,在同样的数据集上提供比Hive更好的性能 kylin Cube多维数据的计算 |
查询类型比较固定的数据分析 通过固定的查询类型构建cube,将所有的维度组合事先计算,存储于HBase中,以空间换时间,提供快速查询 数据与HADOOP紧密结合 |
平台 | Redash | Redash是一款融合28种数据源的可视化查询工具,同时可以制作报表,分享成果. |
ad-hoc查询 可接入Presto/Hive/Clickhouse等查询工具,快速查询数据,方便快捷. 报表分析 |
SQL查询分析 创建query,填写正常的SQL逻辑,对于查询结果进行排序过滤,做成图表. |
平台 | StreamHub | Stream Hub支持结构化日志,永久存储和方便的离线分析等 |
kafka-connect Kafka Connect是一种用于在Kafka和其他系统之间可扩展的、可靠的流式传输数据的工具。它使得能够快速定义将大量数据集合移入和移出Kafka的连接器变得简单。 Kafka Connect可以获取整个数据库或从所有应用程序服务器收集指标到Kafka主题,使数据可用于低延迟的流处理。导出作业可以将数据从Kafka topic传输到二次存储和查询系统,或者传递到批处理系统以进行离线分析。 avro-java-sdk java版 schema申请系统 json hub |
avro数据自动落入hive/hbase/es 用户可以使用sdk将avro数据发送到kafka中,kafka-connect可以将数据自动落入hive/hbase/es中 自助式申请schema |
平台 | Compute Platform | Compute Platform是一个基于Hadoop的分布式全流程开发平台,通过可视化交互式方式降低门槛、提升研发效率。 各业务可以通过平台轻松实现通用ETL,可以组合使用平台提供的算子深度定制。计算内核基于Spark、TensorFlow,缺省支持SparkMLlib、TensorFlow常用算法库,供开发者选用。同时开发者可以贡献自己的算子,分享给所有的开发者。 |
数据ETL 支持数据ETL处理;支持6+种数据源,覆盖MySQL,Hive,HBase,Presto,HDFS等;支持7+种数据加载,转换,提取等操作,覆盖Map,Filter,SQL,Python,Join,Split等 可视化开发 算子商店 |
大规模ETL 大规模ETL;业务需求;数据处理 在线可视化开发 统计分析 |
大数据计算 | Flink | Flink 是一个面向分布式数据流处理和批量数据处理的开源计算平台,在流式处理方面具有高吞吐、低延迟、高性能的特点,支持Exactly-once语义、高度灵活的窗口操作、event time等等 |
快速 快,是Flink的主要特点。利用基于内存的数据流,并将迭代处理算法深度集成到系统的运行时中,这样,Flink使得系统能够以极快的速度处理数据密集型和迭代任务。 可靠 强大 易用 |
实时ETL 对事实表的每一条新增记录进行转化计算,同时join维度表来扩充记录字段,将数据清洗的延迟控制在秒以内。 实时监控报警 统计网站PV,UV 风控安全管理 |
大数据计算 | Spark | Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎 |
快速 Apache Spark使用最先进的DAG调度程序,查询优化器和物理执行引擎,实现批处理和流数据处理的高性能。与Hadoop的MapReduce相比,Spark基于内存的运算要快100倍以上,而基于磁盘的运算也要快10倍以上。 易用 通用 到处运行 |
批处理 Spark的核心提供了分布式任务调度和基本的I/O功能,提供了基本的程序抽象RDD(弹性分布式数据集)。RDD是一个可以并行操作并有容错机制的数据集合,简化了编程复杂性,操纵RDD的方法类似于操纵本地数据集合。另外Spark SQL提供了领域特定语言,可使用Scala、Java或Python来操纵DataFrame/DataSet。这些都可用于批处理。 交互式查询或执行代码 流式计算 机器学习 图形处理 |
调度 | YARN | YARN(Yet Another Resource Negotiator)是Hadoop的集群资源管理系统。 |
资源管理 YARN 通过一个全局的资源管理器(Resource Manager)以及运行在集群中所有节点上的节点管理器(Node Manager)在各种竞争的应用程序之间仲裁可用的集群资源,创建资源容器。支持内存和CPU的管理与分配。 资源调度 任务调度与监控 |
运行各类分布式计算 MapReduce、Spark、Tez、Flink 等分布式计算程序均可以运行在YARN集群中,YARN会为它们提供统一的资源分配及调度。 |
调度 | Airflow | Airflow是一个分布式的调度引擎,功能类似 crontab + work flow |
多样化调度 Airflow 可以根据配置的时间,补追历史数据,也可定义未来执行的任务 复杂workflow |
ETL 可以将ETL分解成多个单一功能的小task,在airflow中配置执行逻辑顺序,增强可维护性 crontab |
ETL | Maxwell | Maxwell是一个数据库(MySQL)增量订阅工具。可解析MySQL数据增量,以相应的格式发送到kafka,供用户订阅使用。 |
全方位的数据库增量订阅 Maxwell可监控整个MySQL的数据增量,将数据写到kafka。 性能高效 运行稳定 支持多种消息格式 |
数据监控与分析 用户可消费Maxwell发送到kafka的数据,监控相应数据库的每一条数据变化,用于业务数据异常监控、业务数据分析等场景。 数据同步 |
点赞之后,上一篇传送门: https://blog.csdn.net/weixin_39032019/article/details/89340739
大数据生态圈常用组件(一):数据库、查询引擎、ETL工具、调度工具等
大数据生态圈常用组件(二):概括介绍、功能特性、适用场景相关推荐
- 大数据平台常用组件_这款大数据智能服务平台火了!全自动化配置30+款开源大数据组件...
在互联网市场的头部效应下,企业所面临的竞争压力越来越大,如何有效解决获客成本高.用户黏性低.变现能力弱等问题,正是越来越多的企业开始构建大数据平台的初衷.但由于大数据解决方案所涉及的组件错综复杂.技术 ...
- 一篇文章带你了解大数据生态圈---大数据组件图谱
小编一篇文章带你了解大数据生态圈-大数据组件图谱 转载地址:http://blog.csdn.net/u010039929/article/details/70157376 文章目录 小编一篇文章带你 ...
- 一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】
一文看懂大数据生态圈完整知识体系 徐葳 随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步,作者有幸亲身经历了国内大数据行业从零到一的发展历程,通过本文希望能够帮助大家快速构建大数据生态圈 ...
- ApacheCN 大数据译文集(二) 20211206 更新
Hadoop3 大数据分析 零.前言 一.Hadoop 简介 二.大数据分析概述 三.MapReduce 大数据处理 四.基于 Python 和 Hadoop 的科学计算和大数据分析 五.基于 R 和 ...
- Data - 大数据生态圈
本文内容来自网络,对原文内容和格式做了细微调整,并配图以便阅读理解. 如想查看初始信息,请点击原文. 00 引言 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单 ...
- 5.大数据生态圈成员和原理
11有界数据与无界数据 知识犹如人体的血液一样宝贵. --高士其 上一章我们学习了人工智能下的大数据,这一章我们会从原理.架构角度深入学习大数据生态系统各个组件. 为了给后面的小节做铺垫,这一小节我们 ...
- Python +大数据-Hadoop生态-Linux(二)-集群搭建和安装
Python +大数据-Hadoop生态-Linux(二)-集群搭建和安装 今日课程学习目标 1.掌握Linux用户.权限管理 2.掌握Linux常用系统命令 3.掌握服务器集群环境搭建 4.了解sh ...
- 2021年大数据Kafka(十二):❤️Kafka配额限速机制❤️
全网最详细的大数据Kafka文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 Kafka配额限速机制 限制producer端的速率 限制c ...
- 2021年大数据HBase(十二):Apache Phoenix 二级索引
全网最详细的大数据HBase文章系列,强烈建议收藏加关注! 新文章都已经列出历史文章目录,帮助大家回顾前面的知识重点. 目录 系列历史文章 前言 Apache Phoenix 二级索引 一.索引分类 ...
最新文章
- console js刷新页面_Console.js使用说明
- 运维无小事,小事不运维
- jQuery入门[2]-选择器[转]
- Java中的关键字this_super
- Django框架—富文本编辑器
- 4步教你玩转可视化大屏设计|内附实际操作
- 最新emlog媒体范美化版v6.3.1
- el-table 树形表格 自定义展开图标_实践一个树形组件
- CodeForces - 589B
- Elasticsearch如何做到亿级数据查询毫秒级返回
- redis安装配置 mysql_学习环境安装 mysql 与 redis
- eCognition易康导出样本
- jQuery使用手册之三 CSS操作
- Air722UG_模块硬件设计手册_V1.1
- 顺无盘linux win10包,(2019.10.17)网维大师9.0.6.0无盘7x64-Win10x64公包
- Livid : 在 26 岁时写给 18 岁的自己
- win10修改用户名(中文用户改为英文名)切换administrators管理员用户
- 解决现行m8u3格式的视频下载问题
- 简单移位密码——凯撒加密、解密算法
- CVPR2022《BatchFormer: Learning to Explore Sample Relationships for Robust Representation Learning》