大数据知识框架体系总结梳理

写在前面，虽然本篇文章是要梳理大数据相关的技术栈和整个的框架体系，但是还是要说的是，在去了解学习这些相关技术时候，都必须要立足在公司所处行业的业务，数据使用只有在推动公司发展才有价值，依照当前公司大数据95%都没有达到前沿科技的地步，没有必要唯技术论，在采用那种技术时候需要立足在解决当前公司发展中遇到的痛点，或者提升公司价值和业务发展。当然如果致力于推动当前大数据技术前沿的发展，那前面所说则不再适用，膜拜大佬！！！

数据同步工具：

datax：阿里开源的产品，有开源和商业版两个版本。当前支持的数据库读写类型

datax使用资料1

datax使用资料2

sqoop：已经是很成熟的产品，需要基于hadoop跑Mr任务，可以将数据从业务中关系型数据库同步到hdfs，hive等数据仓库中。

flinkX:也是一个开源的数据同步工具，相对成熟度来说没有datax和sqoop成熟，但是这个工具是依基于flink的所以好处就是可以实现数据实时性的同步到数仓中，同时支持了离线和实时同步数据两种方式。

任务调度开源框架：

dolphinscheduler，它必须要写在第一个，就是这个如果你的公司还没有选好要使用任务调度框架，强烈推荐使用dolphinscheduler，这个框架是目前我使用过的最好一个任务调度框架，同时还是中国公司开源的。它不仅仅支持任务流程编排，同时有版本管理，还有租户和用户的管理，当然还有更多的优势你可以自己官网调研一下，中文官网毕竟是国产，棒！

azkaban：最开始使用是这个工具，使用简单，支持任务编排依赖和定时调度等功能，但是没有版本管理和多租户管理等功能。

oozie：是集成在cdh大数据平台系统上的，对cdh的支持较好，但是使用相对复杂。

airflow：

对于调度工具就是选择一个适合的就可以，不需要花费太多的精力，目前来说dolphinscheduler被越来越多的公司使用。

数据计算引擎

Flink:国内很多大厂都在力推实时计算，毕竟现在来对实时数据的需要和监控越来越大，flink的流式处理，数据一致性的保证都做的越来越完美。

Spark:批处理领域的王者，当然后来也支持了流式计算，但是没有做到flink那种真正的流式计算，而是通过微批的方式，当然spark在数据处理方面各个生态的整合是很完善的，同时提供机器学习，图计算等算法模型，对数据湖的处理也很完善，目前大部分公司还是依据spark为主。

MR:最开始的大数据量的计算引擎，提出了分合的思想，也是hadoop中很重要的计算部分，因为设计因素所以在计算中会有比较多的磁盘io，很大的降低了处理数据的速度，好处是可以避免内存的不足。不过现在使用也逐渐变少了，当然可能一些银行还在使用，需要保证数据的绝对稳定安全。

Flink SQL 通过jdbc连接表的DDL语句

create table deal_mysql(
tenant_id String,
shop_id String,
pay_amt decimal(19, 2),
pay_qty double,
sku_code String,
category_code_b string,
write_time timestamp,
dt Date,
primary key (tenant_id,sku_code) not enforced
)with(
'connector'='jdbc',
'url'='jdbc:mysql://ip:3306/database_name',
'username'='root',
'password'='password',
'table-name'='table_name'
);

大数据知识框架体系总结梳理相关推荐

大数据：大数据知识框架汇总（四）
一.什么是大数据大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化 ...
大数据知识框架汇总（四）
一.什么是大数据大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化 ...
大数据知识梳理（Hadoop、HDFS）（整理中。。。）
大数据知识梳理(Hadoop.HDFS)(更新中...) 第1讲大数据概述 1.1 大数据时代 1.2 大数据概念和影响 1.3 大数据的应用 1.4 大数据的关键技术 1.5 大数据与云计算.物联 ...
收藏！一张图帮你快速建立大数据知识体系
简介: 对海量数据进行存储.计算.分析.挖掘处理需要依赖一系列的大数据技术,而大数据技术又涉及了分布式计算.高并发处理.高可用处理.集群.实时性计算等,可以说是汇集了当前 IT 领域热门流行的 IT ...
大数据OLAP技术体系学习框架
文章目录大数据OLAP技术体系学习框架前言一.Apache Druid分布式数据存储二.ClickHouse列式数据库三.Presto分布式查询引擎四.Kudu分布式存储库五.Kylin ...
如何快速全面建立自己的大数据知识体系？大数据 ETL 用户画像机器学习阅读232 作者经过研发多个大数据产品，将自己形成关于大数据知识体系的干货分享出来，希望给大家能够快速建立起大数据
如何快速全面建立自己的大数据知识体系? 大数据 ETL 用户画像机器学习阅读232 作者经过研发多个大数据产品,将自己形成关于大数据知识体系的干货分享出来,希望给大家能够快速建立起大数据产品的体 ...
完整的大数据知识体系，大数据学习路线图
任何学习过程都需要一个科学合理的学习路线,才能够有条不紊的完成我们的学习目标.大数据所需学习的内容纷繁复杂,难度较大,有一个合理的大数据学习路线图帮忙理清思路就显得尤为必要. 一.Java语言以jav ...
一篇文章帮你建立自己的大数据知识体系！
现在大数据非常火爆,相信你一定看过不少关于大数据的书.文章.资讯,但基本上获取的都是零碎的知识点,不成系统,没有形成自己的知识体系,"看过很多知识点但依然搞不懂大数据",然并卵.那 ...
超级干货：一文读懂大数据计算框架与平台（升级版）
1. 前言计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等.随着互联网.物联网等技术得到越来越广泛的应用,数据规模不断增加,TB.PB量级成为 ...

大数据知识框架体系总结梳理

大数据知识框架体系总结梳理相关推荐

最新文章

热门文章