写在前面,虽然本篇文章是要梳理大数据相关的技术栈和整个的框架体系,但是还是要说的是,在去了解学习这些相关技术时候,都必须要立足在公司所处行业的业务,数据使用只有在推动公司发展才有价值,依照当前公司大数据95%都没有达到前沿科技的地步,没有必要唯技术论,在采用那种技术时候需要立足在解决当前公司发展中遇到的痛点,或者提升公司价值和业务发展。当然如果致力于推动当前大数据技术前沿的发展,那前面所说则不再适用,膜拜大佬!!!


数据同步工具:

datax:阿里开源的产品,有开源和商业版两个版本。当前支持的数据库读写类型

datax使用资料1

datax使用资料2

sqoop:已经是很成熟的产品,需要基于hadoop跑Mr任务,可以将数据从业务中关系型数据库同步到hdfs,hive等数据仓库中。

flinkX:也是一个开源的数据同步工具,相对成熟度来说没有datax和sqoop成熟,但是这个工具是依基于flink的所以好处就是可以实现数据实时性的同步到数仓中,同时支持了离线和实时同步数据两种方式。

任务调度开源框架:

dolphinscheduler, 它必须要写在第一个,就是这个如果你的公司还没有选好要使用任务调度框架,强烈推荐使用dolphinscheduler,这个框架是目前我使用过的最好一个任务调度框架,同时还是中国公司开源的。它不仅仅支持任务流程编排,同时有版本管理,还有租户和用户的管理,当然还有更多的优势你可以自己官网调研一下,中文官网毕竟是国产,棒!

azkaban:最开始使用是这个工具,使用简单,支持任务编排依赖和定时调度等功能,但是没有版本管理和多租户管理等功能。

oozie:是集成在cdh大数据平台系统上的,对cdh的支持较好,但是使用相对复杂。

airflow:

对于调度工具就是选择一个适合的就可以,不需要花费太多的精力,目前来说dolphinscheduler被越来越多的公司使用。

数据计算引擎

Flink:国内很多大厂都在力推实时计算,毕竟现在来对实时数据的需要和监控越来越大,flink的流式处理,数据一致性的保证都做的越来越完美。

Spark:批处理领域的王者,当然后来也支持了流式计算,但是没有做到flink那种真正的流式计算,而是通过微批的方式,当然spark在数据处理方面各个生态的整合是很完善的,同时提供机器学习,图计算等算法模型,对数据湖的处理也很完善,目前大部分公司还是依据spark为主。

MR:最开始的大数据量的计算引擎,提出了分合的思想,也是hadoop中很重要的计算部分,因为设计因素所以在计算中会有比较多的磁盘io,很大的降低了处理数据的速度,好处是可以避免内存的不足。不过现在使用也逐渐变少了,当然可能一些银行还在使用,需要保证数据的绝对稳定安全。

Flink SQL 通过jdbc连接表的DDL语句

create table deal_mysql(
tenant_id String,
shop_id String,
pay_amt decimal(19, 2),
pay_qty double,
sku_code String,
category_code_b string,
write_time timestamp,
dt Date,
primary key (tenant_id,sku_code) not enforced
)with(
'connector'='jdbc',
'url'='jdbc:mysql://ip:3306/database_name',
'username'='root',
'password'='password',
'table-name'='table_name'
);

大数据知识框架体系总结梳理相关推荐

  1. 大数据:大数据知识框架汇总(四)

    一.什么是大数据 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化 ...

  2. 大数据知识框架汇总(四)

    一.什么是大数据 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化 ...

  3. 大数据知识梳理(Hadoop、HDFS)(整理中。。。)

    大数据知识梳理(Hadoop.HDFS)(更新中...) 第1讲 大数据概述 1.1 大数据时代 1.2 大数据概念和影响 1.3 大数据的应用 1.4 大数据的关键技术 1.5 大数据与云计算.物联 ...

  4. 收藏!一张图帮你快速建立大数据知识体系

    简介: 对海量数据进行存储.计算.分析.挖掘处理需要依赖一系列的大数据技术,而大数据技术又涉及了分布式计算.高并发处理.高可用处理.集群.实时性计算等,可以说是汇集了当前 IT 领域热门流行的 IT ...

  5. 大数据OLAP技术体系学习框架

    文章目录 大数据OLAP技术体系学习框架 前言 一.Apache Druid分布式数据存储 二.ClickHouse列式数据库 三.Presto分布式查询引擎 四.Kudu分布式存储库 五.Kylin ...

  6. 如何快速全面建立自己的大数据知识体系? 大数据 ETL 用户画像 机器学习 阅读232 作者经过研发多个大数据产品,将自己形成关于大数据知识体系的干货分享出来,希望给大家能够快速建立起大数据

    如何快速全面建立自己的大数据知识体系? 大数据 ETL 用户画像 机器学习 阅读232  作者经过研发多个大数据产品,将自己形成关于大数据知识体系的干货分享出来,希望给大家能够快速建立起大数据产品的体 ...

  7. 完整的大数据知识体系,大数据学习路线图

    任何学习过程都需要一个科学合理的学习路线,才能够有条不紊的完成我们的学习目标.大数据所需学习的内容纷繁复杂,难度较大,有一个合理的大数据学习路线图帮忙理清思路就显得尤为必要. 一.Java语言以jav ...

  8. 一篇文章帮你建立自己的大数据知识体系!

    现在大数据非常火爆,相信你一定看过不少关于大数据的书.文章.资讯,但基本上获取的都是零碎的知识点,不成系统,没有形成自己的知识体系,"看过很多知识点但依然搞不懂大数据",然并卵.那 ...

  9. 超级干货 :一文读懂大数据计算框架与平台(升级版)

    1. 前言 计算机的基本工作就是处理数据,包括磁盘文件中的数据,通过网络传输的数据流或数据包,数据库中的结构化数据等.随着互联网.物联网等技术得到越来越广泛的应用,数据规模不断增加,TB.PB量级成为 ...

最新文章

  1. 2022-2028年中国饮水机市场投资分析及前景预测报告
  2. C#_asp.net页面转向
  3. 物体姿态估计数据集介绍
  4. 现代版的大案牍术:数字孪生在城市的应用
  5. Omi应用md2site发布-markdown转网站利器
  6. 类的赋值运算符的重载函数
  7. LeetCode 705 Design HashSet 解题报告
  8. 汉字转拼音,TinyPinyin、Pinyin4j与JPinyin哪个库更快
  9. 让我小猪佩奇教你如何进行潇洒装逼
  10. 拜托,面试别再问我基数排序了!!!
  11. Privoxy | 终端运用privoxy自由选择是否代理拉取Golang包(Mac OS)
  12. python画名侦探柯南_基于flask的可视化动漫分析网站【python入门必学】
  13. core java购买_Core Java =
  14. mysql基本50题_mysql-50题
  15. 导师喜欢什么样的“真”研究生?(转科学网)
  16. 微信多开工具 Mac版的安装及卸载教程
  17. word中目录出现省略号疏密不一致
  18. Python中的long类型
  19. OWA动态密码短信认证方案,解决outlook邮件双因子认证问题
  20. 2.Seq2Seq注意力机制

热门文章

  1. form 表单 发送到邮箱
  2. nbd 相关概念及操作
  3. vm-tools 安装
  4. in语句作用C语言,C语言中IN(ch,OP)是什么意思
  5. 哈工程和杭电计算机,哈工程算名校吗?为什么说千万别来哈工程?
  6. 禁止iphone浏览器拖动反弹(橡皮筋效果)
  7. 0-1整数规划的求解思路整理
  8. WAF——web安全及web应用防火墙
  9. Saiku-ui代码结构分析
  10. [附源码]计算机毕业设计JAVA网上书店管理系统