文章目录

  • 1.大数据生态技术
  • 2.数据存储
  • 3.数据存储的发展
    • 3.1 数据仓库
    • 3.2 数据湖
  • 4.数据存储的方式
    • 4.1 批处理的数据存储
    • 4.2 实时处理的数据存储

1.大数据生态技术

数据存储处理: 清洗, 关联, 规范化, 组织建模, 通过数据质量的检测, 数据分析然后提供相应的数据服务

数据存储: Mysql. HDFS. HBase, KUDU, TiDB
数据计算: Spark, Flink, MapReduce, Tez, Hive, Storm
交互式查询: Impala, Presto
在线实时分析: ClickHouse, Kylin, Doris, Druid, kudu
资源调度: Yarn, k8s, Mesos
任务调度: Oozie, Azakaban, AirFlow, DolphinScheduler(离线)
数据监控: Zabbix(离线), Prometheus(实时)
数据治理, 元数据管理: Atlas
数据地图, 数据可视化: DataV, QuickBI, Echarts, Superset(离线), Hue, Sugar(实时)
数据采集传输: Flume, Kafka, Sqoop, Logstash, DataX
服务协调: Zookeeper
数据同步: Maxwall, Canal, FlinkCDC, Debezium
数据迁移, 数据收集: Flume, Canal, Sqoop, DataX, Waterdrop
部署运维: Ambari, Saltstack
安全框架: Range, Kerberos, Sentry
大数据平台: HDP, CDH, CDP
数据湖: Hudi, Icebery
数据血缘: Spark

数据资产, 数据中台

2.数据存储

在整个大数据生态圈里,数据存储可以分为两大类:

1、是直接以文件形式存放在分布式文件系统上,处理工具可以直接读写 (Hive 和SparkSQL 都是这类)。

2、通过kafak存储实时数据,经过实时计算框架最后把指标数据利用NoSQL数据库来存储和管理数据(NOSQL数据库Hbase之类)。

3.数据存储的发展

数据库 -> 数据仓库 -> 数据湖

  • 数据仓库存储结构化数据(先处理后存储)。
  • 数据湖存储原始数据(先存储后处理)。

3.1 数据仓库

数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的,不可修改的数据集合。

1、所谓主题:要把不同业务系统的数据同步到一个统一的数据仓库中,然后按照主题域方式组织数据。主题可以把它理解为数据仓库的一个目录。

2、所谓集成:是指数据仓库中的信息不是从各个业务系统中简单抽取出来的,而是经过一系列加工、整理和汇总的过程,因此数据仓库中的信息是关于整个企业的一致的全局信息。

3、所谓随时间变化:是指数据仓库内的信息并不只是反映企业当前的状态,而是记录了从过去某一时点到当前各个阶段的信息。通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。

简而言之,它综合多个业务系统数据,主要用于历史性、综合性和深层次数据分析。

在了解数据仓库之后,不得不提下经典的两个数仓建模技术

恩门提出的建模方法自顶向下(这里的顶是指数据的来源,在传统数据仓库中,就是各个业务数据库),基于业务中各个实体以及实体之间的关系,构建数据仓库。

金博尔建模与恩门正好相反,是一种自底向上的模型设计方法,从数据分析的需求出发,拆分维度和事实。那么用户、商品就是维度,库存、用户账户余额是事实。

这两种方法各有优劣,恩门建模因为是从数据源开始构建,构建成本比较高,适用于应用场景比较固定的业务,比如金融领域,冗余数据少是它的优势。金博尔建模由于是从分析场景出发,适用于变化速度比较快的业务,比如互联网业务。

3.2 数据湖

数据湖(Data Lake)是一个以原始格式存储数据的存储库或系统。


其构建组件基于Hadoop进行存储。

简而言之,数据湖原始数据统一存放在HDFS系统上,引擎以Hadoop和Spark,Flink开源生态为主,存储和计算一体。

4.数据存储的方式

4.1 批处理的数据存储

HDFS分布式文件系统

HDFS提供了一个高容错性和高吞吐量的海量数据存储解决方案。


离线数据一般基于HDFS分布式文件系统作为数据仓库。

4.2 实时处理的数据存储

实时处理的数据为无界流数据,因此分为原数据存储和数据处理后的存储。

原始数据: 用户行为数据, 日志数据, 爬虫数据(ADS)

数据处理后数据: Hbase, Redis, ES, Mysql(用户行为数据) ->

报表系统, 用户画像, 机器学习, 推荐系统, 数据可视化

大数据平台之数据存储相关推荐

  1. 从0到1搭建大数据平台之数据存储

    大家好,我是脚丫先生 (o^^o) 近日参加了集团大数据平台之流批一体的建设. 流批一体,从调研直至研发.日日夜夜,泪流满面. 作业以:sql.jar.组件拖拽三种方式去提交实时任务,终究还是攻克. ...

  2. 我该建数仓、大数据平台还是数据中台?看完脑子终于清醒了

    一.层出不穷的新名词 现在各种新名词层出不穷: 顶层的有数字城市.智慧地球.智慧城市.城市大脑: 企业层面的有数字化转型.互联网经济,数字经济.数字平台: 平台层面的有物联网,云计算,大数据,5G,人 ...

  3. 数据平台、大数据平台、数据中台……傻傻分不清?这次终于有人讲明白了!

    来源 | 智领云科技 造概念,在IT行业可不是一件陌生的事儿,中文博大精深,新名词.新概念往往简单准确,既可以被大众接受,又可以被专家把玩,真正做到雅俗共赏.各有趣味.近年来,数据中台之火爆,什么数据 ...

  4. 数据平台、大数据平台、数据中台……还分的清不?

    造概念,在IT行业可不是一件陌生的事儿,中文博大精深,新名词.新概念往往简单准确,既可以被大众接受,又可以被专家把玩,真正做到雅俗共赏.各有趣味.近年来,数据中台之火爆,什么数据平台.数据中台.数据湖 ...

  5. 大数据平台搭建_一文读懂数据平台、大数据平台、数据中台

    作者 | June 来源 | 智领云科技(ID:LinkTimeCloud) 造概念,在 IT 行业可不是一件陌生的事儿,中文博大精深,新名词.新概念往往简单准确,既可以被大众接受,又可以被专家把玩, ...

  6. 一文读懂数据平台、大数据平台、数据中台

    作者 | June 来源 | 智领云科技(ID:LinkTimeCloud) 造概念,在 IT 行业可不是一件陌生的事儿,中文博大精深,新名词.新概念往往简单准确,既可以被大众接受,又可以被专家把玩, ...

  7. 从0到1搭建大数据平台之数据计算

    文章目录 前言 一.传统的数据计算 二.Hadoop的崛起 三.离线计算 MapReduce Hive SparkSQL 四. 实时计算 Spark Streaming Flink 总结 前言 大家好 ...

  8. 集成平台、大数据平台、数据治理平台,医院信息科应该怎么选?

    文章来源:森亿AI医疗 近几年,医院的信息化建设速度不断加快,已基本实现了业务的数据化.院内的信息化系统越来越多,其中积累了海量的医疗数据.要真正发挥这些数据的价值,需对其进行采集汇聚.治理.计算和挖 ...

  9. 彻底搞定数据产品选型-报表平台、BI平台、大数据平台、数据中台一网打尽

    这是我的第47篇原创 来吧,废话不多说,直接上干货! 报表平台 到现在还在做报表的,已经很少了.上面三家都是中国主流报表厂商.不过在国外BI厂商的市场压力面前,也都做了BI套件.主流的就帆软和润乾,水 ...

  10. 一文搞懂数据治理、数据仓库、大数据平台、数据中台、报表BI体系等概念

    今天要给大家送一份极好的东西. 第一次看到这份<数据化建设知识图谱>时确实被惊艳到了,内容之详细,质量之高,强烈建议做IT.做数据相关工作的粉丝朋友们搞上一份. 一张超大的实物图谱 这次特 ...

最新文章

  1. Python培训分享:python爬虫可以用来做什么?
  2. Linux学习总结(9)——Linux 新手必知必会的 10 条 Linux 基本命令
  3. 基于MATLAB的RSSI 和 PLE 定位算法,并通过卡尔曼滤波器减少非视距误差
  4. GNN论文笔记: Graph Neural Networks with convolutional ARMA filters
  5. thinkphp-条件判断-范围判断-NOTBETWEEN
  6. [CareerCup] 8.7 Chat Server 聊天服务器
  7. Python数据分析:pandas中Dataframe的groupby与索引
  8. java h5 调用摄像头_基于百度AI使用H5实现调用摄像头进行人脸注册、人脸搜索功能(Java)...
  9. Element UI练习
  10. matlab坐标加图例,科学网—Matlab 循环添加图例 更改图例位置 - 肖鑫的博文
  11. cleanmymac4.12最新版下载安装教程
  12. CentOS7 安装Mldonkey(电驴)步骤
  13. 传感器实训心得体会_关于实训的心得体会
  14. Mysql 中 case when then else end 用法
  15. [附源码]java毕业设计海雨市高校实验设备报修系统
  16. 绝地求生——想知道你有多少种死法吗?
  17. antv G2 折线图遇到的坑
  18. PV操作与前趋图题型
  19. WinGate 6.0 build 984铪铪铪
  20. SprinBoot+Jpa实现1024社区系统的最新职位推荐和最热职位推荐

热门文章

  1. 银行家算法C++代码实现
  2. 20191122 视频版控制台上的极乐净土
  3. java:单例模式的五种实现方式
  4. URL在线编码/解码工具
  5. python3之url编码互转
  6. BMI160低功耗学习
  7. 计算机软件方面的核心期,计算机方面期刊_计算机方面适合阅读的期刊_计算机八大核心期刊...
  8. Minecraft forge服务端安装
  9. 用波尔理论推导里德伯公式
  10. weka下载后没有安装java_Weka程序原版安装文件[下载指引]