大数据架构

大数据框架从0到1整个过程的实现,根据本博客内容,可以实现整个大数据基本搭建,只是大概步骤,供学习参考。

本博客从下面5个方面介绍:
技术框架+技术选型+系统架构设计+业务流程+生态实现步骤


以阿里为例的大数据架构,通过学习视频,然后自己记录起来,可以时刻阅读。如有侵权,可以联系我,我随时删除。

大数据其实就是在海量数据的情况下的研究。假如数据量很少,其实用Excel就完全可以了。


1、阿里云的技术框架

这里将其和其他框架进行对比

阿里云产品 简介 其他产品
ECS 弹性服务器 Linux服务器
RDS 关系型数据库 Mysql
DataHub 数据总线 Kafka+各种服务器接口
实时计算 可以实时计算 Spark、Flink
Dataworks 可视化StreamCompute的开发管理平台 暂无
AnalyticDB for Mysql 分析型数据库 Mysql集群
DataV、QuickBI 可视化数据展示工具 Tableau、Echarts、Kibana、Unity3D、Matplot

2、技术选型

这里根据上面的技术框架,对数据采集、数据存储、数据计算和数据可视化工具进行选型。

功能 阿里云框架 其他开源框架
数据采集(传输) DataHub、DTS Flume、Kafka、Canal、MaxWell
数据存储 RDS、AnalyticDB Mysql、Hadoop、Hbase
数据计算 实时计算 Spark、Flink
数据可视化 DataV、QuickBI Tableau、Echarts、Kibana

3、系统架构设计

ECS :用户行为数据–文件形式
RDS:业务数据–mysql数据
同步事实表—一般数据庞大,这个一般确定后,尽量少修改。数据到Datahub
同步维表—数据量小,列数多,这个方便修改。直接到维度表RDS(这个RDS和上面的RDS不同,这个RDS形成过程是解耦过程)


4、业务流程

这里3个事实表、7个维表,这里有数仓分层思想。
这里数仓分为:ODS层、DWD层、DWS层和ADS层。
数据从事实表和维表–>AnalyticDB过程:

 1. 事实表不做处理,作为ODS层,直接存储Datahub(万一实时计算出错,之后还可以调用该事实表数据)。2. 之后实时计算直接读取事实表,生成DWD层,存储在Datahub。3. 之后根据DWD层和聚合的维度层进行实时计算生成ADS层,存储到AnalysitcDB里。

这里可能没有涉及到DWS层。


5、整个生态实现步骤


根据上面的图进行生态建模步骤:

1.购买**RDS**,创建数据集合,用RDS
2.创建Datahub项目
3.直接用DTS把RDS事实表数据同步到创建的Datahub
4.用第二个DTS把RDS维表数据同步到RDS新库(维表库)这两个DTS需要分别创建
5.聚合维度表-视图表,方便之后管理和使用
6.分层—**实时服务器购买**,创建实时计算集群和项目环境
7.创建dataworks环境,把项目和集群绑定起来,用于开发
8.ODS层到DWD层—直接在Dataworks里面实现(Datahu--实时处理--到Datahub)直接使用sql创建数据源表-创建数据结果表还需要在Datahub中创建结果表,之后才可以使用sql导入
9.**AnalyticDB购买**

架构-大数据架构-阿里相关推荐

  1. 大数据数据收集数据困难_大数据架构、大数据开发与数据分析的区别

    是新朋友吗?记得先点蓝字关注我哦- 今日课程菜单 Java全栈开发 | Web前端+H5 大数据开发 | 数据分析  人工智能+Python | 人工智能+物联网 来源:小职(z_zhizuobiao ...

  2. 大数据架构、大数据开发与数据分析的区别

    大数据架构.大数据开发与数据分析的区别 大数据产业 顾名思义大数据是一个以数据为核心的产业.大数据产业生成流程从数据的生命周期的传导和演变上可分为这几个部分:数据收集.数据储存.数据建模.数据分析.数 ...

  3. 阿里P8架构师谈:大数据架构设计(文章合集)

    架构师进阶有一块很重要的内容,就是需要掌握大数据的架构设计,主要涵括: MySQL等关系式数据库,需要掌握数据库的索引.慢SQL.以及长事务的优化等. 需要掌握非关系式数据库(NoSQL)的选型,以及 ...

  4. 数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体

    作者 |关涛.李睿博.孙莉莉.张良模.贾扬清(from 阿里云智能计算平台) 黄波.金玉梅.于茜.刘子正(from 新浪微博机器学习研发部) 编者按 随着近几年数据湖概念的兴起,业界对于数据仓库和数据 ...

  5. 看看华为、阿里大数据架构师的必备技能!

    嘘,我们只偷偷地告诉你一个人! 这个秘密职业就是 数据架构师 在国内大数据行业大概有以下几种岗位:数据架构师.数据分析师.数据挖掘工程师.数据算法工程师和数据产品经理. 接下来我们介绍第二种岗位 让我 ...

  6. 大数据基础课03 阿里美团这些大厂都在用什么大数据架构?

    首先,我想讲一个叫庖丁解牛的故事,想必你应该听过.庖丁从开始杀牛,到他的故事被写下,操刀十九年,杀了数千头牛.也正是由于丰富的实践经验,他总结出了解杀牛的方法论:依照牛生理上的天然结构,砍入牛体筋骨相 ...

  7. 阿里前大数据架构师:如何快速的成长为一名优秀大数据架构师

    什么是大数据架构师: 围绕大数据系平台系统级的研发人员, 熟练Hadoop.Spark.Storm等主流大数据平台的核心框架.深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算,并 ...

  8. 数据中台已成气候!大数据架构师如何站上风口?

    你被大数据杀过熟吗?当今企业对数据的重视度越来越高,在大数据系统架构设计层面,大数据架构师需要完成技术决策.技术选型,还需要根据不同时期的业务场景,不断优化和演进软件架构,最终攻克技术难点.化解技术风 ...

  9. 这可能是程序员学习大数据架构师的最佳之路!另附送1024G学习资料!

    随着大数据时代的到来,[这次国家教育部的改革要动真格了],JAVA程序员们仅有的一点点竞争力很快就不复存在,为什么这么说呢? 人生别只顾低头拉车,更要抬头看路! 国家教育部全面改革:大数据领衔 所有高 ...

  10. 大数据架构如何做到流批一体?

    阿里妹导读:大数据与现有的科技手段结合,对大多数产业而言都能产生巨大的经济及社会价值.这也是当下许多企业,在大数据上深耕的原因.大数据分析场景需要解决哪些技术挑战?目前,有哪些主流大数据架构模式及其发 ...

最新文章

  1. C++/C++11中std::stack的使用
  2. 2020年国际学术会议参考列表
  3. Atitit JAVA p2p设计与总结  JXTA 2
  4. java条码大小_java – 自定义条形码输入中缺少条形码高度
  5. 如何解决Ubuntu 12.04(64位)系统在virtualbox环境下无法开机自动挂载共享目录的问题
  6. 自下而上、从右往左层次遍历
  7. Leetcode每日一题:26.remove-duplicates-from-sorted-array(删除排序数组中的重复项)
  8. 医学专业考计算机三级,2020年9月中国医科大学计算机等级考试报名通知
  9. 苹果又发布一个机器学习框架,帮自家生态里的开发者降低AI门槛
  10. 如何配置SQL Server ODBC数据源
  11. 使用文本/CAD数据集添加地图注记
  12. 【银河麒麟V10】【桌面】火狐浏览器设置主页不生效
  13. 页面自动获取导入excel内容
  14. 奇瑞新能源掌门人鲍思语:未来将迈进大车市场
  15. 在意的越多,心理负担就越重
  16. 使用vue做一个“淘宝“项目(显示页面)
  17. signature=6217a496579a029c7524d3521cec3dea,网络工程师成长日记370-阿尔斯通
  18. 双核Linux内核的引导
  19. 务虚:大局观、方法与关键点
  20. U盘启动盘重装win7/10系统

热门文章

  1. Win10 CMD命令大全
  2. 一文汇总卡方检验分析步骤
  3. 如何处理计算机显卡故障,显卡出现故障怎么办
  4. 思科模拟器服务器怎么显示字样,思科模拟器服务器怎么设置网关
  5. matlab求解平面度,基于MATLAB的平面度评定
  6. 透视投影中已知两平面的单应矩阵,能否求出这两平面的夹角?
  7. 各地前端工资是多少?三线城市的前端有多少
  8. Win10WIFI链接不上||无线网卡错误代码56
  9. “数据类型不一致: 应为 NUMBER, 但却获得 BINARY”解决方法
  10. WPS删除所有的页码