下面是大数据体系架构图

大数据分2个部分,一部分是走实时的,另外一部分是走离线的,不管那块都需要数据来分析

从上图来看,数据分为结构化数据(MYSQL,ORACLE等),半结构数据(文件日志),非结构化数据(视频,PPT等)

我们一般需要分析的数据 就是结构化的数据和非结构化的数据,非结构化数据可以存HDFS系统。

很多专业的东西后面在开博客另讲,先大概了解数据流走向。

1,数据收集系统。

首先我们要坐的就是收集数据,像数据库中的数据我们可以通过Sqoop(通过SHELL命令连接数据库实现 MYSQL,HIVE(可以通过HQL将HDFS中的数据通过表形式呈现出来)和HDFS(分布式文件系统)间的通信)来收集,这种我们可以通过用azkaban(分布式工作流调度)来定时调度每天讲MYSQL数据导入到HDFS和HIVE中,这部分数据方便我们坐离线计算。

像一些商品查询,用户登陆等查询操作,又或者是要计算实时交易等(直接操作数据库会影响数据库性能),这些东西就可以走日志收集这块,可以在前端埋点和后端埋点,记录日志,然后在通过flume收集,发送到KAFKa和HDFS(HIVE)中.这部分的数据可以走实时(flink消费kafka中的数据进行流式计算),可以走离线计算(一般第二天凌晨和mysql数据结合统计一些报表)

2,数据离线分离。

数据离线分析,离线分析大概分4层,

ODS:原始数据层(保持数据的最初),DWD:数据仓库数据层(去除空值,脏数据,超过极限范围的明细解析等)

DWS:数据仓库服务层:宽表-用户行为,轻度聚合,对dwd层的数据在进行处理轻度汇总

      ADS:   做分析处理最后将同步到mysql数据库里边,给其他应用展示

大概流程和使用的技术。像每天,每周等报表,azkaban定时调度,通过HIVE脚本对每天的ODS数据进行离线分析处理

慢慢到DWD,DWS,ADS,最后同步到数据库。

3,数据实时计算。

有些公司需要看一些实时数据,比如商品的访问量,用户登陆情况,实时交易额等。这些数据有些从数据库中查询不到(商品访问,用户登陆),有些数据库有但是统计复制,慢(实时交易量,订单数等),这些数据就可以走实时统计。

像1说的,可以通过数据埋点,在这些需要计算的地方埋点(就是记录日志,将需要的数据写到日志),最后通过FLUME手机汇总,最后到kafka,flink通过消费KAFKA的数据来消费这些日志,通过FLINK的流式计算,中间也像离线一样分ODS,DWD,ADS,最后讲结果写到数据库,整个流程虽然不是毫秒级,但也是亚秒级别的。

上面就是整个大数据的流程和需要用的技术。

flume 日志收集传输框架 专门也来对接HDFS,也可以对接KAFKA等。

hadoop体系:  HDFS 分布式文件存储系统 ,    YARN:基于hadoop的分布式资源调度,   MAPREDUCE:基于hadoop的分布式计算应用 (像HIVE就是基于YARM向执行一个一个的MAPREDUCE)

kafka  消息队列,高吞吐,稳定,缓存数据的

zookeeper 保证大数据中的一些框架的高可用

sqoop:主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递

azkaban:工作流调度系统,可以按定义的逻辑一步一步先后执行脚本和JAVA程序(包括sh,java)

hive:是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能,其实就是通过mapreduce来操作数据。

flink:是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算,通过流式计算。(暂时没跑通)

大数据架构及技术体系相关推荐

  1. 你理解常见如阿里,和友商大数据平台的技术体系差异以及发展趋势和技术瓶颈,在存储和计算两个方面进行概述

    题目: 你理解常见如阿里,和友商大数据平台的技术体系差异以及发展趋势和技术瓶颈,在存储和计算两个方面进行概述. 参考答案:开放性问题,无标准答案.

  2. 大数据简介,技术体系分类整理

    简介:大数据是指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化的信息资产.大数据技术则主要用来 ...

  3. 数据中台已成气候!大数据架构师如何站上风口?

    你被大数据杀过熟吗?当今企业对数据的重视度越来越高,在大数据系统架构设计层面,大数据架构师需要完成技术决策.技术选型,还需要根据不同时期的业务场景,不断优化和演进软件架构,最终攻克技术难点.化解技术风 ...

  4. 数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体

    作者 |关涛.李睿博.孙莉莉.张良模.贾扬清(from 阿里云智能计算平台) 黄波.金玉梅.于茜.刘子正(from 新浪微博机器学习研发部) 编者按 随着近几年数据湖概念的兴起,业界对于数据仓库和数据 ...

  5. 万字详解大数据架构新概念

    随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断.有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性. ...

  6. 大数据架构发展的20年

    随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断.有人说数据湖是下一代大数据平台,各大云厂商也在纷纷的提出自己的数据湖解决方案,一些云数仓产品也增加了和数据湖联动的特性. ...

  7. 为什么写《大数据架构详解》这本书

    花了差不多一年半时间,牺牲了每个周末,费了九牛二虎之力,终于完成个人人生的第一本书<大数据架构详解:从数据获取到深度学习>.整个过程其实挺痛苦的,时常想放弃,幸好坚持下来了. 回想这我50 ...

  8. 大数据平台及数仓的通用架构和技术体系

    一.大数据架构技术体系 1 数据传输层 Sqoop:支持RDBMS和HDFS之间的双向数据迁移,通常用于抽取业务数据库(比如MySQL.SQLServer.Oracle)的数据到HDFS. Canna ...

  9. 一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】

    一文看懂大数据生态圈完整知识体系 徐葳 随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步,作者有幸亲身经历了国内大数据行业从零到一的发展历程,通过本文希望能够帮助大家快速构建大数据生态圈 ...

  10. 大数据架构师基础:hadoop家族,Cloudera产品系列等各种技术

    大数据我们都知道hadoop,可是还会各种各样的技术进入我们的视野:Spark,Storm,impala,让我们都反映不过来.为了能够更好的架构大数据项目,这里整理一下,供技术人员,项目经理,架构师选 ...

最新文章

  1. MyBatis开发入门二:一对多连表查询
  2. mysql设置字段为空字符串_mysql数据类型字段插入空字符串自动填充为0报错
  3. 智能电网时代的网络空间安全
  4. 使用memcache作为中间缓存区的步骤
  5. Apache NIO 框架 Mina 使用中出现 too many open files 有关...
  6. 公众号支付相关需要注意的问题
  7. 31 款轻量高效的开源 JavaScript 插件和库
  8. c++ list排序_STL之list
  9. 银行岗位的“香饽饽”—金融科技岗
  10. SU处理野外地震数据常用命令
  11. kmeans算法经典案例C语言,kmeans聚类算法以及使用案例
  12. 快递柜智能柜C语言程序,智能快递柜的设计与实现_李浩然.pdf
  13. 文本分类:4、工程经验
  14. python转json的函数_python将字符串转换成json的方法小结
  15. Python fitter包:拟合数据样本的分布
  16. 野路子解决微信服务器超时会把接口重新调起n次的方法
  17. Android 安全防护
  18. 广告程序万能搜索(无能搜索)WNSO.exe
  19. 计算机操作及应用描述,计算机操作及应用教程
  20. 第二章大数据技术概述

热门文章

  1. 初级Java代码——自制坦克大战游戏
  2. 计算机显示u盘隐藏分区,电脑删除U盘隐藏分区的三种方法
  3. Xcode8 - apploader 上传失败 - ERROR ITMS-90168: The binary you uploaded was invalid.
  4. 天翼网关服务器无响应,教你使用天翼网关软件突然打不开的解决方法
  5. 中级通信工程师 | 关于考试,你想了解的都在这里!
  6. python删除停用词_删除停用词
  7. python怎么使用自定义停用词_在Python中使用NLTK删除停用词
  8. css如何实现div背景透明
  9. 分享个B端产品分析报告
  10. Mac Book Pro中idea常用快捷键