上一篇文章讲的是美团的大数据平台架构,相信大家也看到了这种平台的优势,也就是因为这种大数据平台架构的存在,阿里才会提出数据中台这么个非常好用的东西,后面有空会和大家再讲讲数据中台。

好了,言归正传,如果我们能够化整为零,在企业内部从宏观、整体的角度设计和实现一个统一的大数据平台,引入单一集群、单一存储,统一服务和统一安全的架构思想,就能很好的帮助企业解决很多问题。

提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充。

大数据分析平台

Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括HDFS,MapReduce基本组件。

HDFS:提供了一种跨服务器的弹性数据存储系统。

MapReduce:技术提供了感知数据位置的标准化处理流程:读取数据,对数据进行映射(Map),使用某个键值对数据进行重排,然后对数据进行化简(Reduce)得到最终的输出。

Amazon Elastic Map Reduce(EMR):托管的解决方案,运行在由Amazon Elastic Compute Cloud(EC2)和Simple Strorage Service(S3)组成的网络规模的基础设施之上。如果你需要一次性的或不常见的大数据处理,EMR可能会为你节省开支。但EMR是高度优化成与S3中的数据一起工作,会有较高的延时。Hadoop 还包含了一系列技术的扩展系统,这些技术主要包括了Sqoop、Flume、Hive、Pig、Mahout、Datafu和HUE等。

这里就不一一列举了,有很多,有感兴趣的可以和我私信讨论。

大数据平台架构

大数据计算通过将可执行的代码分发到大规模的服务器集群上进行分布式计算,以处理大规模的数据,即所谓的移动计算比移动数据更划算。但是这样的计算方式必然不会很快,即使一个规模不太大的数据集上的一次简单计算,MapReduce也可能需要几分钟,Spark快一点,也至少需要数秒的时间。

而网站处理用户请求,需要毫秒级的响应,也就是说,要在1秒内完成计算,大数据计算必然不能实现这样的响应要求。但是网站应用又需要使用大数据实现统计分析、数据挖掘、关联推荐、用户画像等一系列功能。

所以网站需要构建一个大数据平台,去整合网站应用和大数据系统之间的差异,将应用程序产生的数据导入到大数据系统,经过处理计算后再导出给应用程序使用。一个典型的网站大数据平台架构如下图:

大数据平台可分为三个部分:

1.数据采集

将应用程序产生的数据和日志等同步到大数据系统中,由于数据源不同,这里的数据同步系统实际上是多个相关系统的组合。数据库同步通常用Sqoop,日志同步可以选择Flume,打点采集的数据经过格式化转换后通过Kafka传递。

不同的数据源产生的数据质量可能差别很大,数据库中的数据也许可以直接导入大数据系统就可以,而日志和爬虫产生的数据就需要进行大量的清洗、转化处理才能有效使用。所以数据同步系统实际上承担着传统数据仓库ETL的工作。

2.数据处理

这里是大数据存储与计算的核心,数据同步系统导入的数据存储在HDFS。MapReduce、Hive、Spark等计算任务读取HDFS上的数据进行计算,再将计算结果写入HDFS。

MapReduce、Hive、Spark等进行的计算处理被称作是离线计算,HDFS存储的数据被称为离线数据。相对的,用户实时请求需要计算的数据称为在线数据,这些数据由用户实时产生,进行实时在线计算,并把结果数据实时返回用户,这个计算过程中涉及的数据主要是用户自己一次请求产生和需要的数据,数据规模非常小,内存中一个线程上下文就可以处理。

在线数据完成和用户的交互后,被数据同步系统导入到大数据系统,这些数据就是离线数据,其上进行的计算通常针对(某一方面的)全体数据,比如针对所有订单进行商品的关联性挖掘,这时候数据规模非常大,需要较长的运行时间,这类计算就是离线计算。

除了离线计算,还有一些场景,数据规模也比较大,要求的处理时间也比较短。比如淘宝要统计每秒产生的订单数,以便进行监控和宣传。这种场景被称为大数据流式计算,通常用Storm、Spark Steaming等流式大数据引擎来完成,可以在秒级甚至毫秒级时间内完成计算。

3.数据输出与展示

大数据计算产生的数据还是写入到HDFS中,应用程序不可能到HDFS中读取数据,所以必须要将HDFS中的数据导出到数据库中。数据同步导出相对比较容易,计算产生的数据都比较规范,稍作处理就可以用Sqoop之类的系统导出到数据库。

这时,应用程序就可以直接访问数据库中的数据,实时展示给用户,比如展示给用户的关联推荐的商品。淘宝卖家的量子魔方之类的产品,其数据都来自大数据计算产生。

除了给用户访问提供数据,大数据还需要给运营和决策层提供各种统计报告,这些数据也写入数据库,被相应的后台系统访问。很多运营和管理人员,每天一上班,就是登录后台数据系统,查看前一天的数据报表,看业务是否正常。如果数据正常甚至上升,就可以稍微轻松一点,如果数据下跌,焦躁而忙碌的一天也马上就开始了。

将上面三个部分整合起来的是任务调度管理系统,不同的数据何时开始同步,各种MapReduce、Spark任务如何合理调度才能使资源利用最合理、等待的时间又不至于太久,临时的重要任务能够尽快执行,这些都需要任务调度管理系统完成。有时候对分析师和工程师开放的作业提交、进度跟踪,数据查看等功能也集成在这个系统中。

对于每个公司的大数据团队,最核心开发维护的也就是这个系统,大数据平台上的其他系统一般都有成熟的开源软件可以选择,作业调度管理会涉及很多个性化的需求,通常需要团队自己开发。

看到这里,你们对整个大数据平台架构了解了吗,如果还没有,我特地选了几个知名互联网公司的例子给你们,图片有点糊,谅解。

滴滴

一文详解被阿里腾讯视作核心机密的大数据平台架构相关推荐

  1. hadoop大数据平台架构之DKhadoop详解

    hadoop大数据平台架构之DKhadoop详解 大数据的时代已经来了,信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战.Hadoop作为一个开源的分布式并行处理平台,以其高拓展. ...

  2. 大数据平台架构浅析——以讯飞大数据平台Odeon为例

    文章目录 大数据平台架构解析--以讯飞大数据平台Odeon为例 定义 功能 数据采集 数据开发 数据分析 数据编程 补充 大数据平台架构解析--以讯飞大数据平台Odeon为例 定义 Odeon大数据平 ...

  3. 深度好文!多年架构师经验,详解阿里内部大数据平台架构

    今天在某乎上看见这么一个问题: 其实,这个问题就相当于是把自己的组织架构透露给外部了,因为太多的人想要知道大数据的平台怎么架构,组织怎么架构,每一步应该做什么,有什么注意点等等. 今天我就把我自己所知 ...

  4. 《阿里如何实现秒级百万TPS?搜索离线大数据平台架构解读》阅读笔记

    什么是搜索离线? 何谓离线?在阿里搜索工程体系中我们把搜索引擎.在线算分.SearchPlanner等ms级响应用户请求的服务称之为"在线"服务:与之相对应的,将各种来源数据转换处 ...

  5. 阿里如何实现秒级百万TPS?搜索离线大数据平台架构解读

    阿里妹导读:搜索离线数据处理是一个典型的海量数据批次/实时计算结合的场景,阿里搜索中台团队立足内部技术结合开源大数据存储和计算系统,针对自身业务和技术特点构建了搜索离线平台,提供复杂业务场景下单日批次 ...

  6. VR开发基础(二)一文详解Oculus环境helloxr的openxr核心接口流程

    注:Oculus使用的是开源的hello_xr示例,但要使用自家的loader:在hello_xr上篇侧重分析了入口和图形的基本流程,此篇将侧重分析XR相关的流程 一,Setup and Build ...

  7. 一文详解MOS管驱动电路的核心设计

    MOS管电子产品生产中不可或缺的重要保护器件,在手机.笔记本电脑.蓝牙耳机等都有MOS管的身影,可以这样说,有便携式电子产品的地方一定有MOS管的存在,究竟为何MOS管能在竞争激烈的电子行业中脱颖而出 ...

  8. 一文详解大数据平台架构

    大数据的4V特征 公司的"大数据" 随着公司业务的增长,大量和流程.规则相关的非结构化数据也爆发式增长.比如: 1.业务系统现在平均每天存储20万张图片,磁盘空间每天消耗100G: ...

  9. 2.大数据架构详解:从数据获取到深度学习 --- 运营商大数据架构

    第2章 运营商大数据架构 2.1 架构驱动的因素 运营商面临着被管道化,营收下滑,大数据项目承担企业战略转型,数据变现的使命.互联网企业的大数据往往是承担业务创新,未来探索的一种驱动因素,所以对于架构 ...

  10. 预告:Intel、Hulu、阿里、京东、携程等大数据实战直播

    前言:由CSDN主办的SDCC 2017之大数据技术实战线上峰会将在CSDN学院举行.作为SD系列技术峰会的一部分,本次线上峰会秉承干货实料(案例)的内容原则,将邀请圈内顶尖的布道师.技术专家和技术引 ...

最新文章

  1. VMware上安装 Windows server 2012R2 教程
  2. L1-038. 新世界
  3. java finally在return_Java finally语句到底是在return之前还是之后执行?
  4. 天地图专题二:在天地图上循环显示标注点以及悬停显示信息窗口
  5. final关键字修饰类,方法以及变量的特点 学习
  6. bootstrap3 - 分页
  7. 编程之美 4.6桶中取黑白球
  8. linux下mysql的忘记root密码的解决办法
  9. Java I/O系统之Writer
  10. 关于myeclipse中启动项目(server为welogic10)报valid license.bea错误的问题解决方式...
  11. excel有多行不同内容需要向下填充
  12. python-第三方接口获取验证码
  13. 使用APICloud开发物流仓储app项目实践
  14. 网上赚钱靠谱的方法,看懂了的都是老手!
  15. 4.5 Frank 口语习语前7
  16. BUUCTF misc 专题(82)[WUSTCTF2020]alison_likes_jojo
  17. echarts:柱状图去掉网格线
  18. 如何将安卓系统的手机屏幕同步显示在电脑上
  19. vue实现购物车简单的功能-单选全选总价计算、批量删除
  20. js文本框设置必填项_Jquery文本框小例(必填框)

热门文章

  1. Winrar 4.0破解
  2. 【网站数据统计解决方案】快速了解pv、uv、spm、utm_source、埋点等知识
  3. Typec手机有线网卡网线转网口转接口快充方案
  4. 我是如何揭穿“娱乐圈”大佬
  5. GAN (Generative Adversarial Nets 生成对抗网络)
  6. What do you think about this itinerary?
  7. SpringBoot中Redis报错:NOAUTH Authentication required.; nested exception is redis.clients.jedis.exceptio
  8. Unity基础学习——光照系统
  9. u3d mysql_学习笔记(1) mysql + kbengine-0.8.2+U3D_demo详细搭建过程个人记录_mysql
  10. 数据结构(主席树,Bit):XTU 1247/COGS 2344. pair-pair