为了满足企业对于数据的各种需求,需要基于大数据技术构建大数据平台。结合大数据在企业的实际应用场景,如下图所示的大数据平台架构所示:

最上层为应用提供数据服务与可视化,解决企业实际问题。第2层是大数据处理核心,包含数据离线处理和实时处理、数据交互式分析以及机器学习与数据挖掘。第3 层是资源管理,为了支撑数据的处理,需要统一的资源管理与调度。第4层是数据存储,存储是大数据的根基,大数据处理框架都构建在存储的基础之上。第5层是数据获取,无论是数据存储还是数据处理,前提都是快速、高效地获取数据。

一、数据获取

大数据技术的核心是众多数据中挖掘价值,第一步需要做的就是弄清楚有什么样的数据、如何获取数据。在企业运行的过程中,特别是互联网企业,会产生各种各样的数据,如果企业不能正确获取数据或没有获取数据的能力,就无法挖掘出数据中的价值,浪费了宝贵的数据资源。数据从总体上可以分为结构化数据和非结构化数据。数据的来源不同、格式不同,获取数据所使用的技术也不同。Web 网站的很多数据来自用户的点击,可以使用低侵入的浏览器探针技术采集用户浏览数据、使用爬虫技术获取网页数据、使用组件Canal采集MySQL数据库的binlog日志,以及使用组件Flume采集Web服务器的日志数据。数据获取之后,为了方便不同应用消费数据,可以将数据存入Kafka消息中间件。

二、数据存储

存储是所有大数据技术组件的基础,存储的发展远远低于 CPU 和内存的发展,虽然硬盘存储容量多年来在不断地提升,但是硬盘的访问速度却没有与时俱进。所以对于大数据开发人员来说,对大数据平台的调优很多情况下主要集中在对磁盘I/O的调优。

三、数据处理

有了数据采集和数据存储系统,可以对数据进行处理。对于大数据处理按照执行时间的跨度可以分为∶离线处理和实时处理。

●离线处理,批量处理,用于时长跨越大、处理复杂数据。

●实时处理,流处理,用于处理实时数据流,通常数据处理的时间跨度在数百毫秒到数秒之间。

四、交互式分析

在实际应用中,经常需要对离线或实时处理后的历史数据,根据不同的条件进行多维分析查询并及时返回结果,这时就需要交互式分析。交互式分析是在历史数据上查询,因为是查询应用,所以交互式查询通常具有以下特点:

● 低延时

● 查询条件复杂

● 返回结果数据量小

● 查询范围大

● 并发数要求高

● 需要支持SQL等接口

五、机器学习与数据挖掘

在利用大数据技术对海量数据进行分析的过程中,常规的数据分析可以使用离线分析、实时分析和交互式分析,复杂的数据分析需要利用数据挖掘和机器学习的方法。

目前,使用较多、比较成熟的机器学习库是Spark框架中的Spark ML,大数据开发人员可以直接利用Spark ML 进行数据挖掘。当然也可以使用Flink框架中的Flink ML,不过Flink ML还在发展过程中,有待成熟和完善。

六、资源管理

资源管理的本质是集群、数据中心级别资源的统一管理和分配。首要解决的是多租户、弹性伸缩、动态分配等问题。

为了应对数据处理的各种应用场景,出现了很多大数据处理框架(如 MapReduce、Hive、Spark、Flink、JStorm等),相应地,也存在着多种应用程序与服务(如离线作业、实时作业等)。为了避免服务和服务之间、任务和任务之间的相互干扰,传统的做法是为每种类型的作业或服务搭建一个单独的集群。在这种情况下,由于每种类型作业使用的资源量不同,有些集群的利用率不高,而有些集群则满负荷运行、资源紧张。

为了提高集群资源利用率、解决资源共享问题,YARN在这种应用场景下应运而生。YARN资源管理系统对集群中的资源进行管理和调度。在实际企业应用中,一般都会将各种大数据处理框架部署到YARN集群上,方便资源的统一调度与管理。

大数据平台架构包含哪些功能相关推荐

  1. 硅谷企业的大数据平台架构什么样?看看Twitter、Airbnb、Uber的实践

    导读:本文分析一下典型硅谷互联网企业的大数据平台架构. 作者:彭锋 宋文欣 孙浩峰 来源:大数据DT(ID:hzdashuju) 01 Twitter的大数据平台架构 Twitter是最早一批推进数字 ...

  2. 大数据平台架构的层次划分

    1. 数据源层:包括传统的数据库,数据仓库,分布式数据库,NOSQL数据库,半结构化数据,无结构化数据,爬虫,日志系统等,是大数据平台的数据产生机构. 2. 数据整理层:包括数据清洗.数据转换.数据加 ...

  3. 数据产品经理修炼手册_数据产品经理需要了解的大数据平台架构

    了解大数据平台的基础架构有助于我们清楚数据是怎么流转与处理的,在每一层的结构中数据是以什么形式存储的,当我们听到工程师们谈论到这些内容时,不至于一无所知. 本文内容偏基础,适合像作为入门了解. 文不如 ...

  4. 大数据平台架构浅析——以讯飞大数据平台Odeon为例

    文章目录 大数据平台架构解析--以讯飞大数据平台Odeon为例 定义 功能 数据采集 数据开发 数据分析 数据编程 补充 大数据平台架构解析--以讯飞大数据平台Odeon为例 定义 Odeon大数据平 ...

  5. hadoop大数据平台架构之DKhadoop详解

    hadoop大数据平台架构之DKhadoop详解 大数据的时代已经来了,信息的爆炸式增长使得越来越多的行业面临这大量数据需要存储和分析的挑战.Hadoop作为一个开源的分布式并行处理平台,以其高拓展. ...

  6. 软件架构设计原则和大数据平台架构层

    1.软件架构设计的六大原则: 1)"开-闭"原则(OCP) Software entities should be open forextension, but closed fo ...

  7. 大数据平台搭建包含哪些层级

    大数据分析平台的搭建有利于帮助企业构建统一的数据存储和数据处理资源,围绕企业业务开展大数据应用建设,最终形成面向服务化的数据资产.而今天我们就来了解一下,常见的大数据平台都包含哪些层次? 1.数据采集 ...

  8. 初识大数据--Hadoop大数据平台架构与实践

    Hadoop大数据平台架构与实践 推荐书籍: ⭐大数据存储与处理技术的原理(理论) ⭐Hadoop的使用和开发能力(实践) 预备知识: Linux常用命令 Java基础编程 1.大数据相关概念 ​ 无 ...

  9. 《程序员》11月精彩内容:大数据平台架构与技术实践

    本期<程序员>呈现大数据平台架构与技术实践精彩内容,汇聚来自去哪儿.游族网络.链家网.万达金融等公司的技术专家,将带领读者共同探讨热门技术应用和实践优化,深入解析蕴藏的数据价值,展现时下大 ...

最新文章

  1. 2020版北大核心期刊目录_榜单|2020武大版核心期刊RCCSE高职高专成高院校学报类自然科学综合、社会科学综合学科权威、核心及准核心期刊目录...
  2. 07-主队列和全局队列
  3. 近100年来全球20家顶尖公司成功原因揭秘
  4. 从没想到监控可以这么做!阿里云RDS智能诊断系统首次公开
  5. phoenix 使用详细介绍 创建二级索引
  6. linux 关闭自动升级,开启关闭Centos的自动更新(转)
  7. 计算二叉树的叶子结点个数_C++数据结构二叉树统计总结点个数,叶子结点个数,单分支结点个数,双分支结点个数。...
  8. Linux _ Day8 Shell编程之字符截取命令
  9. 含本土测量软件的Q-Vision+Kvaser CAN/CAN FD/LIN总线解决方案
  10. 你最关心的马蜂窝事件舆论全景图在这里,用文本挖掘一挖到底
  11. linux amd显卡调风扇转速,从调软件到改BIOS 显卡帝玩转风扇转速
  12. 兄弟9020cdn提示更换粉盒_兄弟打印机提示更换墨粉盒怎么办
  13. mybatis返回map键值对_Mybatis结果生成键值对
  14. 信道编码中卷积编码器的设计
  15. flutter显示图标_如何自动调整Flutter中的图标大小
  16. 堆排序算法设计与分析
  17. C语言之数组求中位数-封装函数
  18. qq自定义diy名片代码复制_这个QQ技巧厉害了,艾特闪退QQ群表情霸屏无法撤回删除...
  19. oc 管理工具 黑苹果 下载_灵越7590黑苹果(win10下)
  20. 精简指令集(RISC)和复杂指令集(CISC)的区别

热门文章

  1. 如何快速定位到网页中某些内容的代码位置
  2. 关于uni-app入门看完这篇就够了
  3. Linux 下软件包的安装,压缩,解压(详细)
  4. 深入学习Linux摄像头(二)v4l2驱动框架
  5. Qt creator学习笔记(一)认识Qt
  6. 【编程语言】Scala下载及安装教程 CentOS 7
  7. 免费顶级域名.OVH注册申请全过程附成功注册小技
  8. 【java】微信支付生成签名的过程
  9. Android 热点发多播,腾讯体育-中超英超直播(com.tencent.qqsports) - 6.5.21.960 - 应用 - 酷安...
  10. “顺丰杯”包装设计大赛背后的故事:浅谈顺丰的产学研包装生态圈布局