深入了解大数据计算模式
1. 批处理计算
批处理计算主要解决针对大规模数据的批量处理,也是我们日常数据分析工作中非常常见的一类数据处理需求。
MapReduce是最具有代表性和影响力的大数据批处理技术,可以并行执行大规模数据处理任务,用于大规模数据集(大于1 TB)的并行运算。
MapReduce极大地方便了分布式编程工作,它将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了
两个函数——Map和Reduce上,编程人员在不会分布式并行编程的情况下,也可以很容易地将自己的程序运行在分布式系统上,
完成海量数据集的计算。
Spark是一个针对超大数据集合的低延迟的集群分布式计算系统,比MapReduce快许多。
Spark启用了内存分布数据集,除了能够提供交互式查询外,还可以优化迭代工作负载。
在MapReduce中,数据流从一个稳定的来源进行一系列加工处理后,流出到一个稳定的文件系统(如HDFS)。
而对于Spark而言,则使用内存替代HDFS或本地磁盘来存储中间结果,因此Spark要比MapReduce的速度快许多。
2. 流计算
流数据也是大数据分析中的重要数据类型。
流数据(或数据流)是指在时间分布和数量上无限的一系列动态数据集合体,数据的价值随着时间的流逝而降低,因此必须采用实时计算的方式给出秒级响应。
流计算可以实时处理来自不同数据源的、连续到达的流数据,经过实时分析处理,给出有价值的分析结果。
目前业内已涌现出许多的流计算框架与平台,
第一类是商业级的流计算平台,包括IBM InfoSphere Streams和IBM StreamBase等;
第二类是开源流计算框架,包括 Twitter Storm、Yahoo! S4(Simple Scalable Streaming System)、Spark Streaming 等;
第三类是公司为支持自身业务开发的流计算框架,如 Facebook 使用 Puma 和HBase 相结合来处理实时数据,
百度开发了通用实时流数据计算系统 DStream,淘宝开发了通用流数据实时计算系统——银河流数据处理平台。
3. 图计算
在大数据时代,许多大数据都是以大规模图或网络的形式呈现,如社交网络、传染病传播途径、交通事故对路网的影响等,
此外,许多非图结构的大数据也常常会被转换为图模型后再进行处理分析。
MapReduce作为单输入、两阶段、粗粒度数据并行的分布式计算框架,在表达多迭代、稀疏结构和细粒度数据时,往往显得力不从心,不适合用来解决大规模图计算问题。
因此,针对大型图的计算,需要采用图计算模式,目前已经出现了不少相关图计算产品。
Pregel 是一种基于BSP(Bulk Synchronous Parallel)模型实现的并行图处理系统。
为了解决大型图的分布式计算问题,Pregel 搭建了一套可扩展的、有容错机制的平台,该平台提供了一套非常灵活的 API,
可以描述各种各样的图计算。Pregel主要用于图遍历、最短路径、PageRank计算等。
其他代表性的图计算产品还包括 Facebook 针对 Pregel 的开源实现 Giraph、Spark 下的GraphX、图数据处理系统PowerGraph
等。
4. 查询分析计算
针对超大规模数据的存储管理和查询分析,需要提供实时或准实时的响应,才能很好地满足企业经营管理需求。
谷歌公司开发的Dremel是一种可扩展的、交互式的实时查询系统,用于只读嵌套数据的分析。
通过结合多级树状执行过程和列式数据结构,它能做到几秒内完成对万亿张表的聚合查询。
系统可以扩展到成千上万的CPU上,满足谷歌上万用户操作PB级的数据,并且可以在2~3s内完成PB级别数据的查询。
此外,Cloudera公司参考Dremel系统开发了实时查询引擎Impala,它提供SQL语义,能快速查询存储在Hadoop的HDFS和HBase
中的PB级大数据。
参考文献:《大数据原理与应用》第二版
深入了解大数据计算模式相关推荐
- 读书笔记之大数据计算模式
1.大数据计算模式:根据大数据的不同特征和计算特征,从多样性的大数据计算问题和需求中提炼并建立的各种高层抽象或模型,传统的并行计算方法主要从体系结构和编程语言层面定义了一些较为底层的并行计算抽象和模型 ...
- 大数据计算模式:批处理流处理
大数据要实现业务落地的前提,是企业需要搭建起自身的大数据平台,去实现对数据价值的挖掘和应用.根据实际的业务场景需求,不同类型的数据,需要不同的计算处理模式.今天我们就来聊聊批处理和流处理两种大数据计算 ...
- 大数据计算模式有哪些
先总结汇总一下大数据有哪些计算模式: 1. 批处理计算 针对大规模数据的批量处理.主要技术有MapReduce.Spark等 2. 流计算 针对流数据的实时计算处理.主要技术:Storm.Flume. ...
- 大数据计算框架期末复习
1. 下面哪个不是Linux发行版本 (D) A. Ubuntu B. Centos C. RedHat Enterprise Linux D. Mac 6.web方式查看hdfs目录结构 ...
- 华为云大数据存储的冗余方式是三副本_阿里云大数据产品 | 大数据计算
阿里云大数据计算产品包括MaxCompute.E-MapReduce和实时计算(Alibaba Cloud Realtime Compute). 一.MaxCompute 1.MaxCompute概述 ...
- 腾讯 PB 级大数据计算如何做到秒级?
天穹 SuperSQL 是腾讯自研,基于统一的 SQL 语言模型,面向机器学习智能调优,提供虚拟化数据和开放式计算引擎的大数据智能融合平台.在开放融合的 Data Cloud 上,业务方可以消费完整的 ...
- 大数据计算存储资源池_管家实践:轻松玩转大数据计算服务
以下是直播内容精华整理,主要包括以下四个方面: 1.背景速览: 2.功能介绍: 3.案例讲解: 4.新功能预告. 一.背景速览 MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速.完 ...
- 大数据计算平台Spark内核全面解读
1.Spark介绍 Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台,在2010年开源,目前是Apache软件基金会的顶级项目.随着Spark在大数据计算领域的暂露头角,越来越多的 ...
- 大数据计算服务MaxCompute行业开发应用案例
(MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速.完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据.) 大数据计算服务(MaxCompute,原名 ODPS ...
最新文章
- ajax 更新模型数据_PyTorch视觉工具包torchvision重大更新!支持各种检测模型、分割模型,还有许多数据集...
- 微服务发展的历史_Spring Cloud Alibaba#03. 微服务的发展史
- python保存csv_python怎样保存csv文件
- 【嵌入式】C语言高级编程-变参函数(08)
- Docker+Jenkins+Gitlab+Django应用部署实践
- 【转】使用Apache Kylin搭建企业级开源大数据分析平台
- linux uuid错误,Linux 错误:fatal error: uuid/uuid.h: No such file or directory
- 懒加载Lazy Loading
- 循环神经网络系列(二) LSTM 和 GRU
- Linux下载Java包,Linux环境Java包的安装和环境配置
- 各种卫星产品数据总结
- 2022中国汽车品牌魅力指数排名:广汽传祺、吉利、东风风行、荣威位居自主品牌前列 | 美通社头条...
- 并发请求:统计数据收集模式
- 陕西农心邮箱服务器,农心杯朴廷桓超时疑云分析
- 视频画中画制作,一款简单好上手的软件
- Overvoltage category (过电压类别, 过电压等级)
- 基于物理的渲染PBR(二):挑战手写pbr和IBL环境光部分的见解
- CNSD/Echarts图的使用
- Snap--Linux系统下 (Ubuntu)软件包管理工具
- 36岁程序员2023年第一天上班被裁