5.大数据架构详解：从数据获取到深度学习 --- 流处理

我们将大数据处理按照时间的跨度要求分为下面几类，从短到长分别是：1.基于实时数据流的数据处理，通常的时间跨度在数百毫秒到数秒之间2.基于历史数据的交互式查询，时间跨度在数十秒到数分钟之间3.复杂的批量数据处理，时间跨度在几分钟到数小时之间5.1 算子算在在数学上可以解释为一个函数监空间到函数空间上的映射O:X->X。对大数据处理框架来说，可以理解为一个基本处理单元，即通常映射到框架的一个函数。使用算子需要指定
输入和输出，算符负责完成对应的数据转换。常见的算子有 Group, Sort,Orderby,Window等。5.2 流的概念Streaming(流)是一种数据传送技术，它把客户机收到的数据变成一个稳定连续的流，源源不断的送出。正是由于数据的传输呈持续不停的形态，所以流引擎需要持续不断的处理数据。
相反，Batch 是处理完一批数据再导入下一批数据。实际上，在实现过程中，根据实时性的要求不同，流也有两种处理方式：一种是以IBM的IBM InfoSphere Streams为代表，一个消息传递过来，立即处理；另一种是 Spark Streaming，
因为Spark 本身把数据放在内存中处理，速度较快，所以处理流的时候以较小的批(Mini-Batch)来模拟流处理，可以轻松应对对实时性要求不是很高的场景。5.3 流的应用场景5.3.1 金融领域流引擎实时计算股价。5.3.2 电信领域电信领域一个常见的样例是质差补偿。5.4 业界两种典型的流引擎5.4.1 StormStorm 是 Twitter 开源的一个分布式实时数据处理系统。Storm 对于实时计算的意义类似于 Hadoop 对于批处理的意义。我们都知道，根据 google MapReduce 来实现的Hadoop为我们提供了 Map,Reduce 原语，使批处理程序变得非常简单和优美。同样，Storm 也为实时计算提供了一些简单，优美的原语。5.4.2 Spark StreamingBDAS 是伯克利大数据处理协议栈，是以Spark为基础的一套软件栈。它利用基于内存的通用计算模型，同时支持Batch,Interactive,Streaming 的处理，且兼容支持HDFS和S3等分布式文件系统，可以部署在YARN和Mesos 等流行的集群资源管理器上。Spark 可以代替MapReduce进行批处理，利用其基于内存的特点，特别擅长迭代式和交互式数据处理；Shark 可以处理大规模数据的sql查询，兼容Hive的HQL。同时利用Spark在内存中的处理速度，以Mini-Batch 的形式模拟 Streaming 的处理，应对对实时性要求不是很高的一般型应用。计算流程：Spark Streaming 用于将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是 Spark。5.4.3 融合框架 批处理和流处理，从业务上看对时间的要求不同，采用了不同的处理技术，所以通常是两套完全不一样的系统，但是往往又有一部分实时和批处理的数据是重叠的。另外，从全系统角度看，过多的系统带来的更太大的维护难度，所以业界一直在探索批处理系统和流处理系统的融合与统一。当前过渡阶段，流行的 Lambda 架构就是流处理和批处理结合的系统。Lambda 架构带来的问题主要是维护两套系统的困难，所以统一的流处理系统是否有可能？未来的流处理能力是否会提高到支持所有场景？Twitter 使用Samza 实现重复 reprocessing 来处理批数据，实现流和批处理的统一，它们将这种架构称作 Kappa Architecture。1.Flink相比Spark，其最主要的特点就是原生流系统，而不是 Spark Streaming 通过 Mini-Batch 模拟流处理。2.Google Cloud Dataflow3.Google Beam&CalciteSpark,Flink,Google Cloud Dataflow 都是在引擎层面统一批流处理，这在短期内很难适应所有场景。另外一个思路是，API层面先统一，统一的API再对接底层多个引擎。Google在Dataflow 的基础上开源了一个Beam 项目，Beam=(B)atch+(Str)eam。Beam处理API层面，而对于SQL,则可以采用Calcite，通过sql统一流式和批量处理。5.5 CEP 5.5.1 CEP是什么 CEP 是流式处理的核心技术。不管是单独的应用系统，还是数据仓库，都是先将数据存储到数据库/数据仓库，然后再处理或查询。而CEP与常见的Message Queue 系统类似，都将数据看做数据流，在联系数据的快速移动过程中进行分析处理。这样的方式不需要很大的数据加载，完全可以在内存中进行，从而能够快速产生结果。业务事件可能很复杂，在各种不同的数据流中源源不断的产生各种类型的事件。不仅需要对这些业务事件进行复杂的计算，如过滤，关联，聚合等，同时还需要考虑这些业务事件出现的时间序列，最终才能产生有意义的事件，或者触发业务流程。注意，这些计算的规则可能还会经常变化。这类问题通常通过基于规则的推理机(规则引擎)来实现。5.5.2 CEP的架构 CEP 在逻辑上应该包含：1.事件发生器通过应用系统，文件系统，数据库，互联网，人工及传感器产生事件2.事件处理器模式的匹配，验证和改进，路由，转换及编排3.事件消费者与事件发生器类似，也可以是应用系统，文件系统，数据库，互联网，人工界面等。CEP 将数据看做是一种数据流，基于规则引擎对业务过程中持续产生的各种事件进行复杂的处理，能够实现对连续数据的快速分析处理。CEP 可以应用在多种业务场景，如风险分析，程序化交易等。如果说BI实现了商业智能，那么CEP则实现了"持续智能"。5.5.3 Esper Esper 是一个开源的CEP实现。Esper 是纯Java开源复杂事件和事件流引擎，可以检测事件流，并在特定事件发生时触发某些动作。Esper 引起是为了满足时间进行分析并做出反应等应用需求而产生的。这些应用需求实时或者接近实时的处理事件(或消息)。这类应用具有高吞吐，低响应延迟和复杂的计算等特点。Esper 引擎的应用有：1.业务处理管理和自动化(处理监控，业务活动监控，异常报告，经营智能化等)2.财务(算法交易，欺诈检测，风险管理)3.网络及应用程序监控【入侵检测，SLA监控】4.传感器网络应用5.Esper  支持类 sql语句 EPL5.6 实时结合机器学习 机器学习主要应用于离线批量数据的处理，现实中也有一些场景需要结合机器学。Eagle 是eBay 开源的一个分布式实时安全监控方案。通过离线训练模型和实时流引擎监控，能立即检测出对敏感数据的访问或者恶意操作。5.6.1 Eagle的特点 5.6.2 Eagle概览

5.大数据架构详解：从数据获取到深度学习 --- 流处理相关推荐

大数据架构详解从数据获取到深度学习读书笔记
我们将大数据按处理时间的跨度要求可以分为以下几类: 1 基于实时数据流的数据处理(streaming Data processing),通常的是假跨度在数百毫秒到数秒之间 2 基于历史数据的交互式查询 ...
《大数据架构详解：从数据获取到深度学习》第八次重印
第八次重印: 个人去年十月份出版的<大数据架构详解:从数据获取到深度学习>卖的还不错,京东,当当,亚马逊一直在热销榜上,一直排在前列,榜首常客! 既上个月重印之后,本月又重印了一次,累计八 ...
《大数据架构详解》一书第16次重印
又收到编辑寄的样书,看了下<大数据架构详解:从数据获取到深度学习>一书从16年10月出版以来,第16次重印. 京东评价超过2万条: 作者手上有少量全新样书,有想要签名样书的同学可以加作者微 ...
大数据架构详解：从数据获取到深度学习.pdf
大数据架构详解:从数据获取到深度学习.pdf ----------------------------- 作者:朱洁,罗华霖著出版社: 电子工业出版社 ISBN:9787121300004 版次: ...
为什么写《大数据架构详解》这本书
花了差不多一年半时间,牺牲了每个周末,费了九牛二虎之力,终于完成个人人生的第一本书<大数据架构详解:从数据获取到深度学习>.整个过程其实挺痛苦的,时常想放弃,幸好坚持下来了. 回想这我50 ...
喜大普奔，《大数据架构详解》一书登陆当当，京东热卖榜
2016-11-27 朱洁大数据和云计算技术最近加班太多,"江郎才尽了",这周不想写博客了,休息下. 讲点高兴的事情,我的新书<大数据架构详解>登陆当当,京东热卖榜 ...
《大数据架构详解》一书再版意见征集
<大数据架构详解:从数据获取到深度学习>这本书从2016年10月出版以来,一直在重印,早就超过3万本,在大数据和云计算专业领域里面卖的还可以的,多谢各位读者和朋友们的厚爱.对大数据技术有学 ...
《大数据架构详解》读后感
<大数据架构详解> -- 读后感作者:朱洁罗华霖出版商:中国工信出版社电子工业出版社版次:2016年10月第1版印数:7001 ~ 12000册定价:69.00元本书花了大 ...
大数据架构详解学习笔记
读书笔记书名<大数据结构详解–从数据获取到深度学习>,作者:朱洁罗华霖运营商大数据平台架构数据获取方法感兴趣章节 6.2.3 Linux 系统调优原理关于虚拟内存部分新了解的一 ...
2.大数据架构详解：从数据获取到深度学习 --- 运营商大数据架构
第2章运营商大数据架构 2.1 架构驱动的因素运营商面临着被管道化,营收下滑,大数据项目承担企业战略转型,数据变现的使命.互联网企业的大数据往往是承担业务创新,未来探索的一种驱动因素,所以对于架构 ...

5.大数据架构详解：从数据获取到深度学习 --- 流处理

5.大数据架构详解：从数据获取到深度学习 --- 流处理相关推荐

最新文章

热门文章