我们将大数据处理按照时间的跨度要求分为下面几类,从短到长分别是:1.基于实时数据流的数据处理,通常的时间跨度在数百毫秒到数秒之间2.基于历史数据的交互式查询,时间跨度在数十秒到数分钟之间3.复杂的批量数据处理,时间跨度在几分钟到数小时之间5.1 算子算在在数学上可以解释为一个函数监空间到函数空间上的映射O:X->X。对大数据处理框架来说,可以理解为一个基本处理单元,即通常映射到框架的一个函数。使用算子需要指定
输入和输出,算符负责完成对应的数据转换。常见的算子有 Group, Sort,Orderby,Window等。5.2 流的概念Streaming(流)是一种数据传送技术,它把客户机收到的数据变成一个稳定连续的流,源源不断的送出。正是由于数据的传输呈持续不停的形态,所以流引擎需要持续不断的处理数据。
相反,Batch 是处理完一批数据再导入下一批数据。实际上,在实现过程中,根据实时性的要求不同,流也有两种处理方式:一种是以IBM的IBM InfoSphere Streams为代表,一个消息传递过来,立即处理;另一种是 Spark Streaming,
因为Spark 本身把数据放在内存中处理,速度较快,所以处理流的时候以较小的批(Mini-Batch)来模拟流处理,可以轻松应对对实时性要求不是很高的场景。5.3 流的应用场景5.3.1 金融领域流引擎实时计算股价。5.3.2 电信领域电信领域一个常见的样例是质差补偿。5.4 业界两种典型的流引擎5.4.1 StormStorm 是 Twitter 开源的一个分布式实时数据处理系统。Storm 对于实时计算的意义类似于 Hadoop 对于批处理的意义。我们都知道,根据 google MapReduce 来实现的Hadoop为我们提供了 Map,Reduce 原语,使批处理程序变得非常简单和优美。同样,Storm 也为实时计算提供了一些简单,优美的原语。5.4.2 Spark StreamingBDAS 是伯克利大数据处理协议栈,是以Spark为基础的一套软件栈。它利用基于内存的通用计算模型,同时支持Batch,Interactive,Streaming 的处理,且兼容支持HDFS和S3等分布式文件系统,可以部署在YARN和Mesos 等流行的集群资源管理器上。Spark 可以代替MapReduce进行批处理,利用其基于内存的特点,特别擅长迭代式和交互式数据处理;Shark 可以处理大规模数据的sql查询,兼容Hive的HQL。同时利用Spark在内存中的处理速度,以Mini-Batch 的形式模拟 Streaming 的处理,应对对实时性要求不是很高的一般型应用。计算流程:Spark Streaming 用于将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是 Spark。5.4.3 融合框架 批处理和流处理,从业务上看对时间的要求不同,采用了不同的处理技术,所以通常是两套完全不一样的系统,但是往往又有一部分实时和批处理的数据是重叠的。另外,从全系统角度看,过多的系统带来的更太大的维护难度,所以业界一直在探索批处理系统和流处理系统的融合与统一。当前过渡阶段,流行的 Lambda 架构就是流处理和批处理结合的系统。Lambda 架构带来的问题主要是维护两套系统的困难,所以统一的流处理系统是否有可能?未来的流处理能力是否会提高到支持所有场景?Twitter 使用Samza 实现重复 reprocessing 来处理批数据,实现流和批处理的统一,它们将这种架构称作 Kappa Architecture。1.Flink相比Spark,其最主要的特点就是原生流系统,而不是 Spark Streaming 通过 Mini-Batch 模拟流处理。2.Google Cloud Dataflow3.Google Beam&CalciteSpark,Flink,Google Cloud Dataflow 都是在引擎层面统一批流处理,这在短期内很难适应所有场景。另外一个思路是,API层面先统一,统一的API再对接底层多个引擎。Google在Dataflow 的基础上开源了一个Beam 项目,Beam=(B)atch+(Str)eam。Beam处理API层面,而对于SQL,则可以采用Calcite,通过sql统一流式和批量处理。5.5 CEP 5.5.1 CEP是什么 CEP 是流式处理的核心技术。不管是单独的应用系统,还是数据仓库,都是先将数据存储到数据库/数据仓库,然后再处理或查询。而CEP与常见的Message Queue 系统类似,都将数据看做数据流,在联系数据的快速移动过程中进行分析处理。这样的方式不需要很大的数据加载,完全可以在内存中进行,从而能够快速产生结果。业务事件可能很复杂,在各种不同的数据流中源源不断的产生各种类型的事件。不仅需要对这些业务事件进行复杂的计算,如过滤,关联,聚合等,同时还需要考虑这些业务事件出现的时间序列,最终才能产生有意义的事件,或者触发业务流程。注意,这些计算的规则可能还会经常变化。这类问题通常通过基于规则的推理机(规则引擎)来实现。5.5.2 CEP的架构 CEP 在逻辑上应该包含:1.事件发生器通过应用系统,文件系统,数据库,互联网,人工及传感器产生事件2.事件处理器模式的匹配,验证和改进,路由,转换及编排3.事件消费者与事件发生器类似,也可以是应用系统,文件系统,数据库,互联网,人工界面等。CEP 将数据看做是一种数据流,基于规则引擎对业务过程中持续产生的各种事件进行复杂的处理,能够实现对连续数据的快速分析处理。CEP 可以应用在多种业务场景,如风险分析,程序化交易等。如果说BI实现了商业智能,那么CEP则实现了"持续智能"。5.5.3 Esper Esper 是一个开源的CEP实现。Esper 是纯Java开源复杂事件和事件流引擎,可以检测事件流,并在特定事件发生时触发某些动作。Esper 引起是为了满足时间进行分析并做出反应等应用需求而产生的。这些应用需求实时或者接近实时的处理事件(或消息)。这类应用具有高吞吐,低响应延迟和复杂的计算等特点。Esper 引擎的应用有:1.业务处理管理和自动化(处理监控,业务活动监控,异常报告,经营智能化等)2.财务(算法交易,欺诈检测,风险管理)3.网络及应用程序监控【入侵检测,SLA监控】4.传感器网络应用5.Esper  支持类 sql语句 EPL5.6 实时结合机器学习 机器学习主要应用于离线批量数据的处理,现实中也有一些场景需要结合机器学。Eagle 是eBay 开源的一个分布式实时安全监控方案。通过离线训练模型和实时流引擎监控,能立即检测出对敏感数据的访问或者恶意操作。5.6.1 Eagle的特点 5.6.2 Eagle概览 

5.大数据架构详解:从数据获取到深度学习 --- 流处理相关推荐

  1. 大数据架构详解从数据获取到深度学习读书笔记

    我们将大数据按处理时间的跨度要求可以分为以下几类: 1 基于实时数据流的数据处理(streaming Data processing),通常的是假跨度在数百毫秒到数秒之间 2 基于历史数据的交互式查询 ...

  2. 《大数据架构详解:从数据获取到深度学习》第八次重印

    第八次重印: 个人去年十月份出版的<大数据架构详解:从数据获取到深度学习>卖的还不错,京东,当当,亚马逊一直在热销榜上,一直排在前列,榜首常客! 既上个月重印之后,本月又重印了一次,累计八 ...

  3. 《大数据架构详解》一书第16次重印

    又收到编辑寄的样书,看了下<大数据架构详解:从数据获取到深度学习>一书从16年10月出版以来,第16次重印. 京东评价超过2万条: 作者手上有少量全新样书,有想要签名样书的同学可以加作者微 ...

  4. 大数据架构详解:从数据获取到深度学习.pdf

    大数据架构详解:从数据获取到深度学习.pdf ----------------------------- 作者:朱洁,罗华霖 著 出版社: 电子工业出版社 ISBN:9787121300004 版次: ...

  5. 为什么写《大数据架构详解》这本书

    花了差不多一年半时间,牺牲了每个周末,费了九牛二虎之力,终于完成个人人生的第一本书<大数据架构详解:从数据获取到深度学习>.整个过程其实挺痛苦的,时常想放弃,幸好坚持下来了. 回想这我50 ...

  6. 喜大普奔,《大数据架构详解》一书 登陆 当当,京东热卖榜

    2016-11-27 朱洁 大数据和云计算技术 最近加班太多,"江郎才尽了",这周不想写博客了,休息下. 讲点高兴的事情,我的新书<大数据架构详解>登陆当当,京东热卖榜 ...

  7. 《大数据架构详解》一书再版意见征集

    <大数据架构详解:从数据获取到深度学习>这本书从2016年10月出版以来,一直在重印,早就超过3万本,在大数据和云计算专业领域里面卖的还可以的,多谢各位读者和朋友们的厚爱.对大数据技术有学 ...

  8. 《大数据架构详解》读后感

    <大数据架构详解> -- 读后感 作者:朱洁 罗华霖 出版商:中国工信出版社 电子工业出版社 版次:2016年10月第1版 印数:7001 ~ 12000册 定价:69.00元 本书花了大 ...

  9. 大数据架构详解学习笔记

    读书笔记 书名<大数据结构详解–从数据获取到深度学习>,作者:朱洁 罗华霖 运营商大数据平台架构 数据获取方法 感兴趣章节 6.2.3 Linux 系统调优原理 关于虚拟内存部分新了解的一 ...

  10. 2.大数据架构详解:从数据获取到深度学习 --- 运营商大数据架构

    第2章 运营商大数据架构 2.1 架构驱动的因素 运营商面临着被管道化,营收下滑,大数据项目承担企业战略转型,数据变现的使命.互联网企业的大数据往往是承担业务创新,未来探索的一种驱动因素,所以对于架构 ...

最新文章

  1. ATP - UI 自动化测试用例管理平台搭建
  2. RTEMS 4.9.4 bootcard.c 中的 boot_card 函数分析
  3. 2019CCF自主可控计算机大会召开 中科院院士吁自力更生
  4. python学习笔记(五岁以下儿童)深深浅浅的副本复印件,文件和文件夹
  5. php答题评分,Thinkphp 答题 评语
  6. 内存池和tcmalloc的性能比较
  7. tableView里选中一行cell其它不选中的方法
  8. 从零开始学习音视频编程技术(四) FFMPEG的使用
  9. python离线安装tensorflow_TensorFlow 在Linux系统下离线安装
  10. 支付宝、财付通、网银、百度钱包、京东钱包接口费率
  11. mac 重置 Mac 上的 NVRAM 或 PRAM
  12. Git克隆、拉取最新代码、上传代码到远程仓库
  13. python迭代器与生成器答案,彻底搞懂python 迭代器和生成器
  14. 浏览器主页被篡改怎么办
  15. python画笔颜色_Python画图 plt.plot()函数细节颜色字符,风格字符,和标记字符
  16. Deepin 系统没有 Times New Roman 等微软字体
  17. 信号量sem_wait()函数的学习
  18. jQuery事件总结(二)
  19. Database-3:SQL语句之DQL
  20. 那些与耐克“作对”的品牌现在怎么样了

热门文章

  1. es6箭头函数内部判断
  2. 数据结构(十七)数组和矩阵
  3. Python全栈之路--Django ORM详解
  4. Java的switch是否支持String作为参数,还支持哪些类型?
  5. Eclipse快捷键(转载)
  6. php mssql 分页SQL语句优化 持续影响
  7. 理解 LSTM 及其图示
  8. 统计挖掘那些事(八)—— 分层抽样与交叉验证
  9. 银行剧震!国内第一家无人银行来了...
  10. 程序员级别,你到哪一级?