实时流式计算,也就是RealTime,Streaming,Analyse,在不同的领域有不同的定义,这里我们说的是大数据领域的实时流式计算。

实时流式计算,或者是实时计算,流式计算,在大数据领域都是差不多的概念。那么,到底什么是实时流式计算呢?

谷歌大神Tyler Akidau在《the-world-beyond-batch-streaming-101》一文中提到过实时流式计算的三个特征:

1、无限数据

2、无界数据处理

3、低延迟

无限数据指的是,一种不断增长的,基本上无限的数据集。这些通常被称为“流数据”,而与之相对的是有限的数据集。

无界数据处理,一种持续的数据处理模式,能够通过处理引擎重复的去处理上面的无限数据,是能够突破有限数据处理引擎的瓶颈的。

低延迟,延迟是多少并没有明确的定义。但我们都知道数据的价值将随着时间的流逝降低,时效性将是需要持续解决的问题。

现在大数据应用比较火爆的领域,比如推荐系统在实践之初受技术所限,可能要一分钟,一小时,甚至更久对用户进行推荐,这远远不能满足需要,我们需要更快的完成对数据的处理,而不是进行离线的批处理。

但是这种模型肯定会带来离线批处理所不存在的两个问题:正确性与时间。

而这也正是实时流式计算的关键点:

1、正确性        一旦正确性有了保证,可以匹敌批处理。

2、时间推导工具    而一旦提供了时间推导的工具,变完全超过了批处理。 

总结来说,我们得到的会是一条条的,随着时间流逝不断增长的数据,我们需要进行实时的数据分析,我们要解决大数据量,灾备,时序,时间窗口,性能等等问题。

而实时,流式其实是相对的概念,现在的很多技术更应该说是近实时,微批。但只要能不断的优化这些问题,实时流式的计算的价值就会越来越大。

由于大数据兴起之初,Hadoop并没有给出实时计算解决方案,随后Storm,SparkStreaming,Flink等实时计算框架应运而生,而Kafka,ES的兴起使得实时计算领域的技术越来越完善,而随着物联网,机器学习等技术的推广,实时流式计算将在这些领域得到充分的应用。

下面简单介绍目前常用的几种应用场景,未来将对Kafka,Storm,SparkStreaming,Flink等相关技术做具体介绍。

主要应用

1、日志分析

比如对网站的用户访问日志进行实时的分析,计算访问量,用户画像,留存率等等,实时的进行数据分析,帮助企业进行决策。

2、物联网

比如对电力系统进行实时的数据检测,进行报警,实时的显示,或者根据历史数据进行实时的分析,预测。

3、车联网

如今的车联网已经不限于物联网,还包括对用户,交通等等进行分析的一个庞大的系统,改善用户出行。比如:滴滴大哥

4、金融风控

通过对交易等金融行为实时分析,预测出未知风险。

还有很多应用的领域,而且未来会越来越多,在这个过程中具体的业务,以及与技术结合能产生什么样的价值,还需要不断的探索。

高大上的介绍实时流式计算!相关推荐

  1. Oceanus的实时流式计算实践与优化

    导语 | 随着互联网场景的不断深化发展,业务实时化趋势越来越强,要求也越来越高.特别是在广告推荐.实时大屏监控.实时风控.实时数仓等各业务领域,实时计算已经成为了不可或缺的一环.在大数据技术的不断发展 ...

  2. kafkaStream处理实时流式计算

    目录 1 实时流式计算 1.1 概念 1.2 应用场景 1.3 技术方案选型 2 Kafka Stream 2.1 概述 2.2 Kafka Streams的关键概念 2.3 KStream& ...

  3. JStorm—实时流式计算框架入门介绍

    JStorm介绍   JStorm是参考storm基于Java语言重写的实时流式计算系统框架,做了很多改进.如解决了之前的Storm nimbus节点的单点问题.   JStorm类似于Hadoop ...

  4. 为什么阿里会选择 Flink 作为新一代流式计算引擎?

    本文由 [AI前线]原创,ID:ai-front,原文链接:t.cn/ROISIr3 [AI前线导读]2017 年 10 月 19日,阿里巴巴的高级技术专家王绍翾(花名"大沙")将 ...

  5. Flink系列-1、流式计算简介

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 大数据系列文章目录 官方网址:https://flink.apache.org/ 学习资料:h ...

  6. 流式计算strom,Strom解决的问题,实现实时计算系统要解决那些问题,离线计算是什么,流式计算什么,离线和实时计算区别,strom应用场景,Strorm架构图和编程模型(来自学习资料)

    1.背景-流式计算与storm 2011年在海量数据处理领域,Hadoop是人们津津乐道的技术,Hadoop不仅可以用来存储海量数据,还以用来计算海量数据.因为其高吞吐.高可靠等特点,很多互联网公司都 ...

  7. 实时流式处理平台功能介绍

    作者:赵平 导读:在上一篇Wormhole系列文章中,我们介绍了Wormhole的设计思想,并给出了Stream.UMS.Flow.Namespace等相关概念的具体定义,从文章中我们得知,Wormh ...

  8. TDengine3.0流式计算引擎语法规则介绍

    小 T 导读:TDengine 3.0 引入了全新的流式计算引擎,既支持时间驱动的流式计算,也支持事件驱动的流式计算.本文将对新的流式计算引擎的语法规则进行详细介绍,方便开发者及企业使用. TDeng ...

  9. Storm 流式计算框架介绍

    文章目录 1.Storm简介 1.1 DAG(有向无环图) 1.2 Storm介绍 1.2.1 Storm 简介 1.2.2 Storm的优点 1.2.3 Storm的特性 1.3 Storm与Had ...

最新文章

  1. Python入门100题 | 第065题
  2. php使用mkdir创建多级目录入门例子
  3. Maven的pom.xml文件详解------Environment Settings
  4. apache_fileupload实现文件上传_上传多个文件
  5. [转载] python中svm的使用_Python中支持向量机SVM的使用方法详解
  6. vs code安装使用ESLint,typescript
  7. 要搞懂 volatile 关键字,就靠这 26 张图
  8. CodeForces 980 E The Number Games
  9. XenCenter导出和导入模板
  10. 矩阵快速幂(原理+模板)
  11. 漏洞扫描工具Nessus的下载与安装教程
  12. 大型架构学习——美团猫眼模块化实践
  13. 计算机科学基础word实验一,【实验2】熟悉WORD界面及其基本操作
  14. 基于OSINT的信息收集思路
  15. happen-before是什么
  16. python概率分布拟合_使用曲线拟合在Python中拟合对数正态分布
  17. FrameMaker从零到学习编码
  18. prometheus监控之postgresql
  19. 静态成员函数访问非静态成员
  20. linux shell脚本中打开另一个终端并在新终端中执行shell脚本

热门文章

  1. 2021牛客多校3 - Kuriyama Mirai and Exclusive Or(差分+倍增)
  2. CodeForces - 1491C Pekora and Trampoline(差分+贪心)
  3. CodeForces - 1200E Compress Words(字符串哈希)
  4. 华为杯数学建模优秀论文_数学建模经典例题(2011年国赛A题与优秀论文)
  5. 数据分析与挖掘实战-基于水色图像的水质评价
  6. Lua 元表(Metatable)
  7. 【Boost】boost库中thread多线程详解2——mutex与lock
  8. 第05讲:多路加速,了解多线程基本原理
  9. 深入理解Linux调度子系统
  10. 我对架构设计的5点思考:网关、业务逻辑、数据访问