高大上的介绍实时流式计算!
实时流式计算,也就是RealTime,Streaming,Analyse,在不同的领域有不同的定义,这里我们说的是大数据领域的实时流式计算。
实时流式计算,或者是实时计算,流式计算,在大数据领域都是差不多的概念。那么,到底什么是实时流式计算呢?
谷歌大神Tyler Akidau在《the-world-beyond-batch-streaming-101》一文中提到过实时流式计算的三个特征:
1、无限数据
2、无界数据处理
3、低延迟
无限数据指的是,一种不断增长的,基本上无限的数据集。这些通常被称为“流数据”,而与之相对的是有限的数据集。
无界数据处理,一种持续的数据处理模式,能够通过处理引擎重复的去处理上面的无限数据,是能够突破有限数据处理引擎的瓶颈的。
低延迟,延迟是多少并没有明确的定义。但我们都知道数据的价值将随着时间的流逝降低,时效性将是需要持续解决的问题。
现在大数据应用比较火爆的领域,比如推荐系统在实践之初受技术所限,可能要一分钟,一小时,甚至更久对用户进行推荐,这远远不能满足需要,我们需要更快的完成对数据的处理,而不是进行离线的批处理。
但是这种模型肯定会带来离线批处理所不存在的两个问题:正确性与时间。
而这也正是实时流式计算的关键点:
1、正确性 一旦正确性有了保证,可以匹敌批处理。
2、时间推导工具 而一旦提供了时间推导的工具,变完全超过了批处理。
总结来说,我们得到的会是一条条的,随着时间流逝不断增长的数据,我们需要进行实时的数据分析,我们要解决大数据量,灾备,时序,时间窗口,性能等等问题。
而实时,流式其实是相对的概念,现在的很多技术更应该说是近实时,微批。但只要能不断的优化这些问题,实时流式的计算的价值就会越来越大。
由于大数据兴起之初,Hadoop并没有给出实时计算解决方案,随后Storm,SparkStreaming,Flink等实时计算框架应运而生,而Kafka,ES的兴起使得实时计算领域的技术越来越完善,而随着物联网,机器学习等技术的推广,实时流式计算将在这些领域得到充分的应用。
下面简单介绍目前常用的几种应用场景,未来将对Kafka,Storm,SparkStreaming,Flink等相关技术做具体介绍。
主要应用
1、日志分析
比如对网站的用户访问日志进行实时的分析,计算访问量,用户画像,留存率等等,实时的进行数据分析,帮助企业进行决策。
2、物联网
比如对电力系统进行实时的数据检测,进行报警,实时的显示,或者根据历史数据进行实时的分析,预测。
3、车联网
如今的车联网已经不限于物联网,还包括对用户,交通等等进行分析的一个庞大的系统,改善用户出行。比如:滴滴大哥
4、金融风控
通过对交易等金融行为实时分析,预测出未知风险。
还有很多应用的领域,而且未来会越来越多,在这个过程中具体的业务,以及与技术结合能产生什么样的价值,还需要不断的探索。
高大上的介绍实时流式计算!相关推荐
- Oceanus的实时流式计算实践与优化
导语 | 随着互联网场景的不断深化发展,业务实时化趋势越来越强,要求也越来越高.特别是在广告推荐.实时大屏监控.实时风控.实时数仓等各业务领域,实时计算已经成为了不可或缺的一环.在大数据技术的不断发展 ...
- kafkaStream处理实时流式计算
目录 1 实时流式计算 1.1 概念 1.2 应用场景 1.3 技术方案选型 2 Kafka Stream 2.1 概述 2.2 Kafka Streams的关键概念 2.3 KStream& ...
- JStorm—实时流式计算框架入门介绍
JStorm介绍 JStorm是参考storm基于Java语言重写的实时流式计算系统框架,做了很多改进.如解决了之前的Storm nimbus节点的单点问题. JStorm类似于Hadoop ...
- 为什么阿里会选择 Flink 作为新一代流式计算引擎?
本文由 [AI前线]原创,ID:ai-front,原文链接:t.cn/ROISIr3 [AI前线导读]2017 年 10 月 19日,阿里巴巴的高级技术专家王绍翾(花名"大沙")将 ...
- Flink系列-1、流式计算简介
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 大数据系列文章目录 官方网址:https://flink.apache.org/ 学习资料:h ...
- 流式计算strom,Strom解决的问题,实现实时计算系统要解决那些问题,离线计算是什么,流式计算什么,离线和实时计算区别,strom应用场景,Strorm架构图和编程模型(来自学习资料)
1.背景-流式计算与storm 2011年在海量数据处理领域,Hadoop是人们津津乐道的技术,Hadoop不仅可以用来存储海量数据,还以用来计算海量数据.因为其高吞吐.高可靠等特点,很多互联网公司都 ...
- 实时流式处理平台功能介绍
作者:赵平 导读:在上一篇Wormhole系列文章中,我们介绍了Wormhole的设计思想,并给出了Stream.UMS.Flow.Namespace等相关概念的具体定义,从文章中我们得知,Wormh ...
- TDengine3.0流式计算引擎语法规则介绍
小 T 导读:TDengine 3.0 引入了全新的流式计算引擎,既支持时间驱动的流式计算,也支持事件驱动的流式计算.本文将对新的流式计算引擎的语法规则进行详细介绍,方便开发者及企业使用. TDeng ...
- Storm 流式计算框架介绍
文章目录 1.Storm简介 1.1 DAG(有向无环图) 1.2 Storm介绍 1.2.1 Storm 简介 1.2.2 Storm的优点 1.2.3 Storm的特性 1.3 Storm与Had ...
最新文章
- Python入门100题 | 第065题
- php使用mkdir创建多级目录入门例子
- Maven的pom.xml文件详解------Environment Settings
- apache_fileupload实现文件上传_上传多个文件
- [转载] python中svm的使用_Python中支持向量机SVM的使用方法详解
- vs code安装使用ESLint,typescript
- 要搞懂 volatile 关键字,就靠这 26 张图
- CodeForces 980 E The Number Games
- XenCenter导出和导入模板
- 矩阵快速幂(原理+模板)
- 漏洞扫描工具Nessus的下载与安装教程
- 大型架构学习——美团猫眼模块化实践
- 计算机科学基础word实验一,【实验2】熟悉WORD界面及其基本操作
- 基于OSINT的信息收集思路
- happen-before是什么
- python概率分布拟合_使用曲线拟合在Python中拟合对数正态分布
- FrameMaker从零到学习编码
- prometheus监控之postgresql
- 静态成员函数访问非静态成员
- linux shell脚本中打开另一个终端并在新终端中执行shell脚本
热门文章
- 2021牛客多校3 - Kuriyama Mirai and Exclusive Or(差分+倍增)
- CodeForces - 1491C Pekora and Trampoline(差分+贪心)
- CodeForces - 1200E Compress Words(字符串哈希)
- 华为杯数学建模优秀论文_数学建模经典例题(2011年国赛A题与优秀论文)
- 数据分析与挖掘实战-基于水色图像的水质评价
- Lua 元表(Metatable)
- 【Boost】boost库中thread多线程详解2——mutex与lock
- 第05讲:多路加速,了解多线程基本原理
- 深入理解Linux调度子系统
- 我对架构设计的5点思考:网关、业务逻辑、数据访问