实时大数据处理框架:挑战与解决方案

  • 0、引言
  • 1 数据收集
    • 1.1、⼴泛的异构性
    • 1.2、数据质量保障
  • 2、 数据分析
    • 2.1、数据处理的时效性
    • 2.2、动态环境下的索引设计
  • 3 数据安全
    • 3.1、暴露隐藏数据
    • 3.2、数据泄露与隐私保护相冲突
  • 4、实时⼤数据处理real-time big data processing (RTDP)框架
    • 4.1、Data
    • 4.2、Analytics
    • 4.3、Integration
    • 4.4、Decision
  • 5未来的研究方向
  • 【参考文献】

原创申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址
全文共计4895字,阅读大概需要3分钟
欢迎关注我的个人公众号:不懂开发的程序猿

0、引言

⼤数据与实时⼤数据的区别与挑战: 实时⼤数据除了具备⼤数据的所有特点外,还有⾃⼰的特点。与⼤数据相⽐,在数据集成⽅⾯,实时⼤数据在数据采集设备、数据分析⼯具、数据安全等⽅⾯有着更⾼的要求。
下⾯从数据收集、数据分析、数据安全、数据管理和对标等⽅⾯进行分析。

1 数据收集

1.1、⼴泛的异构性

在处理处理异构时,⼤数据系统可以使⽤ NoSQL 技术和其他新的 存储⽅式,例如 Hadoop HDFS。但这种存储技术对实时性要求不⾼, 数据往往存储⼀次,读取多次。然⽽这种存储技术远远不能满⾜需要数据的实时⼤数据系统的需求。

1.2、数据质量保障

⼤数 据的数据质量有两个问题:如何管理海量数据,如何清洗。在清洗过程中,如果清洗粒度太⼩,很容易过滤掉有⽤的信息;如果清洗粒度太粗,就达不到真正的清洗效果。所以在数量和质量之间需要仔细 考虑和权衡,这在实时⼤数据系统中更为明显。⼀⽅⾯,它要求系统在很短的时间内同步数据;另⼀⽅⾯,也要求系统实时对数据做出 快速响应。对数据传输速度和数据分析的性能要求越来越⾼。
因此,如何把握数据之间的相关性,准确判断数据的有⽤性和有效性,就成为⼀个严峻的挑战。

2、 数据分析

2.1、数据处理的时效性

在实时数据系统中,对时间的要求更⾼。随着时间的推移,数据中包含的知识价值也 在衰减。。实时⼤数据时代 对数据处理的时间线提出了新的更⾼的要求,主要体现在数据处 理模式的选择和改进上。实时数据处理模式主要包括三种模式:流模式、批处理模式和⼆合⼀混合处理模式。

2.2、动态环境下的索引设计

⽬前的解决⽅案基本上是通过NoSQL数据库建⽴索引来解决这个问题,但是已经⽆法满⾜⼤数据实时处理的需求

3 数据安全

3.1、暴露隐藏数据

在实时⼤数据处理中,如何保证数据处理的速度和数据的安全性?

3.2、数据泄露与隐私保护相冲突

如何保证数据隐私与数据公开之间的平衡,是⽬前研究和应⽤中的⼀个难点和热点问题。
MapReduce 提供了⼀种⾼级编程模型,通过简单的编程接⼝⽀持并行处理可划分的⼤规模数据,并为程序员提供了阻塞任务调度、数据存储和传输等细节,编程粒度更⾼。

4、实时⼤数据处理real-time big data processing (RTDP)框架

本⽂根据实时⼤数据处理系统对计算能力和时效性的要求,从功能层⾯将RTDP(Real-Time Data Processing)框架划分为Data、 Analytics、Integration和Decision四个层次。

4.1、Data

该层主要负责数据的收集和存储,也包括数据清洗和⼀些简单的数 据分析,为Analytics准备数据。在数据采集终端,需要对所有终端进行管理。
⼤数据分析⾸先需要解决的问题是⾼速数据流管理的数据采集侧数据预处理和数据流控制。论文【Adaptive data stream management system using learning automata】提出了⼀种⾃适应海量实时 数据流管理系统根据数据流向和数据分发节点预处理任务,如图6所⽰

论文【Real-Time Processing for High Speed Data Stream over Large Scale Data】提出了⼀种⼤规模的⾼速数据流实时数据处理⽅法 RTMR(实时 MapReduce)。但是,这种⽅法仍然存在⼀些挑战:如何有效利⽤CPU的处理能力;如何⽀持本地存储⾼并发访问的中间结果。为了解决上述问题,本⽂在【Adaptive data stream management system using learning automata】提出⾃适应海量实时数据流基于逻辑组合的管理系统基于底层的管理适配器(LMA)动态管理的传感器数据处理模式和控制,包括适配器逻辑规则引擎,验证器和执行器三部分,

Hadoop⾸先需要解决框架内的实时问题建议 RTDP 使⽤多级存储架构解决问题,其架构如图8所⽰

4.2、Analytics

这⼀层是RTDP系统的核⼼,是决定RTDP系统性能的关键层。该层 主要负责数据结构建模、数据清洗等数据分析处理,为算法集成层准备数据。
为保证RTDP系统的灵活性和即时性,本⽂将RTDP帧中的任务按照时间要求优先控制,时延要求最低的任务优先级最⾼,并且可以在实时过程中调整优先级。因此系统分为三个模块:数据存储系统、分析计算系统和订货系统。数据存储系统主要采⽤多级存储系统各种存储⽅式,解析计算系统包括多个RTDP算法包,排序系统任务排序部分。 系统结构如图10所⽰。

MapReduce 集群中,数据以⽂件的形式存储在各个节点上,⽽在实时 ⼤数据系统中,数据来⾃不同的异构终端,并且是实时传输的。另⼀⽅⾯, 由于数据源终端异质性导致的实时数据中的数据匹配问题⾮常严重,在 MapReduce中键值对相对稳定。为了解决这些问题,An open, flexible and multilevel data storing and processing platform for very large scale sensor network提出了⼀种适⽤于实时⼤数据的改进 MapReduce 模型,如图 11 所⽰

4.3、Integration

该层在 RTDP 系统中起着连接作⽤。在这⼀层,它结合了许多常⽤的数 据处理算法包。根据场景调⽤合适的算法进行数据分析和数据展⽰,为分析 层提供技术⽀持,同时为决策层提供决策⽀持和理论依据。同时该层还需要 根据设置的规则识别数据采集层中的设备并部署应⽤程序。
现在⼴泛应⽤于各种⽹络的QoS技术,并不⾜以保证RTDP的实时性、⾼可靠性要求。 RTDP⽹络QoS问题的难点来⾃于RTDP具有 的固有特点:RTDP⽹络是⼀个复杂的、异构的融合⽹络; RTDP 在针 对海量数据处理和 RTDP ⼴泛存在的⼤量动态系统中,存在不确定性 的 RTDP ⽹络 QoS 问题有待认真系统地研究,为实现 RTDP 融合异 构⽹络 QoS,
还需要解决以下问题:
(1)如何获得满⾜应⽤程序的QoS请求的QoS路由计算所需的信息。
(2)如何构建满⾜QoS请求的路径。
(3)如何保持路径设置最短,需要⼀个统⼀ 的框架来满⾜复杂⽹络环境、各类RTDP应⽤的QoS要求。

4.4、Decision

根据数据分析结果进行决策,是数据处理系统的最⾼层,也是数据分析过程的最终⽬标。
决策⽀持是数据分析的最终⽬标,决策⽀持部分需要使⽤⼤量的可视化⼯ 具对数据分析结果进行不同维度的展⽰。数据呈现形式包括商业智能系统、 桌⾯办公系统和移动终端系统等。使⽤的⼯具包括数据仓库系统和图形处理 ⼯具。

5未来的研究方向

提出了未来RTDP系统的基本框架和基本处理模式,但仍有许多问题需要进⼀步研究。要点如下:

  1. 如何确定RTDP系统中合适的计算模式,如何确定数据处理模式和途径是决定系统性能的关键因素
  2. 如何保证数据处理的正确性。错误检测机制和⾃动修复⻓期以来⼀直是研究的难点,如何处理数据检测和错误诊断以及系统修复是⼀个巨⼤的⼯程。

【参考文献】

[1] Fernandes G, Rodrigues J J P C, Carvalho L F, et al. A comprehensive survey on network anomaly detection[J]. Telecommunication Systems, 2019, 70(3): 447-489.

[2] Mohamed N, Al-Jaroodi J. Real-time big data analytics: Applications and challenges[C]//2014 international conference on high performance computing & simulation (HPCS). IEEE, 2014: 305-310.
[3] Bifet A. Mining big data in real time[J]. informatica, 2013, 37(1).

[4] Zheng Z, Wang P, Liu J, et al. Real-time big data processing framework: challenges and solutions[J]. Applied Mathematics & Information Sciences, 2015, 9(6): 3169.

[5] Yadranjiaghdam B, Pool N, Tabrizi N. A survey on real-time big data analytics: applications and tools[C]//2016 international conference on computational science and computational intelligence (CSCI). IEEE, 2016: 404-409.

[6] Yang W, Liu X, Zhang L, et al. Big data real-time processing based on storm[C]//2013 12th IEEE international conference on trust, security and privacy in computing and communications. IEEE, 2013: 1784-1787.

[7] Liu X, Iftikhar N, Xie X. Survey of real-time processing systems for big data[C]//Proceedings of the 18th International Database Engineering & Applications Symposium. 2014: 356-361.

[8] Gurusamy V, Kannan S, Nandhini K. The real time big data processing framework: Advantages and limitations[J]. International Journal of Computer Sciences and Engineering, 2017, 5(12): 305-312.

[9] Sanla A, Numnonda T. A comparative performance of real-time big data analytic architectures[C]//2019 IEEE 9th International Conference on Electronics Information and Emergency Communication (ICEIEC). IEEE, 2019: 1-5.

实时大数据处理real-time big data processing (RTDP)框架:挑战与解决方案相关推荐

  1. 用于实时大数据处理的Lambda架构

    1.Lambda架构背景介绍 Lambda架构是由Storm的作者Nathan Marz提出的一个实时大数据处理框架.Marz在Twitter工作期间开发了著名的实时大数据处理框架Storm,Lamb ...

  2. 基于SparkStreaming的实时大数据处理平台

    基于SparkStreaming的实时大数据处理平台 文章目录 基于SparkStreaming的实时大数据处理平台 1.平台组件介绍 1.1 kafka消息队列 1.2 SparkStreaming ...

  3. 笔记整理:数据处理方式Data Processing

    1.批处理Batch Processing 定义:将任务成批地提交给系统,由系统自动完成后再输出结果. 举个例子,住在UIC新小镇的人去旧小镇上课,学校没造诺亚方舟,没办法哗啦一下送过去,只能用几辆大 ...

  4. 《大数据处理平台》(宋杰著)读书笔记

    写在前面 大数据的核心问题就是如何从海量数据中有效地获取信息以进行分析和决策,解决这一问题需要大数据处理平台的支持. <大数据处理平台>一书从数据查询.数据分析和迭代计算平台三个方面对大数 ...

  5. Java大数据处理的流行框架

    大数据挑战 在公司需要处理不断增长的数据量的各个领域中,对大数据的概念有不同的理解. 在大多数这些情况下,需要以某种方式设计所考虑的系统,以便能够处理该数据,而不会随着数据大小的增加而牺牲吞吐量. 从 ...

  6. 下一代大数据处理引擎,阿里云实时计算独享模式重磅发布

    11月14日,阿里云重磅发布了实时计算独享模式,即用户独享一部分物理资源,这部分资源在网络/磁盘/CPU/内存等资源上跟其他用户完全独立,是实时计算在原有共享模式基础上的重大升级. 独享模式优点更加突 ...

  7. 下一代大数据处理引擎,阿里云实时计算独享模式重磅发布 1

    摘要: 11月14日,阿里云重磅发布了实时计算独享模式,即用户独享一部分物理资源,这部分资源在网络/磁盘/CPU/内存等资源上跟其他用户完全独立,是实时计算在原有共享模式基础上的重大升级.(观看实时计 ...

  8. 想学大数据?大数据处理的开源框架推荐

    欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 本文讨论大数据处理生态系统和相关的架构栈,包括对适应于不同任务的多种框架特性的调研.除此之外,文章还从多个层次对框架进行深入研究,如存储,资 ...

  9. 《大数据》专题征文:国产环境下的大数据处理系统

    点击上方蓝字关注我们 <大数据>专题征文:国产环境下的大数据处理系统 (截稿时间:2021年5月31日) 目前,我国在一些前沿领域开始进入并跑.领跑阶段,但仍然面临很多"卡脖子& ...

最新文章

  1. 011_Raphael常用方法
  2. 一道面试题引发的对JavaScript类型转换的思考
  3. 下拉加载 实现 java_[Java教程]iscroll5实现一个下拉刷新上拉加载的效果
  4. JS学习笔记:防止发生命名冲突
  5. 如果发现服务器负载压力大可以看以下的日志
  6. mysql事务和锁InnoDB(转)
  7. Linux 在不重启的情况下识别新挂载的磁盘
  8. easyui datagrid reload后自动全选解决
  9. poj 2065 SETI(gauss---≡)
  10. openssl生成key和pem文件
  11. 泰信科技携手浙大建高校IT运维平台
  12. 刀刀漫画合集(共享PDF,RAR,UMD版本和语录)
  13. java序列化的接口为什么是空的?
  14. ViewPager标签栏滑条
  15. RTMP转HTTP-FLV视频流web端应用流程记录
  16. ubuntu 查询uuid_ubuntu
  17. c++实现三国杀小游戏
  18. 目标检测txt转xml
  19. 解锁scott用户,以及查看oracle中scott用户所拥有的四张表。
  20. 用Universe Sandbox模拟引力弹弓(地球+木星)

热门文章

  1. java-POI的Excel默认字体和样式
  2. Python 为什么不支持 switch 语句?
  3. CentOS挂载3T硬盘的方法
  4. 用Java爬虫爬取凤凰财经提供的沪深A股所有股票代号名称
  5. 【GameMaker】加速Runtime下载
  6. Android:修改电池容量
  7. 【转】关于usr/bin/ld: cannot find -lxxx问题总结
  8. 实践 基于Arduino 的 平衡车
  9. oracle 自动异地备份,实现Oracle异地数据自动备份方案 | 学步园
  10. 锦城学院计算机系考研,考研心得分享