大数据本质上是多个信息系统产生的数据汇聚、融合。他表示,当前我国大数据发展已进入到以数据深度挖掘、融合应用为特征的智能化阶段,大数据的价值和意义正在凸显。

  大数据平台目前存在的问题

  目前绝大多数大数据平台都是基于Hadoop生态,使用Yarn作为核心组件来进行资源管理和调度。但这样的平台普遍存在如下问题:

  (1)资源弹性不足,无法按需自动扩容。大数据系统资源的高峰往往具有明显的周期性。例如实时计算资源消耗主要在白天。离线分析中,日报型的计算任务资源的高峰一般在22:00以后。周报和月报型的计算任务业务高峰往往也是在一个固定的时间点。并且离线计算有时还有突发的计算任务,例如需要对历史数据做一个统计。目前的大数据系统普遍缺乏资源的弹性,无法按需进行快速扩容,为了应对业务高峰和突发的计算任务只能预留出足够多的资源来保证任务能够正常响应。

  (2)资源利用率低。日志留存和流量清单等存储密集型的业务CPU使用率长期小于30%。而计算类的业务虽然CPU消耗很高,但是存储的资源使用率小于20%。大量资源闲置。并且考虑在线业务往往在低峰期会有大量的资源闲置。这些资源其实离线计算业务是完全可以利用的,但目前大数据的系统架构这部分资源完全没有被利用。导致资源利用率进一步降低。

  (3)资源隔离性差。从Hadoop2.2.0版本开始,Yarn开始使用cgroup实现了CPU资源隔离,通过JVM提供的内存隔离机制来实现内存资源隔离。对于磁盘IO和网络IO的隔离目前社区还在讨论中YARN-2139[2],YARN-2140[3]。对于文件系统环境的隔离,社区在Hadoop 3.0版本中支持通过Classpath isolation HADOOP-11656[4]来避免不同版本的jar包冲突,但无法做到完整的文件系统隔离。整体上看Yarn的资源隔离做的并不完善,这就造成了,多个任务运行到同一个工作节点上时,不同任务之间会存在资源抢占的问题,不同任务之间相互影响。

  (4)系统管理困难。在大数据系统中缺少统一的管理接口,也缺少路由管理,网络管理,磁盘管理等能力。这就造成大数据平台的开发往往需要对管理系统进行深度定制。开发工作量大,系统管理困难,并且平台迁移困难。例如大数据平台中需要提供对大数据组件UI页面的访问能力。在大数据平台构建中,为了能够访问组件的UI页面往往需要单独进行网络的打通,进行额外的路由的配置。并且很多时候这些配置都缺少标准的接口,无法做到自动化,管理起来十分困难。

  (5)管理方式不统一。在线业务和大数据业务虽然属于不同的业务类型,但就管理平台来说提供的功能是类似的。主要提供资源管理,业务(任务)管理,权限管理,可视化展示与操作等方面的功能。但因为管理方式不统一,底层框架与运行方式不同,造成了在线业务和大数据业务往往需要开发不同的平台,由不同的团队运维来管理,这极大的增加了额外的人力投入,造成不必要的人力损失。

  大数据平台目前存在的问题.中琛魔方大数据分析平台(www.zcmorefun.com)表示目前大数据平台可能处在着很多得问题,需要及时进行修改,虽然处在着一些小问题,但企业如果想要更快更好得发展,那么必须得借助大数据,大数据也会随着社会得进步而得到更好得完善。

大数据平台目前存在的问题相关推荐

  1. GitHub开源比Hadoop快至少10倍的物联网大数据平台

    TDengine是一个开源的专为物联网.车联网.工业互联网.IT运维等设计和优化的大数据平台.除核心的快10倍以上的时序数据库功能外,还提供缓存.数据订阅.流式计算等功能,最大程度减少研发和运维的工作 ...

  2. 比Hadoop快至少10倍的物联网大数据平台,我把它开源了

    作者 | 陶建辉 转载自爱倒腾的程序员(ID: taosdata) 导读:7月12日,涛思数据的TDengine物联网大数据平台宣布正式开源.涛思数据希望尽最大努力打造开发者社区,维护这个开源的商业模 ...

  3. 基于Hadoop的大数据平台实施记——整体架构设计[转]

    http://blog.csdn.net/jacktan/article/details/9200979 大数据的热度在持续的升温,继云计算之后大数据成为又一大众所追捧的新星.我们暂不去讨论大数据到底 ...

  4. 第一家线下场景大数据平台Anchor-Point诞生

    近日,由衍合数据主办的"<Anchor-Point线下场景大数据分析平台发布会"在上海隆重举行.近80位媒体广告行业和数据研究龙头齐聚一堂,见证中国第一家线下场景大数据平台的 ...

  5. 淘宝、美团、滴滴分别如何搭建大数据平台?

    常规的大数据平台架构方案是基于大数据平台Lamda架构设计的.事实上,业界也基本是按照这种架构模型搭建自己的大数据平台. 接着我们来看一下淘宝.美团和滴滴的大数据平台,一方面进一步学习大厂大数据平台的 ...

  6. K8S 从懵圈到熟练--大数据平台技术栈18

    回顾:大数据平台技术栈 (ps:可点击查看),今天就来说说其中的K8S! 来自:阿里技术公众号 阿里妹导读:排查完全陌生的问题.不熟悉的系统组件,对许多工程师来说是无与伦比的工作乐趣,当然也是一大挑战 ...

  7. TiDB 在大型互联网的深度实践及应用--大数据平台技术栈08

    回顾:大数据平台技术栈 (ps:可点击查看),今天就来说说其中的TiDB! 作者介绍 吕磊,摩拜单车高级 DBA 一.业务场景 摩拜单车 2017 年开始将 TiDB 尝试应用到实际业务当中,根据业务 ...

  8. RocketMQ实战--大数据平台技术栈06

    回顾:大数据平台技术栈 (ps:可点击查看),今天就来说说其中的RocketMQ! 作者丨张丰哲 www.jianshu.com/p/3afd610a8f7d 阿里巴巴有2大核心的分布式技术,一个是O ...

  9. 谈谈对 Canal( 增量数据订阅与消费 )的理解--大数据平台技术栈系列(3)

    之前说了,大数据平台技术栈 (可点击查看),今天就来说说其中的Cannal 来源:朱小厮, blog.csdn.net/u013256816/article/details/52475190 概述 c ...

  10. hadloop大数据平台论文_企业大数据平台建设过程中的问题和建议

    2 0 1 7 年 第 1 2 期 信 息 通 信 2017 (总第 180 期) INFORMATION & COMMUNICATIONS ( Sum . N o 180) 企业大数据平台建 ...

最新文章

  1. 【PAT (Basic Level) 】1030 完美数列 (25 分)
  2. framebuffer结构体分析
  3. php文件锁 阻塞区别,php文件锁阻塞模式和非阻塞模式
  4. u2020 华为_华为MateBook X Pro 2020款评测:全面屏商务旗舰再升级
  5. 8000字干货扫除你的焦虑!3点钟无眠区块链群聊最全精华
  6. 通过经典题目来理解多种闭包实现方式
  7. 性能飙升160%!阿里云发布第七代ECS、云原生数据库PolarDB-X等重磅新品 | 凌云时刻...
  8. 开发交接文档_为开发人员创造更好的设计交接体验
  9. Feedsky尝试Feed点击付费广告
  10. opencv用于医学图像分割
  11. 数据结构c语言版李冬梅PDF,数据结构(C语言版) 习题答案 严蔚敏 李冬梅 吴伟民 23490数据结构习题答案.pdf...
  12. 武林外传自动寻路CALL
  13. 天翼云携手华为,强强联合,共创数据存储新生态
  14. R、RStudio下载与安装方法
  15. 2022江苏民丰农村商业银行社会招聘测试题及答案
  16. L1-040. 最佳情侣身高差
  17. 正圆锥体空间方程_电路原理中三相缺相保护器是如何工作的,正负序与它有什么关系...
  18. 人工智能--预训练的卷积神经网络
  19. WHQL认证公司 提供高品质whql认证服务
  20. 跳帧的计算机原理,光电鼠标基础知识浅解(22页)-原创力文档

热门文章

  1. 【回文串14】LeetCode 680. Valid Palindrome II
  2. 【Python基础】with语句
  3. AB=C型向量分解思路思考
  4. 记一次mysql主从同步因断电产生的不能同步问题 1236 and 1032
  5. docker 容器连接宿主机mysql问题
  6. php mkdir没有权限不能创建成功的问题
  7. win10+anaconda3+python3.6+opencv3.1.0
  8. struts1(转)
  9. Linux格式化分区报错Could not start /dev/sda No such file or directory 解决办法
  10. IOS APP 上传到AppStore