2015年国务院向社会公布的《促进大数据发展行动纲要》明确提出了大数据的基本概念:大数据是以容量大、类型多、存取速度快、应用价值高位为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。近几年来,随着企业积累的数据越来越多。如何利用大数据技术构建企业大数据平台,以充分体现大数据的价值,是各行各业一直在不断探索和追求的目标。那么,企业大数据平台技术体系架构究竟如何规划呢?笔者结合多年企业大数据平台建设经验,将企业大数据平台概括为6个主要环节。从数据源开始,依次为数据采集、数据处理、数据存储、数据服务、数据展示以及数据质量管理。企业大数据平台技术体系架构,如下图所示:

数据采集层的主要目标是从数据源收集数量巨大、来源分散、格式多样的数据到企业大数据平台。一般采取实时数据增量采集和历史数据批量采集两种解决方案。实时数据增量采集在监控领域应用比较广泛,快速、高效收集数据源产生的实时数据,以便即时响应和处理;历史数据批量采集则是将数据源历史一段时间的数据全部抽取到企业大数据平台,数据采集存在一定的延迟,适合数据补采、周期性计算等实时性要求不高的业务应用场景。


数据处理层是从大量的原始数据中发现新知识、创造新价值、提升新能力的过程,是企业大数据平台建设的关键环节。数据处理层既要满足常规的统计分析和有价值的数据挖掘等离线历史大数据处理要求,还要兼顾时效性要求高的在线实时流数据处理要求。
在线实时流数据处理要求数据实时采集、实时处理、实时反馈和实时输出,响应时间在秒级甚至于毫秒级。离线历史大数据处理通常是针对批量采集数据,数据处理量大,达到TB、PB级以上,数据处理周期以分钟、小时、天为单位。
当然,对于实时增量数据,我们可以以增量方式处理分钟、小时、天为单位的统计数据,以提高系统处理效率。

数据存储层是大数据集合、主题数据、业务数据、基础数据等持久化的存储中心
一般包括关系型数据库和分布式文件系统两种。关系型数据库用于存储主题数据、业务数据、基础数据等;分布式文件系统用于存储大数据集合。
数据服务层是大数据对外共享发布通道。
目前应用最多的是以服务接口的形式对外提供,或者以消息订阅推送的方式对外提供。
数据展示层是企业大数据平台的图形用户接口。
展现形式可以多样化,最典型的三种方式是:移动客户端、个人工作站和可视化大屏幕。数据质量管理是贯穿数据采集、数据处理、数据存储、数据服务和数据展现的全过程质量管理体系。
结束语:企业大数据平台技术架构实现的关键是如何选择开源技术实现数据采集、数据处理、数据存储、数据服务和数据展现5个层次的应用,以及建设一套标准化的全过程的数据质量管理体系。

企业大数据平台技术体系架构相关推荐

  1. 一张图剖析企业大数据平台的核心架构

    我们先来看看这张图,这是某公司使用的大数据平台架构图,大部分公司应该都差不多: 从这张大数据的整体架构图上看来,大数据的核心层应该是:数据采集层.数据存储与分析层.数据共享层.数据应用层,可能叫法有所 ...

  2. 独家解读!阿里首次披露自研飞天大数据平台技术架构

    9 月 26 日,阿里云飞天大数据平台在云栖大会第二天主论坛上正式对外发布,这也是阿里首次对外披露飞天大数据平台的整体架构. 据介绍,飞天大数据平台由阿里自主研发,可扩展至 10 万台计算集群,是目前 ...

  3. 分享 | 企业大数据平台仓库架构建设思路

    本文根据阿里云高级技术专家李金波在首届阿里巴巴在线峰会的<企业大数据平台仓库架构建设思路>的分享整理而成.随着互联网规模不断的扩大,数据也在爆炸式地增长,各种结构化.半结构化.非结构化数据 ...

  4. 大数据平台的整体架构由哪些组成

    大数据平台将互联网使用和大数据产品整合起来,将实时数据和离线数据打通,使数据能够实现更大规模的相关核算,挖掘出数据更大的价值,然后实现数据驱动事务.那么,大数据平台的整体架构由哪些组成呢? 一.事务使 ...

  5. hadloop大数据平台论文_企业大数据平台建设过程中的问题和建议

    2 0 1 7 年 第 1 2 期 信 息 通 信 2017 (总第 180 期) INFORMATION & COMMUNICATIONS ( Sum . N o 180) 企业大数据平台建 ...

  6. 物联网大数据平台软件开发架构案例解析

    物联网大数据平台软件开发架构案例解析 有人说物联网是引领信息技术的第三次浪潮. 第一次浪潮是个人电脑的出现,开创了信息时代的第一次革命,此次浪潮成就了微软.IBM等巨头. 第二次浪潮是以信息传输为特征 ...

  7. CM+CDH构建企业大数据平台系列(一)

    问题导读: 1.CM是什么? 2.CDH是什么? 3.CM+CDH是什么? 4.什么是企业大数据平台? 5.如何用CM+CDH构建企业大数据平台? .......... 带着种种疑问让我们开启真正的企 ...

  8. 大数据OLAP技术体系学习框架

    文章目录 大数据OLAP技术体系学习框架 前言 一.Apache Druid分布式数据存储 二.ClickHouse列式数据库 三.Presto分布式查询引擎 四.Kudu分布式存储库 五.Kylin ...

  9. 分享一个 物联网大数据平台软件开发架构案例

    物联网大数据平台软件开发架构案例解析 有人说物联网是引领信息技术的第三次浪潮. 第一次浪潮是个人电脑的出现,开创了信息时代的第一次革命,此次浪潮成就了微软.IBM等巨头. 第二次浪潮是以信息传输为特征 ...

最新文章

  1. 详解 CQRS 架构模式
  2. linux下Mysql 的安装、配置、数据导入导出
  3. 关于java代码生成器---上篇之原理
  4. iptables端口映射实例
  5. 个性化推荐系统该如何评估,四种不同策略的角度
  6. SpringMVC之组合注解@GetMapping
  7. MySQL分库分表分库准备(6th)
  8. 上位机获取单片机发来的数据并进行检验(完整版,附完整源码)
  9. Xilinx FPGA单端时钟设计方法
  10. 2021高考成绩怎么查询时间北京,2021年北京高考成绩几号公布可以查询,查询时间安排...
  11. 2019 最烂密码排行榜大曝光!网友:已中招!
  12. 读源代码学Asp.net Ajax(一)
  13. 软考初级程序员主要考什么?如何复习?
  14. 【STM32H7的DSP教程】第18章 DSP控制函数-更好用的SIN,COS计算
  15. hw叠加层开还是不开_停用hw叠加层有什么用
  16. HDU 5855 Less Time, More profit(最大权闭合子图)
  17. CDGA|数据治理如何做?找准目标是关键
  18. webstrom 2099年设置
  19. 解决android studio打包后安装APK提示“签名不一致,该应用可能已被修改。“
  20. 用户文件下载服务解决方案

热门文章

  1. springboot毕设项目基于springboot的城市智能出行rota7(java+VUE+Mybatis+Maven+Mysql)
  2. 黑马程序员_Java(登陆注册案例,set集合,map集合,Collections)
  3. 我用Python导出了两万行字符,做成了动画...
  4. 流行的前端开源报表工具有哪些?适合在企业级应用的
  5. Vue push() pop() shift().....
  6. 长沙理工计算机竞赛黑马,从“清北摇篮”到学科竞赛全国200强,安居育才成为最大黑马!...
  7. 迷宫问题-DFS-BFS
  8. 深入理解js中实现继承的原理和方法
  9. 解决Keras加载模型TypeError: ('Keyword argument not understood:', u'return_state')
  10. xjb学算法之可持久化线段树