系统概述

大数据应用支撑平台提供数据支撑服务,对外发布数据服务进行数据价值变现。包含数据采集、数据治理、数据交换、数据存储、数据计算相关组件的搭建、验证,并建立大数据仓库。

b)功能要求

1.数据采集,大数据平台数据源层有各类型数据源,数据类型分为关系型业务库、NoSQL库、文本文件、视频、服务接口,数据格式分为结构化数据、非结构化数据(文件、图片、视频等),为了将多源异构的数据进行采集,需要将源数据原封不动的从源库全量抽取出来,或者只抽取上次抽取以来源库中要新增或修改的数据,因此数据采集工具需要满足对多源异构数据的全量抽取和增量抽取。

2.数据治理,由于从数据采集工具采集过来的数据不具备统一的数据标准及数据格式,数据治理工具需要对到达的数据进行格式检查、标准化、增量对比、数据筛选、拆分后,生成符合标准的、统一格式的数据,使之与大数据平台要求的数据标准、逻辑关系与质量符合。

3.数据交换,为了满足子系统与总系统之间的数据交换及同步的需求,各系统之间的数据传输过程需要符合数据规范标准,交换的双方通过发送和接收任务进行数据交换,整个过程需要保证数据安全保密及可靠性,并且数据查询结果始终一致。

4.数据存储,为了满足数据采集、数据治理、数据交换各个过程中到达存储的数据,数据存储体系需要满足分布式文件存储、分布式列式存储、NoSql数据库存储、图数据库存储、关系型结果库存储;为了满足数据计算和数据分析过程对数据的需求,数据存储体系需要支持全量的从数据存储体系中抽取出来加载到并行数据处理器,增量的结构化数据实时从数据存储体系中抽取出来后加载到处理器中进行分析计算。

5.数据计算,数据计算模块需要为数据分析应用场景提供数据计算能力,需要整合分布式计算框架MapReduce、全文检索存储引擎(Solr)、Spark(SparkSQL、SparkStreaming、GraphX),通过数据匹配、数据搜索、数据重构,提供对海量数据的并行加载与处理功能,并对数据进行实时计算和离线计算,支撑上层数据分析需求。

6.大数据仓库,数据仓库支持从各种不同的数据源中采集数据,包括关系数据库、NoSql库、文本文件、视频文件、数据接口等。采集工具综合运用kettle、dataX、sqoop、kafka、flume等,实现全量采集和增量采集方式。按数据处理的不同阶段,将数据仓库进行分层:

STAGE层(接口层):提供业务系统数据文件的临时存储,是生产系统数据源的直接拷贝,由ETL过程对数据源进行直接抽取,在格式和数据定义上不作任何改变。从各业务系统中抽取、抓取的数据,进入这一层。

ODS/DWD层(细节数据层):简称DWD层,是对STAGE层数据进行沉淀,减少了抽取的复杂性,同时ODS/DWD的信息模型组织主要遵循企业业务事务处理的形式,将企业各专业数据进行集中,将数据按分析的主体的形式存放,跟STAGE层的粒度一致,属于分析的公共资源。

MID层(轻度汇总层):是面向分析型应用,对DWD层的生产数据进行轻度综合和汇总统计。

DM层(数据集市层):将数据按分析的专题组织成多维库表的形式存放,属于分析目标范畴的数据组织与汇总,属于分析的专有资源,其信息主要来源于DWD 和MID层汇总,时间维度可以是日、月、季、年。

MDW层(元数据):对数据仓库中的数据、数据源、采集方式进行描述。

各类数据从业务系统通过ETL工具抽取至接口层,然后经过清洗转换,进入细节数据层,经过汇总统计,进入轻度汇总层,再经过主题划分,按事实表、维度表进行汇总组织,形成数据集市层。

数据仓库的服务主要包括元数据管理、数据处理调度、数据稽核、数据发布。元数据管理对数据仓库中的数据、数据源、采集方式进行管理,为数据处理和发布提供基础元数据。数据处理调度实现各层数据处理过程的调度管理。数据稽核实现数据完整性、一致性、准确性的检查。数据发布实现数据的对外共享发布。

基于数据仓库,搭建数据分析工具,实现数据明细查询、全文检索,数据交互式探索、数据统计和数据挖掘等。数据分析的结果可以进一步接入到应用中,进行可视化展现。

大数据平台容量评估_大数据平台相关推荐

  1. 数据的四大特征_大数据

    数据的四大特征_大数据 我们总是在谈数据分析,数据分析什么的,那我们现在先不谈数据分析,我们先来谈谈数据分析的基础--数据.那么到底什么是数据,数据有什么特征呢?这个问题虽基础却重要. 这里我们所说的 ...

  2. 数据科学学习心得_学习数据科学时如何保持动力

    数据科学学习心得 When trying to learn anything all by yourself, it is easy to lose motivation and get thrown ...

  3. java大作业设计_Java程序设计_大作业.doc

    Java程序设计_大作业.doc Java程序设计_大作业 专业:计算机科学与技术专业 学号:1245713131 姓名: 2014年12月10日 目录 作业内容:2 1.IPublisherDao接 ...

  4. 大数据分析平台洱源县_大数据平台与分析

    大数据平台与分析 Big Data Platform And Analysis 大数据体系 大数据时代有效利用创新业务内容及模式,通过快速满足用户的个性化需求,增加用户黏性,是大数据为运营商带来新的机 ...

  5. 数据科学与大数据技术的案例_作为数据科学家解决问题的案例研究

    数据科学与大数据技术的案例 There are two myths about how data scientists solve problems: one is that the problem ...

  6. 大数据 端到端_成为数据科学家的端到端指南

    大数据 端到端 数据科学提示/入门指南 (DATA SCIENCE TIPS /BEGINNERS GUIDE) Data Science has improved considerably over ...

  7. 大数据架构详解_【数据如何驱动增长】(3)大数据背景下的数仓建设 amp; 数据分层架构设计...

    背景 了解数据仓库.数据流架构的搭建原理对于合格的数据分析师或者数据科学家来说是一项必不可少的能力.它不仅能够帮助分析人员更高效的开展分析任务,帮助公司或者业务线搭建一套高效的数据处理架构,更是能够从 ...

  8. 大数据项目一般金额多少_大数据分析师年薪一般多少?学什么专业才能从事大数据?...

    近几年,大数据为各个领域带来了全新的变革,大数据的重要性越来越被企业和国家所看到,大数据工作者的需求再次被无限放大,他们的薪资和社会地位也在不断上涨.马云在演讲中就提到,未来的时代将不是IT时代,而是 ...

  9. 大数据学情分析_大数据时代如何轻松做好学情分析

    学情分析是运用现代教学设计理论产生的,是教学设计系统中影响学习系统最终设计的重要因素之一.学情分析通常被称为"教学目标分析"或"学生分析".研究学生的实际需要. ...

最新文章

  1. VMware Mac版本漏洞可任意执行恶意代码
  2. Gson把对象转成json格式的字符串
  3. 路由跟踪工具0trace
  4. python批量下载网页文件-Python批量下载网页图片详细教程
  5. 干货 | 架构师入门实战视频课程(一)
  6. 一文串起从NLP到CV 预训练技术和范式演进
  7. 修改Linux字体出现乱码
  8. webservice 出现No service was found
  9. 什么是数据光端机?数据光端机的作用有哪些?
  10. 【物理总结】初中物理重要常数、单位换算、概念、规律和理论及知识的应用归纳大全梳理总结...
  11. 华为手机怎么下载linux命令,在linux命令
  12. 关于几个BeanPostProcessor各个回调的时机
  13. 编译器、Make和CMake之间的关系
  14. mac bash file密码_Mac系统 | 入门级程序员的开始:Hello word!
  15. 十步叫你如何无损修复硬盘锁(mbr病毒)
  16. 面向对象的超级面试题,涉及封装多态继承等多方面考核,异常烧脑,90%的面试官必问题目,不会这个的,只是会搬砖的码农
  17. 陈景润定理的数学证明何处寻?
  18. python在手,天下我有!
  19. mpirun 遇到 forrtl: severe (174): SIGSEGV, segmentation fault occurred
  20. 仿京东商城左侧商品分类导航-JS网页特效

热门文章

  1. 完善Library的管理方式
  2. ax的范数最大_矩阵方程ax=b的范数约束最小二乘解.pdf
  3. extjs多选下拉树
  4. 南通大学计算机网络及应用,南通大学《计算机网络》课程设计资料.pdf
  5. 题目 2055: 等待戈多(最短路)
  6. android 百度移动搜索 url 参数,百度刷站内快排算法参数-百度搜索URL参数比较详解...
  7. 服务器任务管理器详细信息,任务管理器服务器主机
  8. windows 搭建python 虚拟环境 写程序_Sublime下配置python编译环境及搭建虚拟环境:(windows下大致相同)...
  9. php是独立服务吗,使用Sprockets作为PHP应用程序的独立服务
  10. python完整安装顺序_Python安装与卸载流程详细步骤(图解)