一、数据分析平台层次解析

大数据分析处理架构图

数据源: 除该种方法之外,还可以分为离线数据、近似实时数据和实时数据。按照图中的分类其实就是说明了数据存储的结构,而特别要说的是流数据,它的核心就是数据的连续性和快速分析性;

计算层: 内存计算中的Spark是UC Berkeley的最新作品,思路是利用集群中的所有内存将要处理的数据加载其中,省掉很多I/O开销和硬盘拖累,从而加快计算。而Impala思想来源于Google Dremel,充分利用分布式的集群和高效存储方式来加快大数据集上的查询速度,这也就是我上面说到的近似实时查询;底层的文件系统当然是HDFS独大,也就是Hadoop的底层存储,现在大数据的技术除了微软系的意外,基本都是HDFS作为底层的存储技术。上层的YARN就是MapReduce的第二版,和在一起就是Hadoop最新版本。基于之上的应用有Hive,Pig Latin,这两个是利用了SQL的思想来查询Hadoop上的数据。

关键: 利用大数据做决策支持。R可以帮你在大数据上做统计分析,利用R语言和框架可以实现很专业的统计分析功能,并且能利用图形的方式展现;而Mahout就是一个集数据挖掘、决策支持等算法于一身的工具,其中包含的都是基于Hadoop来实现的经典算法,拿这个作为数据分析的核心算法集来参考还是很好的。

如此一个决策支持系统要怎么展现呢?其实这个和数据挖掘过程中的展现一样,无非就是通过表格和图标图形来进行展示,其实一份分类详细、颜色艳丽、数据权威的数据图标报告就是呈现给客户的最好方式!至于用什么工具来实现,有两个是最好的数据展现工具,Tableau和Pentaho,利用他们最为数据展现层绝对是最好的选择。

二、规划的数据平台产品AE(Accelerate Engine)

支持下一代企业计算关键技术的大数据处理平台:包括计算引擎、开发工具、管理工具及数据服务。计算引擎是AE的核心部分,提供支持从多数据源的异构数据进行实时数据集成、提供分布式环境下的消息总线、通过Service Gateway能够与第三方系统进行服务整合访问;设计了一个分布式计算框架,可以处理结构化和非结构化数据,并提供内存计算、规划计算、数据挖掘、流计算等各种企业计算服务。Data Studio包括了数据建模、开发、测试等集成开发环境。管理工具包括了实施、客户化及系统管理类工具。AE平台还可以通过UAP开发者社区提供丰富的数据服务。

AE架构图

新规划将BAP平台拆分为两部分,底层技术平台发展内存计算和数据处理,上层BI展现端重点发展仪表盘、web和移动设备展现。

两大产品通过数据处理接口和嵌入式应用服务于业务系统。

生态系统图

大数据处理平台担负着为BI系统提供语义层/OLAP引擎等底层技术支撑、BI及ERP系统的性能提升、以及数据挖掘、非结构化数据处理等系列数据整合与处理的解决方案。

具体模块包括:

语义层:为统一的查询建模平台和数据访问接口。除提供标准的查询建模能力外,还有语义驱动、语义规则、语义函数、描述器等等扩展方式,满足不同层面的扩展要求。

OLAP引擎:OLAP引擎提供全面的多维建模与分析能力。多维模型包括维度、层次、级别、属性、指标、计算成员等;同时预置系列分析函数,包括同比/环比/期比/基比等时间序列分析、占比/排名/方差等统计分析、指数回归和线性回归分析等;提供标准的MDX解析与执行,与数据仓库等模块结合,提供针对海量数据的实时分析和处理能力。

数据集成:能够胜任在大数据量、高并发、多维分析等环境背景下的实时分析。通过实时数据集成(RDI)提供的数据实时复制与DW的列式存储引擎,解决了以往在传统架构模式下,普通行式存储引擎无法实现的业务场景。

数据挖掘:支持运行于分布式文件系统和分布式计算平台之上的分布式数据挖掘算法,具体包括:逻辑斯特回归、朴素贝叶斯分类算法及其分布式实现;K均值、谱聚类算法及其分布式实现;潜在狄利克雷分配语义挖掘算法及其分布式实现;频繁模式挖掘分析算法及其分布式实现;协同过滤、概率矩阵分解推荐算法及其分布式实现;提供分布式挖掘算法的统一操作原语和执行引擎。

数据仓库:数据仓库提供针对海量数据进行高效的查询和分析。包括同时支持关系数据库、NoSQL数据库、以及分布式文件系统进行数据存储和加载的多存储引擎,基于MapReduce框架针对海量数据的高性能查询和分析,以及MapReduce 框架本身具有的高扩展性和容错性。

非结构化数据管理:非结构化数据不包含内嵌的语义结构描述信息,而信息系统需要结合其“内容”而不仅仅是数据本身进行查询、检索、分析与挖掘,因此非结构化数据管理系统需要实现非结构化数据的数据提取,提取的非结构化数据是进行后续处理的基础,具体包括结构化信息和底层/高层特征的提取两个。非结构化数据提取组件依赖于分布式文件系统和非结构化数据存储提供的原始数据作为数据源数据,依赖于非结构化数据存储来存储提取的元数据或者特征数据,依赖于并行计算框架来分布化执行过程,加快执行速度。

消息总线:包括主数据管理、集中身份管理、应用集成开发环境、集成监控管理等。满足集成平台的应用需求,支持界面集成、信息集成、服务集成、流程集成等集成方式。

分布式计算系统:包括分布式文件系统和分布式计算框架。分布式文件系统以高可靠的容错机制为核心,系统架构包括多元数据服务器、多数据存储服务器、多监管者、多客户端,支持大文件和大数据块的分布式存储与管理;分布式计算框架基于MapReduce与MPI计算模型,提供了一套并行计算框架;并利用物理机以及虚拟机的监控信息,实现对计算资源的合理分配,支持对大量工作任务的灵活切分和分布式调度。

流计算引擎:流计算引擎是为解决系统的实时性和一致性的高要求的实时数据处理框架,具备高可拓展性,能处理高频数据和大规模数据,实时流计算解决方案被应用于实时搜索、高频交易的大数据系统上。

转自:http://www.36dsj.com/archives/27047

大数据分析平台架构(Big Data Analytics Platform)相关推荐

  1. 大数据分析平台架构有哪些

    大数据分析平台的建设是十分必要了,一方面它可以汇通企业的各个业务系统,从源头打通数据资源,另一方面也可以实现从数据提取.集成到数据清洗.加工.可视化的一站式分析,帮助企业真正从数据中提取价值,提高企业 ...

  2. ClickHouse数据库培训实战 (PB级大数据分析平台、大规模分布式集群架构)

    一.ClickHouse数据库培训实战课程 (PB级大数据分析平台.大规模分布式集群架构)视频教程 为满足想学习和掌握ClickHouse大数据分析专用的数据库,风哥特别设计的一套比较系统的Click ...

  3. 大数据分析平台技术架构建设方案PPT(附下载)

    面对海量的各种来源的数据,如何对这些零散的数据进行有效的分析,得到有价值的信息一直是大数据领域研究的热点问题. 大数据分析处理平台就是整合当前主流的各种具有不同侧重点的大数据处理分析框架和工具,实现对 ...

  4. 知行教育大数据分析平台之基于Spark架构

    1 介绍一下你们的项目 教育数仓解决的问题: 首先,受互联网+概念影响,越来越多的教育平台机构涌现,在线教育发展火热.但是由于信息的共享利用不充分,导致企业多年积累了大量数据,而因为信息孤岛的问题,一 ...

  5. 企业数字化转型的核心—大数据分析平台

    随着物联网.大数据的快速发展,数据价值的发掘与应用被企业开始重视,如信息化建设一样,企业开启了新一轮数字化转型,物联网.业务融合.大数据平台建设如火如荼的进行.那么在数字化转型中,决定企业成败的核心是 ...

  6. 面向服务的大数据分析平台解决方案

    近年来, 大数据处理与分析已经成为全球性问题,引起欧美各国政府和产业界高度重视,美国政府于2012年3月率先发布了<大数据研究与发展计划>, Google, Amazon. Faceboo ...

  7. [BigData]16家大数据分析平台

     对今天的企业来说,数据分析已经成为生死攸关的选择.我们分析一些著名的供应商,从Hadoop创业者到传统的数据库市场参与者. 革命 – 这个词汇十分准确地描述了我们所处的这个数据分析的时代.企业一 ...

  8. 达观数据分析平台架构和Hive实践

    http://www.infoq.com/cn/articles/hadoop-ten-years-part03 编者按:Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存 ...

  9. 超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

    简介: 5分钟读懂 Databricks 数据洞察 ~ 更多详细信息可登录 Databricks 数据洞察 产品链接:https://www.aliyun.com/product/bigdata/sp ...

  10. 大数据平台架构技术选型与场景运用

    内容来源:2017年5月6日,大眼科技CTO张逸在"魅族技术开放日第八期--数据洞察"进行<大数据平台架构技术选型与场景运用>演讲分享.视频地址:https://mp. ...

最新文章

  1. 利用MingW检验程序运行内存
  2. 公安部全面查找改革开放以来失踪被拐儿童 失踪被拐儿童父母和疑似被拐人员快去采集DNA
  3. 【控制】《多无人机协同控制技术》周伟老师-第12章-基于 Multi-Agent 的多无人机协同控制仿真平台的设计与实现
  4. 报错, liquibase.exception.ValidationFailedException: Validation Failed
  5. Python学习笔记:文件(File)
  6. UNIX/Linux系统取证之信息采集案例
  7. xmldocument的使用
  8. int indexs=(int)(_v+0.5);
  9. 13个不容错过的Java项目
  10. charls https抓包
  11. bluez5.50+pulseaudio实现蓝牙音响音频播放
  12. (四)深度学习入门之对图像进行简单分类(cifar10数据集)
  13. linux怎么进入etc目录,Linux 系统的/etc目录
  14. 非常全面的前端协作规范
  15. 图像运动模糊及其去除
  16. 简单高效记账本的具体操作方法
  17. git提交代码设置某些文件不可上传
  18. 广播风暴产生的原因及处理!
  19. 短信接口调用-手机短信,验证码
  20. html里name的含义

热门文章

  1. 百度,高德地图经纬度转换
  2. 使用HBuilder将web项目打包成app
  3. 面试IT公司的时候,程序员的简历应该写多少个项目经验比较合适?
  4. java打印菱形图案_如何使用java打印出菱形图案
  5. 【算法】并查集(Java)
  6. 小白入门必学——时间复杂度
  7. 提高开关电源效率的技巧
  8. 主题模型:LDA原理详解与应用
  9. 从oracle表中随机抽取数据,Oracle随机抽取数据
  10. html中图片为什么反了,HTML5 canvas如何实现图片反色