摘要: 数加大数据直播系列课程主要以基于阿里云数加MaxCompute的企业大数据仓库架构建设思路为主题分享阿里巴巴的大数据是怎么演变以及怎样利用大数据技术构建企业级大数据平台。 本次分享嘉宾是来自阿里云大数据的技术专家祎休 背景与总体思路 数据仓库是一个面向主题的、集成的、非易失的、反映历史变化的数据集合用于支持管理决策。

原文链接:http://click.aliyun.com/m/43803/

数加大数据直播系列课程,主要以基于阿里云数加MaxCompute的企业大数据仓库架构建设思路为主题,分享阿里巴巴的大数据是怎么演变以及怎样利用大数据技术构建企业级大数据平台。

本次分享嘉宾是来自阿里云大数据的技术专家祎休!

背景与总体思路

数据仓库是一个面向主题的、集成的、非易失的、反映历史变化的数据集合,用于支持管理决策。其结构图如下所示:

随着大数据、云计算等技术的应用和普及,互联网环境下数据处理呈现出新的特征:业务变化快;数据来源多;系统耦合多;应用深度深。业务变化加快导致数据来源增多,以前的数据大多来自于应用系统数据库,基本为结构化数据,比如Oracle、MySQL等数据。现在的互联网环境下有了更多的数据,比如网站的点击日志、视频数据、语音数据,这些数据都需要通过统一的计算来反映企业的经营状况。在互联网环境下,系统耦合也相对比较多,最重要的是要注重如何在这样的环境下加深数据整合、提升应用深度。从应用深度上来说,之前更多专注于报表分析,在大数据环境下则更多地进行算法分析,通过建立数据模型去预测和研判未来趋势。所以在这种境况下,对于系统的需求也更高:

要求结果数据尽可能快的获取;

实时性需求增多;

访问、获取途径多样便捷;

安全要求高。

在高需求下,传统仓库必然面临着挑战:数据量增长过快导致运行效率下降;数据集成代价大;无法处理多样性的数据;数据挖掘等深度分析能力欠缺。基于这些特征,用户该如何构建大数据仓库?在阿里云的数据仓库构建过程中,总结出了以下四个衡量标准:

稳定——数据产出稳定并有保障,维护系统的稳定性;

可信——数据干净,数据质量足够高,带来更高效的应用服务;

丰富——数据涵盖的业务面足够广泛;

透明——数据的构成体系要足够透明,使得用户放心。

一个完备的大数据仓库应该具备海量的数据存储及处理能力、多样的编程接口和计算框架、丰富的数据采集通道、多种安全防护措施及监控等特征,所以在架构构建时需要遵循一定的设计准则:

自上而下+自下而上地设计,数据驱动和应用驱动整合;

在技术选型上注重高容错性,保证系统稳定;

数据质量监控贯穿整个数据处理流程;

不怕数据冗余,充分利用存储交换易用,减少复杂度和计算量。

架构及模型设计

一般来说,数据仓库的构建需要经历以上几个过程。好的架构设计,在功能架构、数据架构、技术架构上,都能够很好满足需求:

功能架构示例:结构层次清晰


数据架构示例:注重数据流向,数据质量有保障

技术架构示例:易扩展、易用

构建数仓的首要任务就是模型设计,业界一般采用的建模方法有两种:

维度建模:结构简单;便于事实数据分析;适合业务分析报表和BI。

实体建模:结构复杂;便于主题数据打通;适合复杂数据内容的深度挖掘。

用户可以根据实际情况进行区分,而在实际数据仓库中,星型模型和雪花模型是并存的,有利于数据应用和减少计算资源消耗。

在数据处理分层上,一般采用较多的是上下三层结构:

这样设计是为了压缩整体数据处理流程的长度,扁平化的数据处理流程有助于数据质量控制和数据运维;把流式处理作为数据体系的一部分,能够更加关注数据的时效性,使得数据价值更高。

基础数据层

数据中间层

围绕实体打通行为,能将数据源进行整合;从行为抽象关系,则是未来上层应用一个很重要的数据依赖。此外,冗余是个好手段,能够保证主题的完整性,提高数据易用性。

数据集市层

需求场景驱动的集市层建设,各集市之间是垂直构建的,需要能够快速试错,深度挖掘数据价值。

基于阿里云数加搭建大数据仓库

基于阿里云数加搭建大数据仓库的整个业务流程如下所示:

阿里云的数加架构主要分为数据整合、数据体系、数据应用三个层次,如下图:

结构化数据采集通常涉及到全量采集和增量采集。全量采集是整个数仓的数据初始化,将历史数据快速地同步到计算平台;增量采集是初始化之后的数据同步。但在数据量巨大、增量数据同步资源消耗严重,或者后续的数据应用需要用到准实时数据的情况下,还会采用实时采集的方法,这种方法对采集端系统有一定的要求,而且采集质量最难控制。

事实上,日志原始结构越规范,解析的成本越低。在日志采集到平台之前,建议尽量不做结构化,后续再通过UDF或MR计算框架实现日志结构化。

数据仓库与阿里云数加产品的对应关系

离线数仓:MaxCompute数据共享的安全性

数仓的安全性是最为重要的话题。基于MaxCompute的多租户数据授权模型,是安全性非常之高的数据共享机制,在数据流、访问限制等方面能够有效防治。

架构设计中的一些最佳实践


数据表命名规范

分区表、工作流设计

计算框架应用、优化关键路径

实际开发中的一些友好案例


用大数据治理大数据

数据治理分为保障机制、管理、内容建设几个方面,并且贯穿数据开发的整个过程:

为了有效衡量数据治理的效果,阿里云使用的数据管理健康评估体系能够正确认识数据管理的健康性,给出数据管理健康分。

在数据治理过程中,比较重要的一点是重复数据治理。重复数据治理有多种表现:

相同源头:重复拖取同一张表;

计算相似:读取表相同且处理特征相似;

简单加工:简单转换、裁剪后保存至新表;

同表同分区:数据保持不更新或业务已停止;

空跑表:运算结果数据持续为空;

命名相似:表名或字段名相似度较高;

特殊规则:通过已知业务规则识别。

数据质量管理体系

数据生命周期管理


总结:阿里大数据实践之路

识别以下二维码,干货

基于阿里云数加MaxCompute的企业大数据仓库架构建设思路相关推荐

  1. 【数据架构解读】基于阿里云数加StreamCompute和MaxCompute构建的访问日志统计分析...

    [场景] 用户搭建网站会不断的产生访问日志(Nginx,Apache访问日志).为了从访问日志中挖掘出更多价值,本文主要阐述如果利用阿里云数加从沉睡中的访问日志中获取更有价值的数据,包括用于实时统计和 ...

  2. 万元大奖邀您参与阿里云数加 MaxCompute最佳实践征文大赛

    DT时代,越来越多的企业应用数据步入云端.与传统Hadoop相比,阿里云数加MaxCompute(原名ODPS)向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据 ...

  3. 阿里云大数据认证——基于阿里云数加构建企业级数据分析平台-课堂笔记

    阿里云Clouder认证 六.基于阿里云数加构建企业级数据分析平台 1. 课程目标 (1) 了解数据分析的步骤和目的 (2) 熟悉数据分析平台搭建的组成部分 (3) 掌握阿里云数加不同产品及其使用场景 ...

  4. 基于阿里云数加构建企业级数据分析平台

    基于阿里云数加构建企业级数据分析平台 数据分析是基于商业目的,有目的的进行收集.整理.加工和分析数据,提炼有价值信息的过程 ![在这里插入图片描述](https://img-blog.csdnimg. ...

  5. 基于阿里云搭建的适合初创企业的轻量级架构--架构总结

    ----基于阿里云搭建的适合初创企业的轻量级架构 前言 在项目的初期往往存在很多变数,业务逻辑时刻在变,而且还要保证快速及时,所以,一个灵活多变.快速部署.持续集成并可以适应多种情况的架构便显得尤为重 ...

  6. 借助阿里云数加,小小的美甲行业被美甲帮玩出了天价。

    原文链接:http://click.aliyun.com/m/13860/ 免费开通大数据服务:https://www.aliyun.com/product/odps "数加对于创业公司来说 ...

  7. 阿里云数加产品家族图首次亮相

    数加就是阿里云专业搞大数据各种神器的产品大家族其实技术型产品也没辣么难懂,一层各种形式计算完给到二层做数据展现&算法加工,三层通过各种算法延展粗各种数据应用.您买间屋也行,买一层可以,要是高兴 ...

  8. 小议阿里云数加平台对企业有何帮助?

    文章讲的是小议阿里云"数加"平台对企业有何帮助,阿里云发布大数据平台"数加",让DT时代不再只是阿里巴巴鼓吹的一个概念,而是实实在在的落地了!通过数据倒推本质, ...

  9. 阿里云数加案例-美柚

    阿里云数加案例-美柚 美柚以让女人更美更健康为己任,致力成为最懂女人的互联网企业;美柚很早就将大数据作为了解女人.读懂女人.服务女人的最重要利器.大数据在美柚的应用非常广泛,然而在美柚大数据之路的初期 ...

最新文章

  1. 在代码中获取ApplicationContext实例
  2. LA4851餐厅(求好的坐标的个数)
  3. 设备驱动程序INF文件
  4. html 播放远程视频教程,视频基于HTML5的服务器远程访问工具
  5. 腐烂国度2怎么学计算机,腐烂国度2按键操作说明 腐烂国度2怎么操作
  6. xs128 双定时器PIT0和PIT1
  7. JS图片放大查看效果!
  8. neo4j导入两个文件_Neo4j:找到两个纬度/经度之间的中点
  9. tomcat以debug模式启动
  10. 慧鱼机器人编程18子程序
  11. es搜索同义词近义词技术方案
  12. ps3自建服务器,PS3新手图文教程之网络设置
  13. 每天学点5G-5G UDR
  14. 发现一款 xcel 数据筛选工具,开源项目,可以继续自己发挥
  15. 饥荒专用服务器全图显示代码,饥荒联机地图全开代码
  16. 数组的并集交集和差集
  17. oracle按序号排序,Oracle排序以及序号的输出
  18. 供应链金融及产业风控
  19. 信息系统项目管理师必背核心考点(六十三)项目组合管理的主要过程DIPP分析
  20. httpd配置三种虚拟主机带访问控制

热门文章

  1. minitab怎么算西格玛水平_六西格玛黑带培训工具因子分析的使用
  2. visualsvn php,VisualSVN 手动记录访问日志
  3. cupload怎么保存图片_原生js的图片上传插件cupload
  4. c语言时间错误的是什么意思,C语言中,如何验证输入日期的正确性!~
  5. python分类预测降低准确率_十分钟掌握python机器学习特征选择
  6. echarts 浏览器兼容性_谷歌浏览器不再使用quot;黑名单quot; / iPhone可能放弃lightning充电口//微软中国被列为被执行人/QQ 音乐上线...
  7. 【生活科普】这7个影视剧的经典桥段,骗了我们很多年……
  8. 华为人均工资高达70万,但先看看华为员工的16 项标准
  9. Python GUI Programming (Tkinter)
  10. 图结构练习——最小生成树