1. Yahoo数据仓库的整体架构

Yahoo数据仓库在基础架构上由hadoop集群和Oracle集群组成,hadoop集群是一个计算平台,完成所有ETL数据处理过程;Oracle集群只是一个查询环境。

数据通过Data highway从源系统加载进入数据仓库的ODS层,ODS层数据保持与源系统数据结构一样。EDW数据层并没有严格意义的数据层次的逻辑细分,它可能有 多层的ETL加工过程;多层的数据存储。这一个层数据主要采用维度建模的方法,根据应用需求建立数据模型。数据采用列式存储的数据结构存储。

数据经过加工处理完成后,数据将会同步到Oracle的集群中用做数据查询。Yahoo用Oracle做查询环境,他们的大量采用了基于时间RANGE分 区和HASH子分区的方式来提升查询响应性能(类似与Greenplum的方式)。数据采用了压缩技术,同时基于压缩和读取的方式上ORACLE官方为他 们定制了一些改进,从而获取更好的读取IO和压缩能力。

MSTR报表工具连接ORALCE完成大部分报表查询功能,同时,如果要查询最明细的数据,工具会连接到HADOOP集群上,通过创建一些临时表来满足查询功能。

同时,Yahoo的仓库配备了一个功能强大的元数据管理系统,他们的元数据是通过SQL解析,直接将ETL mapping的元数据解析进入元数据库,做到了字段级别的MAPPING。同时他们的PM会维护最新的业务元数据(业务规则,指标定义)进入的元数据库 系统。

2.  Yahoo数据仓库建模方法

Yahoo数据仓库建模基本上采用维度建模的思想,他们强调一致的维度在保持数据仓库模型的一致性上的作用。他们会花一定的时间去识别每个新进入仓库的数据表,并了解它的业务规则和数据属性,由数据架构师完成对数据整合的设计工作。

Yahoo也建立一些稀疏的宽表,它的基于每个日志访问记录表的宽表就有上千个字段。

3 . Yahoo数据仓库的团队成员构成

Yahoo团队主要由DHW配置人员,ETL开发人员、数据架构师、BI分析人员和PM人员组成。他们介绍他们团队大概有30个人,应该只有一个PM而且投入也是50%,从这看来他们的应用需求应该比我们B2B少很多。

4. Data Architect的职责

数据架构师基本上负责整个全局数据仓库的模型,表的设计。数据架构师对掌控整个仓库的表结构。同时,Yahoo经常从外面收购不同的公司,很大一个职责和任务是需要整合新的据源进入数据仓库的模型中。

5. Yahoo实时仓库的现状

Yahoo的实时仓库应用较少,应用点就是广告的结算使用,按时间窗口,采用Oracle的LogMiner捕获准实时变化数据,通过事件触发后续的ETL处理过程。

6. Yahoo对数据仓库人力资源的使用原则

Yahoo的数据仓库人力资源不在业务方,而由自己控制。他们将商业价值和对数据仓库整体影响排在前面两个最重要的位置。当出现资源冲突的时候,不由业务方的独自利益为导向。

Yahoo数据仓库架构简介相关推荐

  1. 基于阿里云的数据仓库架构设计

    文章目录 基于阿里云的数据仓库架构设计 产品对比 离线数仓 实时数仓 数仓规范 基于阿里云的数据仓库架构设计 产品对比 阿里云产品 同类产品 简介 RDS MySQL.PostgreSQL 关系型数据 ...

  2. Hadoop运维工程师专家之路--第二章Hadoop架构简介

    第二章Hadoop架构简介 本章包括 l  Hadoop架构 l  分布式集群 l  HDFS架构 l  YARN架构 本章介绍Hadoop架构.在你学习管理Hadoop集群之前,有必要先了解下Had ...

  3. 大数据分类和架构简介

    第 1 部分: 大数据分类和架构简介 概述 大数据可通过许多方式来存储.获取.处理和分析.每个大数据来源都有不同的特征,包括数据的频率.量.速度.类型和真实性.处理并存储大数据时,会涉及到更多维度,比 ...

  4. Day01 数据仓库项目简介

    Day01 数据仓库项目简介 文章目录 Day01 数据仓库项目简介 一.项目简介及需求 1. 数据仓库概念 2. 项目需求以及架构设计 二.技术选型.框架选型.集群规模等 1. 项目技术如何选型? ...

  5. LoadRunner系统架构简介与运行原理

    1.LoadRunner系统架构简介 LoadRunner是通过创建虚拟用户来代替真实实际用户来操作客户端软件比如Internet Explorer,来向IIS.Apache等Web服务器发送HTTP ...

  6. 单线程与多线程网络程序架构简介

    文章目录 1 单线程与多线程网络程序架构简介 1.1 服务端单线程处理多客户端 1.2 服务端多进程多端口处理多客户端 1.3 服务端多线程单端口分组处理多客户端 1.4 服务端多线程多端口分组处理多 ...

  7. MVC架构简介及其测试策略

    MVC架构简介及其测试策略  https://www.cnblogs.com/rd-ddddd/p/6959232.html 转载于:https://www.cnblogs.com/highpoint ...

  8. 一篇文章搞懂数据仓库:数据仓库架构-Lambda和Kappa对比

    在介绍Lambda和Kappa架构之前,我们先回顾一下数据仓库的发展历程: 传送门-数据仓库发展历程 写在前面 咳,随着数据量的暴增和数据实时性要求越来越高,以及大数据技术的发展驱动企业不断升级迭代, ...

  9. 基于阿里云数加MaxCompute的企业大数据仓库架构建设思路

    摘要: 数加大数据直播系列课程主要以基于阿里云数加MaxCompute的企业大数据仓库架构建设思路为主题分享阿里巴巴的大数据是怎么演变以及怎样利用大数据技术构建企业级大数据平台. 本次分享嘉宾是来自阿 ...

最新文章

  1. TensorFlow图像分类:如何构建分类器
  2. matlab 着色算法,colorization_matlab着色 - 源码下载|图形图象|图形图像处理(光照,映射..)|源代码 - 源码中国...
  3. JS - 讨论 - 编码习惯 - JavaScript代码到底要不要写分号?
  4. PM2管理工具的使用
  5. (剑指Offer)面试题5:从尾到头打印链表
  6. Angularjs 动态添加指令并绑定事件
  7. C++对象的赋值和复制
  8. 科研|青椒工作九年后感慨:比SCI重要,比项目值钱的是…
  9. 解析Servlet/JSP会话跟踪机制
  10. windows连接远程服务器报错‘SSH‘ 不是内部或外部命令,也不是可运行的程序 或批处理文件 解决方案
  11. mysql.net连接器_关于mysql-connector-net在C#中的用法
  12. 关联分析中FPGrowth算法原理及实战
  13. java电商ERP源码 跨境电商ERP源码 ERP源码
  14. 闲聊人工智能产品经理(AIPM)—定义人工智能产品经理
  15. win7查看计算机设置密码,如何查看win7电脑开机密码_win7专业版电脑开机密码怎么查看...
  16. 上传代码到github代码仓库
  17. c# directory.getfiles按照文件名称
  18. matlab 中关于nargin 以及 varargin 函数的使用
  19. 十二 iOS之 折叠图片
  20. 范里安《微观经济学:现代观点》(第9版)章节习题精编详解

热门文章

  1. 年化收益17.1%!这个看基本面长线炒股的AI有点厉害
  2. 英特尔生产17个量子位超导芯片,现已交付合作伙伴
  3. js中判断数组中是否含有某个字符串方法
  4. Magcodes.WeiChat——自定义CustomCreationConverter之实现微信自定义菜单的序列化
  5. 虚拟机服务器实验三十一 Windows Server 2012 RDS桌面虚拟化之二VDI标准部署之托管共享桌面虚拟化...
  6. 是什么让你的ExtJS应用程序运行缓慢?
  7. 一寸相思千万绪,人间没个安排处。
  8. Linux系统管理_ACL访问控制-Redhat Enterprise 5
  9. Java工具类(获取当前主机操作系统名)
  10. nagios 主机报警别名修改