了解大数据平台的基础架构有助于我们清楚数据是怎么流转与处理的,在每一层的结构中数据是以什么形式存储的,当我们听到工程师们谈论到这些内容时,不至于一无所知。

本文内容偏基础,适合像作为入门了解。

文不如表,表不如图,先上一张大数据平台架构图:

大数据平台架构图

按数据流向将大数据平台分为3层。

第1层-原始数据层

在这一层中完成的是数据从业务数据系统传输到DOS操作型数据层的过程。业务数据通常是来源于各个业务系统(比如crm系统、订单系统等)、用户操作日志或其他第三方数据系统,这一过程的主要目的是将来自各方的数据在DOS操作型数据库中实现数据集中。集中后的数据可以缓解业务系统的查询压力,同时方便地支持多维度分析等查询功能。

这个过程中,我们要关注的是数据抽取的接口数据量的大小抽取方式。

DOS操作型数据层的数据特点:

  • 通常是实时或分钟级从业务数据层获取数据
  • 存储的是当前的、不断变化的数据,历史数据通常保存3-6个月

第2层-数据仓库层

数据仓库不是一个独立的个体,它是大数据平台的一部分,是一个集成化的、面向主题的数据存储集合,它既不生产数据,也不消费数据,它存储的通常是历史的、不再变化的数据。

数据仓库的特点:

1)面向主题

数据仓库的主要功能就是向数据应用层提供信息以作出决策,所以数据仓库通过一个个主题域将多个业务系统的数据加载到一起,来支持对各个主题的分析。

2)集成性

数据仓库中的数据来源于众多不同数据源。数据仓库系统将多处的数据源通过一定的规则进行etl处理,再聚合集成到数据仓库。

3)稳定性

对数据仓库中的数据一般仅执行查询操作,很少会有删除和更新。这些数据是为企业数据分析而建立,所以数据被加载后通常会被长期保留。

4)数据的切片存储

数据仓库的数据存储是加了时间戳的,相当于是把数据按照快照的方式存了n个版本,从而避免业务数据被不断覆盖,使得历史时间的数据可追溯、分析。

数据的分层存储:

数据仓库的数据存储是分层级的,这个架构一方面跟数据拉取方式有关,一方面也是为了对数据进行层级的抽象处理。数据仓库主要分为基础层、主题层、数据集市层三层。

1)基础层

ODS层的数据经过简单的etl处理进入基础层,通过建模的方式,经业务模型、领域模型、逻辑模型、物理模型一系列处理,来实现对数据的轻度汇总,产出轻度汇总明细表、维度表等。

这个过程中,对于数据的etl处理,会涉及到一些数据错误、遗漏、不规范、不统一等问题,产品经理需要和研发工程师做好沟通,提供数据清洗逻辑

2)主题层

主题层的存储的是高度综合的数据,是由ODS层和基础层的数据按照一定的维度和业务逻辑聚合而来,仍然覆盖了所有的业务数据,只是它的数据存储形式是面向主题的,比如订单主题、商品主题、物流主题等,目的是可以满足用户分析某个主题的需求。

这一层的搭建规则要依赖于公司业务需求,所以产品经理需要对业务有深入的理解。

3)数据集市层

数据集市可以理解为是一种“小型数据仓库”,一般面向部门、面向主题或特定应用,它最主要作用是将主题数据组合成数据分析模型,数据的结构通常是由事实表和维度表构成的星型结构或雪花结构。

星型模型是面向主题的常用模式,主要由一个事实表及多个维表构成,不存在二级维表。

雪花模型是在星型模型基础上将维度表再次扩展,好处是耦合性低,冗余小。缺点是需要跨多表查询时性能低。

第3层-数据应用层

数据仓库的数据通常服务于数据可视化报表、数据分析(包含数据挖掘)、即席查询。

数据报表几乎是每个数据仓库的必不可少的一类数据应用,将聚合数据和多维分析数据展示到报表,使数据更直观、易理解。

数据分析是数据仓库的主要应用,用户可以提取到隐藏的、重要的信息,进而开展描述性、预测性、指导性的数据分析,为企业提供更大的商业价值。

即席查询(Ad Hoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成返回响应的结果,例如返回用户自定义的统计报表。这需要数据库内部实时自动优化,所以即席查询也是评估数据仓库的一个重要指标。在一个数据仓库系统中,即席查询使用的越多,对数据仓库的要求就越高。

总结

针对大数据平台,作为产品经理,我们首先应该做到:

1)了解大数据平台的架构、数据的流转与处理,方便与研发沟通交流

2)在数据清洗时,能够提供保证数据质量的数据清洗规范

3)对业务要有深刻的理解,能更好地了解或参与主题构建、数据分析模型构建

参考资料

1.《数据产品经理修炼手册》

2.数据仓库学习笔记:修炼数据产品经理

http://www.woshipm.com/data-analysis/950578.html

3.数据仓库的基本架构

http://www.woshipm.com/pd/676.html

4.大数据时代:数据仓库搭建之路

http://www.woshipm.com/data-analysis/1932441.html

数据产品经理修炼手册_数据产品经理需要了解的大数据平台架构相关推荐

  1. 数据产品经理修炼手册_产品经理技能点修炼之路(附薪资)

    ​ 产品这个2010年才彻底脱胎的岗位,未来会成为社会的主流.因为产品经理对于用户需求的抽丝剥茧.对市场的快速响应和洞察,对数据的灵活运用,是每个行业的核心技能.尤其在5G.大数据.万物互联的时代到来 ...

  2. 大数据在职研究生哪个好_哪些人适合报考2019年大数据在职研究生

    能力确实对一个人的发展起着重要的作用,但是更多情况下,也和其他方面因素有关.哪些人适合报考2019年大数据在职研究生,哪些人报考可以较为顺利地申请获得证书,则是在职人员们关心的内容. 第一,对大数据在 ...

  3. 大数据之-Hadoop伪分布式_启动YARN并运行MR程序---大数据之hadoop工作笔记0026

    之前我们运行hadoop提供的案例是用hdfs运行的. 现在我们来配置一下yarn,我们用yarn,这个资源管理器来运行hadoop的mr程序. 首先我们要知道yarn包含两个主要的部分,当然还有其他 ...

  4. 数据产品经理修炼手册pdf_【尼读书】数据产品经理修炼手册(附思维导图)

    前言:进入一个行业,除了要多在工作中实践和思考之外,还需要多读书.这样能够站在一个更高的角度去看问题,往往会对问题有更全面的掌握和新的认知.在[尼读书]这个栏目中,尼同学通过自己读书后的理解和整理与大 ...

  5. 读书笔记丨《数据产品经理修炼手册:从零基础到大数据产品实践》丨DAY4

    日期:2022年7月24日 内容:第四章数据仓库理论与应用(p77-p104) 4.1 了解大数据基础Hadoop 一.Hadoop及三驾马车 01.什么是hadoop? Hadoop是一个分布式系统 ...

  6. 读书笔记丨《数据产品经理修炼手册:从零基础到大数据产品实践》丨DAY5

    内容:第5章 大数据分析平台实践 时间:2022年8月7日 5.1 大数据分析平台的前世今生 5.1.1 大数据分析平台构建的背景         构建一个大数据分析平台,结合多个业务系统,从中抽取海 ...

  7. 谈谈AI的ToB市场,我的新书《B端产品经理修炼手册》正式出版

    2020年是特殊的一年,得益于这次疫情,在2月份有一个大长假,当时被封锁在东北老家的小出租屋内,于是就起笔开始写这本书,其实也是在心理早就有构思的,差不多用了十来天的时间完成了第一版.名字想了好久,最 ...

  8. 如何快速全面建立自己的大数据知识体系? 大数据 ETL 用户画像 机器学习 阅读232 作者经过研发多个大数据产品,将自己形成关于大数据知识体系的干货分享出来,希望给大家能够快速建立起大数据

    如何快速全面建立自己的大数据知识体系? 大数据 ETL 用户画像 机器学习 阅读232  作者经过研发多个大数据产品,将自己形成关于大数据知识体系的干货分享出来,希望给大家能够快速建立起大数据产品的体 ...

  9. 大数据早报:百度开源移动端深度学习框架 中国联通成立大数据公司(9.26)

    数据早知道,上36dsj看早报! 来源36大数据,作者:奥兰多 『深度学习』百度开源移动端深度学习框架mobile-deep-learning 2017 年 9 月 25 日,百度在 GitHub 开 ...

最新文章

  1. Servlet跳转到jsp页面的几种方法
  2. Linux常用实用命令
  3. Ubuntu 16.04安装Nginx
  4. 模拟CA机构制作CA机构证书
  5. Linux nohup和的功效
  6. 试试这个Excel知识测验,得分超过80分算你赢
  7. 技术思考:也谈知识图谱平台中的数据流程与构建范式思考
  8. 搜索——Red and Black(hdu1312)
  9. 顺丰拟发行58亿可转债:15亿投入航空运力,12亿还贷款
  10. 挑选回文串(二进制枚举)
  11. 成为富豪的22条秘诀
  12. 量学云讲堂加密视频提取翻录为mp4工具使用教程
  13. 使用 Python 修改微信/QQ/支付宝运动步数
  14. 全面分析游戏限制多开原理
  15. 锁卡,每插入一张新卡都需要进行解锁
  16. 外卖cps返利小程序饿了么美团对接公众号返利系统分销系统源码
  17. Ubuntu16.04 + Titan XP + cuda8.0 + cudnn5.1 + opencv3.3.0 + caffe
  18. Criteo启动上海数据中心,加大对中国市场的投入
  19. ElGamal公钥密码算法(Python实现)
  20. 按照姓名拼音首字母排序

热门文章

  1. win10使用宽带虚拟WiFi信号
  2. AIX存储管理之对物理卷的增删改操作
  3. CTF Crypto 个人初级训练笔记
  4. 21种设计模式理论版
  5. vue仿移动端京东搜索历史自适应长度超两行折叠功能
  6. 摄像头网线连接到WiFi
  7. HTML基础 - HTML表格
  8. 《My fear in my heart》 | 《No fear in my heart》
  9. matlab 符号的值,matlab solve 符号 转换为值
  10. ARIMA 时间序列模型