读《大数据之路-阿里巴巴大数据实践》数据模型篇

七 建模综述

OLTP 面向数据 随机读写 3NF
OLAP 批量读写 不关注一致性更关心数据整合
ER模型–衍生出dataVault
维度模型 选择过程-选择粒度 识别维表和选择事实
Anchor模型
分布式计算平台MaxCompute
数据管理体系Onedata

八 阿里巴巴数据整合及管理体系

数据管理体系Onedata

规范定义:
名词术语,指标体系…

模型设计:
操作数据层: 操作系统-数据仓库 无处理的数据-同步,清洗,保存历史
公共维度数据层:明细数据/汇总数据
应用数据层:个性化的统计指标

原则:搞内聚低耦合
核心扩展分离
刚刚处理逻辑下沉及单一
成本与性能抗衡
数据可回滚
一致性

需求调研-架构设计-创建总线矩阵

九 维度设计

度量是事实,而维度是环境
1选择维度-确定主维度-确定相关维度的表-确定维度属性
要生成尽可能多的属性和文字描述
需要区分数值型属性和事实:!!
比如商品价格:用来统计商品的平均价格的是事实,是度量。但是用于商品数量是则作为维度使用
垂直拆分 水平拆分
对于维度变化:维度可能不断变化,所以可以做一个拉链表,但是实际再生产过程中我们一般也按天分区来做,做成全量的维表,这种适用于我们对历史数据要求不高的情况下。或者可以做成拉链表。
对于特殊维度:递归–,一般来说,树形结构的维度是比较常见的,在使用的时候会根据层数做自关联以取出全面的关系。
本书中写道可以使用递归sql进行实现:比如connect by,在spark sql中我还没有使用过,手写确认了下不能识别startwith所以还是要自关联。当然,这样的操作真的比较适合复杂的树形结构的存储,对于简单的层级不深的

读《大数据之路-阿里巴巴大数据实践》数据模型篇笔记相关推荐

  1. 大数据之路 阿里巴巴大数据实践 读书笔记

    一 .总述 人类正在从IT时代走向DT时代.现在的数据呈爆炸式增长,其潜在的巨大价值有待发掘.但是如果不对数据进行有序.有结构的分类组织和存储,它将变成一场灾难. 在阿里内部,数据的存储达到EB级别. ...

  2. 《大数据之路 阿里巴巴大数据实践》笔记

    此书下载传送门http://www.java1234.com/a/javabook/yun/2018/0308/10578.html 第1章 总述 阿里巴巴大数据系统体系主要分为,数据采集.数据计算. ...

  3. 《大数据之路-阿里巴巴大数据实践》读书笔记

    ps:这本书主讲阿里的大数据体系架构方案,从底层到高层阐述,目前对我来说此书的难度较大,不是很懂,大部分为对原书的引用归纳,我会给出相应的大牛的关于此书的读书笔记的传送门供参考.以下为大牛关于本书的读 ...

  4. 大数据之路——阿里巴巴大数据实践:总述

    阿里巴巴大数据系统架构图: Aplus.JS是web端日志采集技术 UserTask是APP端日志采集技术 TimeTunel(TT)是一个实时消息处理平台,类似于kafka+storm DataX是 ...

  5. 《大数据之路-阿里巴巴大数据实践》第一章 总述

  6. 中国大数据明星企业——阿里巴巴的“数据攻防战”

    From: http://www.36dsj.com/archives/4130 平台型企业的大数据应用策略有何特点?阿里巴巴.百度.腾讯等一批平台型企业,汇集了海量用户和商家,聚集成富有张力的生态系 ...

  7. 数据之路 - Python爬虫 - 数据存储

    一.文件存储 1.文件打开方式 文件打开方式 说明 r 以只读方式打开文件.文件的指针将会放在文件的开头.这是默认模式 rb 以二进制只读方式打开一个文件.文件指针将会放在文件的开头 r+ 以读写方式 ...

  8. 大数据之路之平台数据开发规范

    一 数据开发规范 命名标准 这个命名包含了表命名,项目命名,作业命名等,拿表名来说,一般都是按系统来为首,业务做次之,接着是表名,最后还加上一些备注信息,demo是 系统_业务_表名_备注,比如来自外 ...

  9. 大数据:技术与应用实践指南_大数据技术与应用社团 社会实践总结篇

    不知不觉,我们已经在家里呆了七个月了 也不知道宿舍还好吗 小伙伴们有没有在家好好学习 在这个漫长的假期里,我们热爱学习的大数据技术与应用社团举办了为期七天的社会实践活动. 本次实践活动主要内容为网页设 ...

最新文章

  1. POJ - 2513 Colored Sticks 欧拉通路+并查集+静态树
  2. GVIM中文编码出现乱码的解决方案
  3. Elasticsearch分布式一致性原理剖析(三)-Data篇
  4. #{}不自动改参数类型_ORT-260电动打包机常规参数
  5. 七、数据库技术基础(一)
  6. “豆瓣酱”之用户,场景,功能
  7. B端产品经理要掌握的基本功
  8. viewState 与session[转]
  9. [Comet OJ - Contest #7 D][52D 2417]机器学习题_斜率优化dp
  10. spring创建webservice项目
  11. 【Flink】RuntimeException: Row arity of from does not match serializers
  12. 守护进程之PHP实现
  13. 1065. 单身狗(25)-PAT乙级真题
  14. 从零开始学ios开发(十四):Navigation Controllers and Table Views(上)
  15. python mysql到处excel
  16. 面试题|集合ArrayList list = new ArrayList(20) 中的list扩充几次?
  17. python open file失败_python open打开文件失败原因及解决办法
  18. 怎么在css中定义字体颜色,css中怎么设置字体颜色
  19. VMWare安装报错:此安装程序要求您重新启动系统以完成 Microsoft VC Redistributable安装,然后重新运行该安装程序。
  20. 中班科学计算机,中班科学活动《蜗牛吃什么》

热门文章

  1. 视频人脸检测 opencv简单应用
  2. c语言根据月份判断季节指针,输入年份和月份,判断是否闰年?并根据月份判断是什么季节和有多少天...
  3. 【转发】程序员和设计师必备:全球高清无版权图片网站推荐
  4. m1芯片mac为2K显示器开启hidpi
  5. 北航计算机考研经历总结
  6. 打开pdf文件目录的方法
  7. 【论文写作】——公式居中,编号居右
  8. window 2003安装完系统之后网卡驱动处理办法
  9. python实现自然语言处理之文本分词
  10. python面板数据模型操作步骤_任何有效的方法来建立面板数据的回归模型?