1.数据架构

2.数据仓库建模

目前的构建方法主要有三种:
 范式建模法
 维度建模法
 实体建模法

1.范式建模:主要解决关系型数据库的数据存储

数据库六大范式说明
 第1范式-1NF:无重复的列、列不可再拆分。
 第2范式-2NF:属性完全依赖于主键
 第3范式-3NF:属性不依赖于其它非主属性,即属于依赖于主键不能出现传递依赖。
 巴斯-科德范式(BCNF),第四范式(4NF),第五范式(5NF,又称完美范式)

2.维度建模法

事实表,维度表来构建数据仓库,最被人广泛知晓的名字就是星型模式(Star-schema)和雪花模式(Snowflake-schema)。

事实表:
发生在某个时间点上的一个事件,即具体的实体内容。
维度表:
从事实表中抽离出来的分析粒度,维度表中包含事实数据表中事实记录的特性。

星型建模法

雪花建模法
优点是通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。
雪花型结构去除了数据冗余。

3.数据分析

3.1 函数分类

分析函数

  • ROW_NUMBER:序列分析函数,用于排序,按照顺序,不关心是否有相等情况,从1开始逐条给数据一个加1后的序列号。如1,2,3,4…
  • RANK:序列分析函数,用于排序,按照顺序,关心相等情况,如遇到相等情况,名次会留下空位。如1,2,2,4,4,6…
  • DENSE_RANK:序列分析函数,用于排序,关心相等情况,如遇到相等情况,名次不会留下空位。如1,2,2,3,3,4…

窗口函数

  • LAG:函数LAG(col,n,DEFAULT)用于统计窗口内往上第n行值。
  • LEAD:与LAG作用相反,函数形式如LEAD(col,n,DEFAULT) 用于统计窗口内往下第n行值。
  • FIRST_VALUE: 取分组内排序后,截止到当前行,第一个值
  • LAST_VALUE:与FIRST_VALUE相反

over()从句:指定分析窗口函数的细化落围规则

  • 与标准的聚合函数COUNT、SUM、MIN、MAX、AVG联用,如sum(…) over(…)
  • PARTITION BY语句,使用一个或者多个原始数据类型的列
  • PARTITION BY与ORDER BY语句,使用一个或者多个数据类型的分区或者排序列

使用窗口规范窗口规范支持以下格式:

  • ROWSBETWEEN:窗口子句,属于物理截取,即物理窗口,从行数上控制截取数据的大小多少。
  • RANGE BETWEEN:窗口子句,属于逻辑截取,即逻辑窗口,从列值上控制窗口的大小多少。
  • PRECEDING:window子句之往前
  • FOLLOWING:window子句之往后 CURRENT ROW:window子句之当前行
  • UNBOUNDED:window子句之起点,UNBOUNDED PRECEDING 表示从前面的起点,UNBOUNDED
  • FOLLOWING:表示到后面的终点。 注意:order by子句后边如果没有跟着多大窗口,则默认为range between unbounded preceding and current row

Hive企业应用—数据仓库架构相关推荐

  1. Flume在企业大数据仓库架构中位置及功能

    Flume在企业大数据仓库架构中位置及功能 hadoop 数据仓库 flume 数据仓库架构 1.如下图所示,外部数据中,关系型数据库导入到HDFS用sqoop,由Nginx产生的文件实时监控用Flu ...

  2. 基于阿里云数加MaxCompute的企业大数据仓库架构建设思路

    摘要: 数加大数据直播系列课程主要以基于阿里云数加MaxCompute的企业大数据仓库架构建设思路为主题分享阿里巴巴的大数据是怎么演变以及怎样利用大数据技术构建企业级大数据平台. 本次分享嘉宾是来自阿 ...

  3. Hive参数深入浅出,Hive企业应用

    1Hive参数介绍 特别说明(面试大概率会问)     一 关于数据倾斜的问题 1概念说明: 在大数据处理环境下,数据处理过程出现明显的倾斜现象,导致任务整体迟迟不能完全结束 2特点特征: a在作业或 ...

  4. 电商数仓描述_大数据企业级电商数据仓库架构设计和实现(技术点与企业接轨)...

    课程咨询和资料获取请加老师QQ  1011800132 该项目以国内电商巨头实际业务应用场景为依托,紧跟大数据主流需求,对电商数仓的常见实战指标以及难点实战指标进行了详尽讲解,让你迅速成长,获取最前沿 ...

  5. 一篇文章搞懂数据仓库:数据仓库架构-Lambda和Kappa对比

    在介绍Lambda和Kappa架构之前,我们先回顾一下数据仓库的发展历程: 传送门-数据仓库发展历程 写在前面 咳,随着数据量的暴增和数据实时性要求越来越高,以及大数据技术的发展驱动企业不断升级迭代, ...

  6. 基于阿里云 MaxCompute 构建企业云数据仓库CDW

    在本文中阿里云资深产品专家云郎分享了基于阿里云 MaxCompute 构建企业云数据仓库CDW的最佳实践建议. 本文内容根据演讲视频以及PPT整理而成. 大家下午好,我是云郎,之前在甲骨文做企业架构师 ...

  7. 企业的应用架构演变之路

    作者|杨堃编辑|Gary 企业应用架构是指一整套软件系统的构建,通过合理的划分和设计组合在一起,支持企业方方面面的经营运作.不论是传统企业,还是互联网公司,发展到一定阶段,都需要一整套体系化的应用架构 ...

  8. 数据仓库架构以及数据模型的设计

    1.什么是数据仓库? 权威定义:数据仓库是一个面向主题的.集成的.相对稳定的.反映历史变化的数据集合,用于支持管理决策. 1)数据仓库是用于支持决策.面向分析型数据处理: 2)对多个异构的数据源有效集 ...

  9. 视频教程-直通企业的数据仓库处理术—启动篇-大数据

    直通企业的数据仓库处理术-启动篇 数据架构与处理方向咨询师. 某高等教育职业技术学院特约讲师. 12年银行金融和保险业项目经验. 熟悉项目管理,数据建模,ETL数据处理和报表展现.在数据建模,数据仓库 ...

最新文章

  1. 对抗生成网络_深度卷积生成对抗网络
  2. 使用Java反射更改私有静态最终字段
  3. java oracle 建表语句_在oracle数据库中创建表语句如何写?
  4. 蓝桥杯-9-3摩尔斯电码(java)
  5. java定义一个静态类_Java中的静态类
  6. XML Web services 发现
  7. c语言作业答案 填空题,C语言练习题-填空题(带答案)
  8. 支付宝h5跳转小程序
  9. 漏扫工具:Docker一键安装AWVS和Nessus
  10. SVM支持向量机原理及代码实现(包含数学原理,超详细)
  11. 腾讯云 + picgo图床功能
  12. Glassfish的安装与使用
  13. java万年历 节日_用java语言编写一个万年历程序,要求只显示阳历、节日、还有农历年、闰年...
  14. 天玑810处理器怎么样 天玑810相当于什么水平
  15. 山东计算机技校排名,山东技校排名前十 山东有什么好的技校
  16. 计算机无法启动安装程序,win7电脑无法安装程序或安装的程序不能运行怎么办...
  17. 练手必备,20个Python实战项目含源代码
  18. Amazon DynamoDB
  19. KeyDown,KeyPress 和KeyUp 之我谈
  20. ResNet成阿尔法元核心技术 旷视孙剑详解Zero的伟大与局限

热门文章

  1. [NOIP集训]10月18日
  2. MiniGUI编译器前的注意点
  3. 档案管理学试题及答案
  4. 单片机红外发射c语言程序,合泰单片机HT66F018红外发射C程序及电路图资料
  5. 给你的PPT加上美观实用的导航自我介绍ppt模板
  6. 通达信下单接口下载获取数据的方法
  7. JavaBean实现多个文件上传的两种方法
  8. 实习笔记Day14(2022.8.23)
  9. 9月高价域名TOP35:Gay.XXX位居榜首
  10. 云来场景应用LiveApp疑遭“山寨”