↑ 点击上方“尚学堂”关注我们

音乐数据中心数仓综合项目

1项目介绍

音乐数据中心项目是大型企业级综合数仓项目,此项目针对音乐数据进行分析,构建数据仓库,建立用户、机器、内容等主题进行数据分析,涉及数仓建模理论基础、数仓建模规则、数仓建模命名设计规范、数仓分层设计、数仓数据采集、数据ETL、数据质量检验、各主题业务处理流程设计、实时数据处理、任务流调度、数据可视化等实际企业级大数据数据中心建设使用到的方法论及实际技术使用流程。

2技术选型

音乐数据中心主要使用技术如下:CDH、flume、sqoop、HDFS、Spark、SparkSQL、Hive、Hbase、Zookeeper、kafka、mysql、redis、yarn、superset、Azkaban等

3项目核心功能模块

音乐数据中心数仓项目主要分析业务如下:

1)针对业务数仓建模分层设计

2)关系型数据库批量、实时采集到数据中心

3)SpringBoot日志采集接口采集日志数据到数据中心

4)歌曲、歌手热度分析

5)机器分布分析

6)机器位置信息统计分析

7)活跃、留存用户分析

8)用户机器营收分析

9)商户营收数据分析

10)地域营收分析

11)实时热歌榜单分析

12)实时PV/UV统计

13)音乐排行榜统计

4适合人群

1)掌握Hadoop及HDFS原理和使用

2)掌握Hive、HBase、Sqoop、Flume工具

3)掌握SparkCore,SparkSQL,SparkStreaming原理及代码编写

4)掌握azkaban原理及使用

5)掌握Kafka原理及使用

6)掌握redis原理及使用

5课程章节

第一章 数据仓库建模理论及模型设计

01_数据仓库建模理论_数据库及数据库三范式设计

02_数据仓库建模理论_ER实体关系模型设计

03_数据仓库建模理论_ER实体关系模型设计案例分析

04_数据仓库建模理论_数据仓库产生原因及数据仓库概念

05_数据仓库建模理论_数据仓库发展过程

06_数据仓库建模理论_维度建模事实表及维度表

07_数据仓库建模理论_维度建模数据分析模型分类

08_数据仓库建模理论_维度建模案例分析

09_数据仓库建模理论_数据仓库分层设计及每层设计思想

10_数据仓库建模理论_数据仓库分层案例分析

11_数据仓库建模理论_数据库与数据仓库区别

第二章 歌曲热度与歌手热度排行

01_音乐数据中心项目_项目介绍

02_音乐数据中心项目_项目技术架构设计

03_音乐数据中心项目_项目集群配置、项目人数及项目开发周期

04_音乐数据中心项目_项目数据仓库分层设计、主题设计、命名规范

05_音乐数据中心项目_歌曲热度及歌手热度_需求

06_音乐数据中心项目_歌曲热度及歌手热度_需求分析 01

07_音乐数据中心项目_歌曲热度及歌手热度_需求分析 02

08_音乐数据中心项目_歌曲热度及歌手热度_表模型设计

09_音乐数据中心项目_歌曲热度及歌手热度_数据仓库分层及数据流转处理流程

10_音乐数据中心项目_歌曲热度及歌手热度_项目结构介绍

11_音乐数据中心项目_歌曲热度及歌手热度_客户端歌曲播放日志数据处理 01

12_音乐数据中心项目_歌曲热度及歌手热度_客户端歌曲播放日志数据处理 02

13_音乐数据中心项目_歌曲热度及歌手热度_客户端歌曲播放日志数据处理 03

14_音乐数据中心项目_歌曲热度及歌手热度_Sqoop 安装及准备jar包

15_音乐数据中心项目_歌曲热度及歌手热度_将歌库歌曲表通过Sqoop导入ODS层

16_音乐数据中心项目_歌曲热度及歌手热度_SparkSQL 使用补充

17_音乐数据中心项目_歌曲热度及歌手热度_ETL获取EDS层歌曲基本信息日全量表 01

18_音乐数据中心项目_歌曲热度及歌手热度_ETL获取EDS层歌曲基本信息日全量表 02

19_音乐数据中心项目_歌曲热度及歌手热度_ETL获取EDS层歌曲特征日统计表 01

20_音乐数据中心项目_歌曲热度及歌手热度_ETL获取EDS层歌曲特征日统计表 02

21_音乐数据中心项目_歌曲热度及歌手热度_微信指数公式及歌曲歌手热度计算公式

22_音乐数据中心项目_歌曲热度及歌手热度_歌曲热度统计 01

23_音乐数据中心项目_歌曲热度及歌手热度_歌曲热度统计 02

24_音乐数据中心项目_歌曲热度及歌手热度_歌手热度统计 01

25_音乐数据中心项目_歌曲热度及歌手热度_歌手热度统计 02

26_音乐数据中心项目_歌曲热度及歌手热度_Azkaban任务流调度环境准备

27_音乐数据中心项目_歌曲热度及歌手热度_Azkaban任务流脚本准备 01

28_音乐数据中心项目_歌曲热度及歌手热度_Azkaban任务流脚本准备 02

29_音乐数据中心项目_歌曲热度及歌手热度_Azkaban任务流配置及任务流调度任务

30_音乐数据中心项目_歌曲热度及歌手热度_Azkaban任务调度结果查看及SuperSet介绍

31_音乐数据中心项目_Superset BI可视化_Superset基于Linux安装

32_音乐数据中心项目_Superset BI可视化_Superset界面介绍及导入数据源及表

33_音乐数据中心项目_Superset BI可视化_Superset 图表制作

34_音乐数据中心项目_Superset BI可视化_Superset 柱状图制作

35_音乐数据中心项目_Superset BI可视化_Superset 饼图及自定义页面制作

36_音乐数据中心项目_Superset BI可视化_Superset 折线图制作

37_音乐数据中心项目_歌曲热度及歌手热度_结果使用Superset 可视化展示

第三章 机器详细信息统计及日活跃用户统计

01_音乐数据中心项目_机器详细信息统计_需求及数据来源

02_音乐数据中心项目_机器详细信息统计_需求分析

03_音乐数据中心项目_机器详细信息统计_数仓分层ODS层设计

04_音乐数据中心项目_机器详细信息统计_数仓分层EDS层及DM层设计

05_音乐数据中心项目_机器详细信息统计_Sqoop导入mysql数据到ODS层 01

06_音乐数据中心项目_机器详细信息统计_Sqoop导入mysql数据到ODS层 02

07_音乐数据中心项目_机器详细信息统计_EDS层数据ETL 01

08_音乐数据中心项目_机器详细信息统计_EDS层数据ETL 02

09_音乐数据中心项目_机器详细信息统计_EDS层数据ETL 03

10_音乐数据中心项目_机器详细信息统计_Azkaban任务流自动调度 01

11_音乐数据中心项目_机器详细信息统计_Azkaban任务流自动调度 02

12_音乐数据中心项目_机器详细信息统计_报表使用Superset可视化展示

13_音乐数据中心项目_用户画像7日活跃用户分析__需求及数据来源

14_音乐数据中心项目_用户画像7日活跃用户分析__需求分析

15_音乐数据中心项目_用户画像7日活跃用户分析__数据仓库ODS、EDS、DM分层设计

16_音乐数据中心项目_用户画像7日活跃用户分析__Sqoop导入mysql数据到ODS层 01

17_音乐数据中心项目_用户画像7日活跃用户分析__Sqoop导入mysql数据到ODS层 02

18_音乐数据中心项目_用户画像7日活跃用户分析__业务处理数据分析

19_音乐数据中心项目_用户画像7日活跃用户分析__EDS层数据ETL 01

20_音乐数据中心项目_用户画像7日活跃用户分析__EDS层数据ETL 02

21_音乐数据中心项目_用户画像7日活跃用户分析__Azkaban任务流自动调度 01

22_音乐数据中心项目_用户画像7日活跃用户分析__Azkaban任务流自动调度 02

23_音乐数据中心项目_用户画像7日活跃用户分析__Superset可视化展示数据

第四章 商户及地区营收统计

01_音乐数据中心项目_商户、地区营收统计__商户营收统计与地区营收统计需求

02_音乐数据中心项目_商户营收统计__商户营收统计需求分析 01

03_音乐数据中心项目_商户营收统计__商户营收统计需求分析 02

04_音乐数据中心项目_商户营收统计__商户营收统计数仓分层设计 01

05_音乐数据中心项目_商户营收统计__商户营收统计数仓分层设计 02

06_音乐数据中心项目_商户营收统计__用户上报机器位置信息数据增量导入ODS层

07_音乐数据中心项目_商户营收统计__用户上报机器位置信息业务分析 01

08_音乐数据中心项目_商户营收统计__用户上报机器位置信息业务分析之高德api使用 02

09_音乐数据中心项目_商户营收统计__用户上报机器位置信息业务分析之高德api使用 03

10_音乐数据中心项目_商户营收统计__用户上报机器位置信息业务 ETL 数据清洗获取EDS层数据 01

11_音乐数据中心项目_商户营收统计__用户上报机器位置信息业务 ETL 数据清洗获取EDS层数据 02

12_音乐数据中心项目_商户营收统计__机器消费订单明细数据增量导入ODS层

13_音乐数据中心项目_商户营收统计__机器消费订单明细数据业务 ETL 数据清洗获取EDS层数据

14_音乐数据中心项目_商户营收统计__机器日营收情况统计表业务分析 01

15_音乐数据中心项目_商户营收统计__机器日营收情况统计表业务分析 02

16_音乐数据中心项目_商户营收统计__机器日营收情况统计表 ETL 数据分析得到EDS层数据

17_音乐数据中心项目_商户营收统计__机器日营收情况统计表 ETL 数据分析得到DM层结果数据

18_音乐数据中心项目_地区营收统计__地区营收统计业务需求

19_音乐数据中心项目_地区营收统计__地区营收统计获取DM层数据

20_音乐数据中心项目_商户、地区营收统计__Azkaban任务调度环境准备

21_音乐数据中心项目_商户、地区营收统计__Azkaban任务调度编写及执行 01

22_音乐数据中心项目_商户、地区营收统计__Azkaban任务调度编写及执行 02

23_音乐数据中心项目_商户、地区营收统计__使用Superset数据可视化展示结果

第五章 实时业务统计

01_音乐数据中心项目_流式业务处理_流式业务介绍

02_音乐数据中心项目_流式业务处理_日志采集接口设计Controller

03_音乐数据中心项目_流式业务处理_日志采集接口设计Service

04_音乐数据中心项目_流式业务处理_日志采集接口设计 Log日志目录配置

05_音乐数据中心项目_流式业务处理_日志采集接口设计 Log日志采集测试

06_音乐数据中心项目_流式业务处理_日志采集接口部署到Linux中及Flume搭建配置

07_音乐数据中心项目_流式业务处理_使用Flume采集接口日志到Kafka

08_音乐数据中心项目_流式业务处理_实时统计pv&uv业务分析

09_音乐数据中心项目_流式业务处理_实时统计pv&uv业务代码

10_音乐数据中心项目_流式业务处理_实时统计pv&uv数据执行及结果查看

11_音乐数据中心项目_流式业务处理_实时统计歌曲点播热榜业务分析

12_音乐数据中心项目_流式业务处理_实时统计歌曲点播热榜业务数据准备

13_音乐数据中心项目_流式业务处理_实时统计歌曲点播热榜业务代码及数据结果查看

第六章 Spark优化

01_Spark优化_资源优化设置

02_Spark优化_并行度设置

03_Spark优化_自定义分区器设置

04_Spark优化_代码优化 01

05_Spark优化_代码优化 02

06_Spark优化_代码优化 03

07_Spark优化_代码优化 04

08_Spark优化_SparkShuffle优化及Spark内存优化

09_Spark优化_Spark堆外内存优化

10_Spark优化_Spark数据倾斜

11_Spark优化_第一类方式解决Spark数据倾斜

12_Spark优化_第二类方式解决Spark数据倾斜

13_Spark优化_第三类方式解决Spark数据倾斜 01

14_Spark优化_第三类方式解决Spark数据倾斜案例分析

15_Spark优化_第三类方式解决Spark数据倾斜 02

全套课程大纲

扫码查看

数仓建模 项目_音乐数据项目火力全开,技能双倍提升!相关推荐

  1. ☀️ 数仓建模理论,大数据邻域通用的维度建模技巧【建议收藏学习】

    文章目录 前言: 正文: 关系建模 关系建模的特点 维度建模 维度建模的特点 事实表 维度模型的分类 各模型的适用场景 建模阶段具体的划分 1. ODS层 ( 原始数据存储层,直接加载原始日志.数据保 ...

  2. 数仓 建模思想之星型模型、雪花模型、星座模型

    数仓 建模思想之星型模型.雪花模型.星座模型 1. 背景 在大数据开发中,数据一般是分为事实表,维度表,实体表等表. 事实表顾名思义就是记录实际发生的事情如订单表,优惠券使用表等等. 维度表,顾名思义 ...

  3. 游戏数仓分析(三)SpringBoot项目对数据进行可视化展示,每日注册用户

    在游戏数仓分析(二)SpringBoot项目对数据进行可视化展示中已经做出一定的演示:https://georgedage.blog.csdn.net/article/details/10327840 ...

  4. 数据治理系列:数仓建模之数仓主题与主题域

    背景: 数据仓库之父 Bill Inmon 将数据仓库描述为一个面向主题的.集成的.稳定的.反应历史变化的数据集合,用于支持管理者的决策过程. 从上面的引言里面,我们其实可以知道主题在数仓建设里面绝对 ...

  5. 大数据数仓建模(3)

    大数据数仓建模(3) 2.2.6 人员配置参考 1.旁敲侧击的问你到底做过没有 2.你们大概规模,数据量 1整体架构 属于研发部/技术部/数据部/基础平台部,我们属于大数据组,其他还有后端项目组,前端 ...

  6. 大数据数仓建模 - 维度建模 实战及思路过程 (两年数仓建模经验 纯干货)

    数仓维度建模 维度建模方法论: 维度建模 是以业务过程为驱动 先确定某些业务过程 围绕业务过程去建立模型 通常采用自底向上的方法 从明确关键业务过程开始 再到明确粒度 再到明确维度  最后明确事实 在 ...

  7. 数仓建模—数据领域常见概念与职位划分

    数据领域常见概念 随着大数据时代的普及以及国家战略层面上的数字化转型,越来越多的客户意识到了"数据"的重要性,无论是走在前面的互联网企业.银行,还是传统有一定数据积累的零售.医药行 ...

  8. 数仓建模—数据同步方案设计

    数据同步方案设计 通过前面的学习数据仓库的特性之一是集成,关于一点你可以参考我们前面的文章 数仓建模-数仓初识 数仓建模-数据集成 数据集成狭义上来说就是把未经过加工处理的.不同来源的.不同形式的的原 ...

  9. 大数据开发之数仓建模

    目录 简介 1.什么是数据模型? 2.为什么需要数据模型? 3.如何建设数据模型? 简介 每个行业都有自己的模型,但不难发现,在数据建模的方法上,它们都有着共通的基本特点. 文章主要分以下几个方面来简 ...

最新文章

  1. python安装pyqt5 qml_PyQt5:PyQt5程序打包2
  2. nginx:模块讲解
  3. Python:python语言中与时间有关的库函数简介、安装、使用方法之详细攻略
  4. linux上怎么解压zip文件和tar.gz文件
  5. 马哥linux 教程---vim编辑器进阶课后题
  6. 诗与远方:无题(三十五)- 曾经写给妹子的一首诗
  7. CoreMotion 框架
  8. Java中的try/catch/finally
  9. python3语法学习第四天--字符串
  10. centos8 yum源配置
  11. 云计算发展现状及未来趋势
  12. 计算机模拟地球爆炸,地球爆炸模拟器
  13. 浅谈垂心四面体的垂心组
  14. vb语言中怎样编码窗体中所有字体加粗_VBText控件中使字体加粗和倾斜的代码是什么...
  15. 新生研讨-校外人员进入校园问题以及通信工程专业给予相关解决方案
  16. 人脸识别-在视频中识别人脸
  17. 企业微信app中退出某个企业 最新版 图文
  18. 如何选择适合你的兴趣爱好(四十八),手风琴
  19. 豆豆趣事[2012年03月]
  20. VMware下CentOS7最小化安装及配置

热门文章

  1. pandas使用replace函数移除dataframe数值数据中的逗号并基于处理后的数据生成新的整型数据列(remove comma from column values in Pandas)
  2. R语言使用ggplot2包使用geom_dotplot函数绘制分组点图(配置显示的分组)实战(dot plot)
  3. R语言使用ggplot2包使用geom_boxplot函数绘制基础分组箱图(手动配置箱图箱体颜色)实战
  4. python使用imbalanced-learn的ClusterCentroids方法进行下采样处理数据不平衡问题
  5. python使用imbalanced-learn的AllKNN方法进行下采样处理数据不平衡问题
  6. python删除列表中的重复元素并保持相对顺序不变
  7. 交替最小二乘+ALS+推荐+Spark
  8. Mirror, Mirror,What do I see、一切都是投射
  9. permutation_importance是什么?背后的思想又是什么?是如何使用permutation_importance计算特征重要度的?
  10. Numpy与Pandas基础