我正在参加年度博客之星评选,请大家帮我投票打分,您的每一分都是对我的支持与鼓励。

2021年「博客之星」参赛博主:Maynor大数据 (感谢礼品、红包免费送!)

https://bbs.csdn.net/topics/603955366

文章目录

  • 我正在参加年度博客之星评选,请大家帮我投票打分,您的每一分都是对我的支持与鼓励。
    • 前言
    • 1. 业务背景
    • 2. 日志数据集介绍
    • 3. 构建数据仓库
    • 4 数据预处理
    • 5 订单指标分析
    • 6 Sqoop数据导出
    • 7.数据导出操作
    • 8 Superset数据可视化
    • 总结
  • 要下的配套资料,已经上传到百度网盘好了

大家好,我是ChinaManor,直译过来就是中国码农的意思,我希望自己能成为国家复兴道路的铺路人,大数据领域的耕耘者,平凡但不甘于平庸的人。

前言

作为技术人,我是不怎么八卦的,奈何这次国家重拳整理的是“大数据乱象”,manor作为大数据专业的学生,不得不关注此次的滴滴事件。滴滴出行APP被下架,此时入职滴滴,好比49年加入国军~

但是,外面的世界不管怎么变化,掌握好技术是你安身立命的根本,接下来我们就来学习一下:数仓实战项目之滴滴出行
本课程会综合应用HDFS、Hive、SparSQL、Zeppelin、Sqoop、Superset等技术,结合滴滴出行的数据完成数仓实战。

滴滴出行实战需要的技术

滴滴出行项目可视化

因此,学习本课程,需要你具备以下技术的简单基础技能:

HDFS
Hive
SparSQL
Zeppelin
Sqoop
Superset
该实战项目能够教会你,如何做:

日志数据集
数据仓库构建
数据分区表构建
数据预处理
订单指标分析
Sqoop数据导出
Superset数据可视化
那么如何学习本课呢?
一定要动手实践,在自己的电脑上完成。

接下来就开始学习吧!

1. 业务背景

1.1 业务介绍
滴滴拥有超过4.5亿用户,在中国400多个城市开展服务,每天的订单量高达2500W,每天要处理
的数据量4500TB。仅仅在北京,工作日的早高峰一分钟内就会有超过1600人在使用滴滴打车。通过对这些数据进行分析,了解到不同区域、不同时段运营情况。通过这些出行大数据,还可以看到不同城市的教育、医疗资源的分布,长期观察对城市经济、社会资源的发展、变迁情况,有非常有研究价值。
本次的案例将某出行打车的日志数据来进行数据分析,例如:我们需要统计某一天订单量是多少、
预约订单与非预约订单的占比是多少、不同时段订单占比等。最终效果如下:


1.2 架构图
要进行大规模数据分析,我们要考虑几个问题:

  1. 打车的用户量非常庞大,数以亿记的用户将会有海量的数据需要存储。如何保存这些数据呢?
  2. 为了方便对这些大规模数据进行处理、分析,我们如何建立数据模型,方便进行业务分析呢?
  3. 亿级的数据如何保证效率,效率分析?
  4. 数据分析的结果,应该以更易懂的方式呈现出现,如何展示这些数据?
    要解决这些问题,我们需要设计一套大数据架构来解决上述问题。

解决方案:

  1. 用户打车的订单数据非常庞大。所以我们需要选择一个大规模数据的分布式文件系统来存储这些
    日志文件,此处,我们基于Hadoop的HDFS文件系统来存储数据。
  2. 为了方便进行数据分析,我们要将这些日志文件的数据映射为一张一张的表,所以,我们基于
    Hive来构建数据仓库。所有的数据,都会在Hive下来几种进行管理。为了提高数据处理的性能。
  3. 我们将基于Spark引擎来进行数据开发,所有的应用程序都将运行在Spark集群上,这样可以保证
    数据被高性能地处理。
  4. 我们将使用Zeppelin来快速将数据进行可视化展示。

2. 日志数据集介绍

2.1 日志数据文件
我们要处理的数据都是一些文本日志,例如:以下就是一部门用户打车的日志文件。

b05b0034cba34ad4a707b4e67f681c71,15152042581,109.348825,36.068516, 陕 西 省 , 延 安
市,78.2,男,软件工程,70后,4,1,2020-4-12 20:54,0,,2020-4-12 20:06
23b60a8ff11342fcadab3a397356ba33,15152049352,110.231895,36.426178, 陕 西 省 , 延 安
市,19.5,女,金融,80后,3,0,,0,,2020-4-12 4:04
1db33366c0e84f248ade1efba0bb9227,13905224124,115.23596,38.652724, 河北省 , 保 定
市,13.7,男,金融,90后,7,1,2020-4-12 10:10,0,,2020-4-12 0:29
46cfb3c4b94a470792ace0efdd2df11a,13905223853,113.837765,34.743035, 河 南 省 , 郑 州
市,41.9,女,新能源,00后,9,0,,0,,2020-4-12 1:15
878f401c9ca6437585ce1187053c220a,13905223356,113.837765,31.650084, 湖 北 省 , 随 州
市,35.6,男,教育和培训,80后,8,1,2020-4-12 1:06,0,,2020-4-12 4:35
44165cf545734bf6a114aa641479e828,15895252169,109.275236,34.255614, 陕 西 省 , 西 安
市,30.8,女,O2O,90后,8,0,,1,15152049060,2020-4-12 5:07

2.2 用户打车订单日志
每当用户发起打车时,后台系统都会产生一条日志数据,并形成文件。

b05b0034cba34ad4a707b4e67f681c71,15152042581,109.348825,36.068516, 陕西省 , 延 安
市,78.2,男,软件工程,70后,4,1,2020-4-12 20:54,0,,2020-4-12 20:06

这条日志包含了以下这些字段:
orderId 订单id
telephone 打车用户手机
long 用户发起打车的经度
lat 用户发起打车的纬度
province 所在省份
city 所在城市
es_money 预估打车费用
gender 用户信息 - 性别
profession 用户信息 - 行业
age_range 年龄段(70后、80后、…)
tip 小费
subscribe 是否预约(0 - 非预约、1 - 预约)
sub_time 预约时间
is_agent 是否代叫(0 - 本人、1 - 代叫)
agent_telephone 预约人手机
order_time 订单时间

2.3 用户取消订单日志

当用户取消订单时,也会在系统后台产生一条日志。用户需求选择取消订单的原因。


2.4 用户支付日志

用户点击确认支付后,系统后台会将用户的支持信息保存为一条日志。

2.5 用户评价日志
用户评价日志:用户点击提交评价后,系统后台也会产生一条日志。
用户评价日志数据内容

3. 构建数据仓库

需要对日志文件的原始数据进行预处理,才能进行分析。

有这么几类数据要考虑:

原始日志数据(业务系统中保存的日志文件数据)

预处理后的数据

分析结果数据

这些数据通过Hive来进行处理,因为Hive可以将数据映射为一张张的表,然后就可以通过编写HQL来处理数据了,简单、快捷、高效。为了区分以上这些数据,我们将这些数据对应的表分别保存在不同的数据库中。

接下来就要创建三个数据库,分别用来管理每一层的表数据

在ods数据库中创建三种表单

创建用户打车订单表
创建取消订单表
创建订单表支付表
创建用户评价表

大规模数据的处理,必须要构建分区。

此处的需求每天都会进行数据分析(做的是离线分析),采用T+1的模式。

表加载数据的代码如下

4 数据预处理

预处理的需求

建宽表语句

预处理SQL语句

加载到宽表中

5 订单指标分析

需求:计算4月12日总订单笔数
1.编写HQL语句

selectcount(orderid) as total_cnt
fromdw_didi.t_user_order_wide
where dt = '2020-04-12’
;
  1. app层建表
-- 创建保存日期对应订单笔数的app表
create table if not exists app_didi.t_order_total(date string comment '日期(年月日)',count integer comment '订单笔数'
)
partitioned by (month string comment '年月,yyyy-MM')
row format delimited fields terminated by ','
;
  1. 加载数据到app表
insert overwrite table app_didi.t_order_total partition(month='2020-04')
select '2020-04-12',count(orderid) as total_cnt
From  dw_didi.t_user_order_wide
Where   dt = '2020-04-12';

6 Sqoop数据导出

Apache Sqoop是在Hadoop生态体系和RDBMS体系之间传送数据的一种工具。来自于Apache软件基金会提供。
Hadoop生态系统包括:HDFS、Hive、Hbase等
RDBMS体系包括:Mysql、Oracle、DB2等。
Sqoop可以理解为:“SQL 到 Hadoop 和 Hadoop 到SQL”。

-- 创建目标数据库
create database if not exists app_didi;
-- 创建预约订单/非预约订单结果表
CREATE TABLE IF NOT EXISTS app_didi.t_order_subscribe_total(
DATE DATE COMMENT '日期',
subscribe_name VARCHAR(20) COMMENT '是否预约',
COUNT INT COMMENT '订单数量'
);
-- 创建不同时段订单占比分析结果表
CREATE TABLE IF NOT EXISTS app_didi.t_order_timerange_total(
DATE DATE COMMENT '日期',
timerange VARCHAR(20) COMMENT '时间段',
COUNT INTEGER COMMENT '订单数量'
);
-- 创建不同地域订单占比分析结果表
CREATE TABLE IF NOT EXISTS app_didi.t_order_province_total(
DATE DATE COMMENT '日期',
province VARCHAR(20) COMMENT '省份',
COUNT INTEGER COMMENT '订单数量'
);
-- 创建不同年龄段订单占比分析结果表
CREATE TABLE IF NOT EXISTS app_didi.t_order_agerange_total(
DATE DATE COMMENT '日期',
age_range VARCHAR(20) COMMENT '年龄段',
COUNT INTEGER COMMENT '订单数量'
);

7.数据导出操作

将Hive中的结果表导出到Mysql中
(非全部)

   #导出订单总笔数表数据bin/sqoop export \--connect jdbc:mysql://192.168.88.100:3306/app_didi \--username root \--password 123456 \--table t_order_total \--export-dir /user/hive/warehouse/app_didi.db/t_order_total/month=2020-04#导出预约和非预约订单统计数据bin/sqoop export \--connect jdbc:mysql://192.168.88.100:3306/app_didi \--username root \--password 123456 \

8 Superset数据可视化

Superset是一款开源的现代化企业级BI,是目前开源的数据分析和可视化工具中比较好用的,功能简单但可以满足我们对数据的基本需求,支持多种数据源,图表类型多,易维护,易进行二次开发。
它的特点如下:
1.丰富的数据可视化集
2.易于使用的界面,用于浏览和可视化数据
3.可提供身份验证
在真正开始利用Superset对数据可视化之前,要先将Superset连接据库,又称创建数据源。

实现步骤
1.创建看板
2.设置看板名字
3.进入看板
4.编辑看板
5.选择自定义图表
6.制作看板
7.调整看板位置

至于看板效果呈现,就交给读者自行完成了~~

总结

希望这次国家重拳出击整顿“大数据杀熟”,能够彻底有效,毕竟即便是笔者是学大数据的,如果不多下几个APP比价,也免不了被杀熟。此外,希望通过此次整顿,大数据行业能够更加健康有序发展,这对于我们从业人员也是有好处的,因为大数据技术的出现并不全是坏处,前不久的疫情严重时,健康码,快速检测过关都有大数据在背后做支撑,使用“大数据”利剑并没有错,错的是使用在什么地方,真心祝愿技术都能用在有益于全人类的地方。

要下的配套资料,已经上传到百度网盘好了

关注之后,私信我免费获取!
为了涨粉也是拼了~
ps:资料已同步更新到 微信公众号:Maynor学长

滴滴出行大数据数仓实战相关推荐

  1. Python+大数据-数仓实战之滴滴出行(二)

    Python+大数据-数仓实战之滴滴出行(二) 1. 数据转移 #验证sqoop是否工作 /export/server/sqoop-1.4.7/bin/sqoop list-databases \ - ...

  2. Python+大数据-数仓实战之滴滴出行(一)

    Python+大数据-数仓实战之滴滴出行(一) 1. 项目架构图 1.1 数据流程处理 1.2 数仓分层 1.3 创建数据库 在Hive中创建数据库-- 创建ods库 create database ...

  3. Python + 大数据 - 数仓实战之智能电商分析平台

    Python + 大数据 - 数仓实战之智能电商分析平台 1. 项目架构 2. 数据仓库维度模型设计-事实表 事实表的特征:表里没有存放实际的内容,他是一堆主键的集合,这些ID分别能对应到维度表中的一 ...

  4. 大数据数仓建模(3)

    大数据数仓建模(3) 2.2.6 人员配置参考 1.旁敲侧击的问你到底做过没有 2.你们大概规模,数据量 1整体架构 属于研发部/技术部/数据部/基础平台部,我们属于大数据组,其他还有后端项目组,前端 ...

  5. 大数据/数仓面试灵魂30问

    1.什么是数据仓库?如何构建数据仓库?(如果这个问题回答的好,后面很多问题都不需要再问) 2.如何建设数据中台?可简单说下理解与思路 3.数据仓库.数据中台.数据湖的理解 4.传统数仓的程度(建模工具 ...

  6. 大数据/数仓面试灵魂30问(转)

    1.什么是数据仓库?如何构建数据仓库?(如果这个问题回答的好,后面很多问题都不需要再问) 2.如何建设数据中台?可简单说下理解与思路 3.数据仓库.数据中台.数据湖的理解 4.传统数仓的程度(建模工具 ...

  7. 大数据数仓高级面试题整理

    大家好,给大家整理了一下大数据数仓高级面试题,希望大侠们能够喜欢. 数仓高内聚低耦合是怎么做的 定义 高内聚:强调模块内部的相对独立性,要求模块内部的元素尽可能的完成一个功能,不混杂其他功能,从而使模 ...

  8. 【大数据数仓项目集群配置 一】

    本文用于记录我的第一次内网大数据集群配置过程. 本篇主要实现基础配置. 配置使用的软件版本和脚本参考自尚硅谷,链接如下: 链接: https://www.bilibili.com/video/BV1r ...

  9. 大数据数仓建模 - 维度建模 实战及思路过程 (两年数仓建模经验 纯干货)

    数仓维度建模 维度建模方法论: 维度建模 是以业务过程为驱动 先确定某些业务过程 围绕业务过程去建立模型 通常采用自底向上的方法 从明确关键业务过程开始 再到明确粒度 再到明确维度  最后明确事实 在 ...

最新文章

  1. Python基础(一)简介与安装
  2. 「前端」History API与浏览器历史堆栈管理
  3. ruby 数组元素替换_从Ruby中的集合中删除并替换元素
  4. hibernate mysql 配置文件_hibernate 框架的配置文件和映射文件以及详解
  5. C语言课后习题(8)
  6. java做爬虫和python做爬虫_为什么常用Python,Java做爬虫,而不是C#C++等?
  7. Java-创建图片验证码descriptor
  8. GIt帮助文档之创建新的Git仓库——现有目录下,通过导入所有文件来创建
  9. python词嵌入_【自然语言处理】收藏!使用Python的4种句嵌入技术
  10. C#二进制方式(binary、varbinary、blob、longblog等)读写mysql
  11. apk java反编译_【Apk反编译】如何反编译Apk得到Java源代码
  12. 邱锡鹏nndl学习记录
  13. vue中使用video-player和百度地图
  14. 何谓情比金坚——婚姻来源和相关说法
  15. 获取非行间样式和行间样式 Math对象
  16. Android代码规约
  17. 微信开放平台-第三方平台开发配置及常见的问题
  18. iOS开发者账号的区别
  19. CAN总线电容过大的有效解决方法
  20. 自定义域名:为自己的CSDN博客添加自定义域名吧!

热门文章

  1. 公众号榜单 | 2020·6月公众号行业排行榜重磅发布
  2. POI-TL使用及工具类
  3. Day12 学习分享 - 面向对象
  4. 菜鸟网络面试——123面
  5. Google收购传感器公司Lumedyne
  6. Compareprice多平台跟得物比价
  7. 好分数阅卷3.0_好分数app下载-好分数网查成绩安卓版app v3.6.4.1-清风安卓软件网...
  8. websocket没准备好如何解决_看完让你彻底搞懂Websocket原理
  9. class在c语言中,C语言中的class的应用
  10. 【Python 百练成钢】快速上手并查集