spark企业级电商分析平台项目实践(一)项目介绍和需求分析
前言
这个专栏的系列文章,是一个电商分析平台项目实践过程中的记录和总结。
基于 spark2.4.x 和 scala2.11.x
一. 项目概述
访问电商网站时,我们的一些访问行为会产生相应的埋点日志,日志会被发送到后台服务器,大数据部分根据数据分析用户行为,得出一系列统计指标。
本项目采用模拟的离线数据和实时数据。
二. 需求概述
总共有十个需求,分为四个模块来实现
上图为四个模块:用户访问session统计、页面单跳转化率、区域热门商品统计三个模块属于离线分析,广告流量实时统计属于实时分析
- 用户访问session统计
- 页面单跳转化率
页面单跳转化率是一个非常有用的统计数据,可以依据来优化页面布局,调整经营布局等来吸引用户最终进入支付页面。
- 区域热门商品统计
主要实现每天统计出各个区域的top3热门商品,统计热门商品可以为商品区域调整调度做依据,参考京东本地仓和京东物流的快捷 - 广告流量实时统计
网站给第三方做广告,是一比收入来源,费用的统计通过实时流量来计算。
三. 数据结构解析
1.离线数据解析
离线数据主要包含三张表:动作表、用户表、物品表。表中数据字段如上图
2.实时数据解析
数据模拟模块每5秒向Kafka集群写入数据,spark streaming模块订阅消费Kafka中的数据。
实时数据字段如上图
spark企业级电商分析平台项目实践(一)项目介绍和需求分析相关推荐
- spark项目实战:电商分析平台之各个范围Session步长、访问时长占比统计(需求一)
spark项目实战:电商分析平台之各个范围Session步长.访问时长占比统计(需求一) 项目基本信息,架构,需要一览 各个范围Session步长.访问时长占比统计概述 各个范围Session步长.访 ...
- spark项目实战:电商分析平台之项目概述
spark项目实战:电商分析平台之项目概述 目录 项目概述 程序架构分析 需求解析 初始代码和完成代码存放在github上面 1. 项目概述 在访问电商网站时,我们的一些访问行为会产生相应的埋点日志( ...
- Python + 大数据 - 数仓实战之智能电商分析平台
Python + 大数据 - 数仓实战之智能电商分析平台 1. 项目架构 2. 数据仓库维度模型设计-事实表 事实表的特征:表里没有存放实际的内容,他是一堆主键的集合,这些ID分别能对应到维度表中的一 ...
- Spark综合项目:企业电商分析平台
文章目录 1. 项目背景 2. 项目架构 3. 需求分析 离线模块开发 1.用户访问Session分析 2. 页面单跳转化率统计 3. 区域热门商品统计 实时模块开发 1. 项目背景 该项目来源于尚硅 ...
- 大数据项目之电商分析平台(2)
第三章 .程序框架解析 3.1.模块分析 3.1.1.commons模块 1. conf 包 代码清单 3-1 ConfigurationManager类 /** * 配置工具类 */ object ...
- 基于Hadoop技术实现的离线电商分析平台(Flume、Hadoop、Hbase、SpringMVC、highcharts)- 驴妈妈旅游项目
离线数据分析平台是一种利用hadoop集群开发工具的一种方式,主要作用是帮助公司对网站的应用有一个比较好的了解.尤其是在电商.旅游.银行.证券.游戏等领域有非常广泛,因为这些领域对数据和用户的特性把握 ...
- 【无标题】数仓实战之亚马逊全球跨境电商分析平台
一.Sqoop框架 --1. 验证sqoop cd /export/server/sqoop-1.4.7 bin/sqoop list-databases \ --connect jdbc:mysq ...
- 《OD大数据实战》驴妈妈旅游网大型离线数据电商分析平台
一.环境搭建 1. <OD大数据实战>Hadoop伪分布式环境搭建 2. <OD大数据实战>Hive环境搭建 3. <OD大数据实战>Sqoop入门实例 4. &l ...
- java农场商城 生鲜超市 水果蔬菜电商网站平台系统设计与实现 项目源代码下载 javaweb jsp ssm mysql
1 前端商城界面 1.1 商城首页 首页导航上有五个按钮,分别显示产品分类.商城首页.今日推荐.热销排行.新品上市,五个推荐类目的商品列表 首页很长说明书中1和2页均是首页,分六个部分,分别是今日推荐 ...
最新文章
- isMobile 一个简单的JS库,用来检测移动设备
- 数据中心进行数字化转型的2019年
- html5学习笔记(audio)
- HDU4577(2013年ACM杭州赛区邀请赛B题)
- Sticks UVA - 307(切木棍 线性区间dp,线性dp,区间思想。)
- 工作303:接口返回的上传地址默认是可以调用的
- 【CodeForces - 483C】Diverse Permutation(思维构造)
- java 中hashcode 与 equals的关系
- 答读者问(7):相关实习、在软件开发和测试等论文和关系问题
- CSS定位中“父相子绝”
- 在Windows 下如何使用 AspNetCore Api 和 consul
- excel服务器bom修改,物料清单BOM表的实现方法_勤哲Excel服务器 - 勤哲app应用之家...
- Jenkins安装后设置,访问http://localhost:8080进入jenkins解锁,完成安装后的配置
- 无穷级数求和7个公式_Excel Round函数使用方法7个实例,包含保留小数,取整和给公式...
- 世界坐标系和相机坐标系,图像坐标系的关系
- Hive MetaStore java.lang.NoClassDefFoundError: com/facebook/fb303/FacebookService$Iface
- ABAP Enhancement
- 计算机键盘标注,电脑键盘上怎么打√和*两个符号的方法
- Python爬虫学习笔记
- 幸运概率--已知,1000个硬币里有10个金币。随机的取出n个硬币,则取出硬币里有金币的概率是多少?