前言

这个专栏的系列文章,是一个电商分析平台项目实践过程中的记录和总结。

基于 spark2.4.x 和 scala2.11.x

一. 项目概述

访问电商网站时,我们的一些访问行为会产生相应的埋点日志,日志会被发送到后台服务器,大数据部分根据数据分析用户行为,得出一系列统计指标。
本项目采用模拟的离线数据和实时数据。

二. 需求概述

总共有十个需求,分为四个模块来实现

上图为四个模块:用户访问session统计、页面单跳转化率、区域热门商品统计三个模块属于离线分析,广告流量实时统计属于实时分析

  • 用户访问session统计
  • 页面单跳转化率

页面单跳转化率是一个非常有用的统计数据,可以依据来优化页面布局,调整经营布局等来吸引用户最终进入支付页面。

  • 区域热门商品统计
    主要实现每天统计出各个区域的top3热门商品,统计热门商品可以为商品区域调整调度做依据,参考京东本地仓和京东物流的快捷
  • 广告流量实时统计

网站给第三方做广告,是一比收入来源,费用的统计通过实时流量来计算。

三. 数据结构解析

1.离线数据解析

离线数据主要包含三张表:动作表、用户表、物品表。表中数据字段如上图

2.实时数据解析

数据模拟模块每5秒向Kafka集群写入数据,spark streaming模块订阅消费Kafka中的数据。
实时数据字段如上图

spark企业级电商分析平台项目实践(一)项目介绍和需求分析相关推荐

  1. spark项目实战:电商分析平台之各个范围Session步长、访问时长占比统计(需求一)

    spark项目实战:电商分析平台之各个范围Session步长.访问时长占比统计(需求一) 项目基本信息,架构,需要一览 各个范围Session步长.访问时长占比统计概述 各个范围Session步长.访 ...

  2. spark项目实战:电商分析平台之项目概述

    spark项目实战:电商分析平台之项目概述 目录 项目概述 程序架构分析 需求解析 初始代码和完成代码存放在github上面 1. 项目概述 在访问电商网站时,我们的一些访问行为会产生相应的埋点日志( ...

  3. Python + 大数据 - 数仓实战之智能电商分析平台

    Python + 大数据 - 数仓实战之智能电商分析平台 1. 项目架构 2. 数据仓库维度模型设计-事实表 事实表的特征:表里没有存放实际的内容,他是一堆主键的集合,这些ID分别能对应到维度表中的一 ...

  4. Spark综合项目:企业电商分析平台

    文章目录 1. 项目背景 2. 项目架构 3. 需求分析 离线模块开发 1.用户访问Session分析 2. 页面单跳转化率统计 3. 区域热门商品统计 实时模块开发 1. 项目背景 该项目来源于尚硅 ...

  5. 大数据项目之电商分析平台(2)

    第三章  .程序框架解析 3.1.模块分析 3.1.1.commons模块 1. conf 包 代码清单 3-1 ConfigurationManager类 /** * 配置工具类 */ object ...

  6. 基于Hadoop技术实现的离线电商分析平台(Flume、Hadoop、Hbase、SpringMVC、highcharts)- 驴妈妈旅游项目

    离线数据分析平台是一种利用hadoop集群开发工具的一种方式,主要作用是帮助公司对网站的应用有一个比较好的了解.尤其是在电商.旅游.银行.证券.游戏等领域有非常广泛,因为这些领域对数据和用户的特性把握 ...

  7. 【无标题】数仓实战之亚马逊全球跨境电商分析平台

    一.Sqoop框架  --1. 验证sqoop cd /export/server/sqoop-1.4.7 bin/sqoop list-databases \ --connect jdbc:mysq ...

  8. 《OD大数据实战》驴妈妈旅游网大型离线数据电商分析平台

    一.环境搭建 1. <OD大数据实战>Hadoop伪分布式环境搭建 2. <OD大数据实战>Hive环境搭建 3. <OD大数据实战>Sqoop入门实例 4. &l ...

  9. java农场商城 生鲜超市 水果蔬菜电商网站平台系统设计与实现 项目源代码下载 javaweb jsp ssm mysql

    1 前端商城界面 1.1 商城首页 首页导航上有五个按钮,分别显示产品分类.商城首页.今日推荐.热销排行.新品上市,五个推荐类目的商品列表 首页很长说明书中1和2页均是首页,分六个部分,分别是今日推荐 ...

最新文章

  1. isMobile 一个简单的JS库,用来检测移动设备
  2. 数据中心进行数字化转型的2019年
  3. html5学习笔记(audio)
  4. HDU4577(2013年ACM杭州赛区邀请赛B题)
  5. Sticks UVA - 307(切木棍 线性区间dp,线性dp,区间思想。)
  6. 工作303:接口返回的上传地址默认是可以调用的
  7. 【CodeForces - 483C】Diverse Permutation(思维构造)
  8. java 中hashcode 与 equals的关系
  9. 答读者问(7):相关实习、在软件开发和测试等论文和关系问题
  10. CSS定位中“父相子绝”
  11. 在Windows 下如何使用 AspNetCore Api 和 consul
  12. excel服务器bom修改,物料清单BOM表的实现方法_勤哲Excel服务器 - 勤哲app应用之家...
  13. Jenkins安装后设置,访问http://localhost:8080进入jenkins解锁,完成安装后的配置
  14. 无穷级数求和7个公式_Excel Round函数使用方法7个实例,包含保留小数,取整和给公式...
  15. 世界坐标系和相机坐标系,图像坐标系的关系
  16. Hive MetaStore java.lang.NoClassDefFoundError: com/facebook/fb303/FacebookService$Iface
  17. ABAP Enhancement
  18. 计算机键盘标注,电脑键盘上怎么打√和*两个符号的方法
  19. Python爬虫学习笔记
  20. 幸运概率--已知,1000个硬币里有10个金币。随机的取出n个硬币,则取出硬币里有金币的概率是多少?

热门文章

  1. Github头像上传不了、加载不出来
  2. 企业邮箱哪家最优惠?企业邮箱最优惠价格来了
  3. CSDN写文章MarkDown用到的表情包收集(转自Github)
  4. 大话西游之Office应用实例系列! 16
  5. JavaSE——Day1——计算机基础知识、Java语言基础、JRE与JDK
  6. C语言:甲乙丙三人放鞭炮,求鞭炮响声问题
  7. Wireshark | 猿如意
  8. Cadence(virtuoso)集成电路设计软件基本操作——库管理
  9. 按文件名批量分类文件到文件夹
  10. 用python写注册登录界面web_用Python实现web端用户登录和注册功能