项目整体介绍

本项目来源于企业级电商网站的大数据统计分析平台,该平台以 Spark 框架为核心,对电商网站的日志进行离线和实时分析。

该大数据分析平台对电商网站的各种用户行为(访问行为、购物行为、广告点击行为等)进行分析,根据平台统计出来的数据,辅助公司中的 PM(产品经理)、数据分析师以及管理人员分析现有产品的情况,并根据用户行为分析结果持续改进产品的设计,以及调整公司的战略和业务。最终达到用大数据技术来帮助提升公司的业绩、营业额以及市场占有率的目标。

本项目使用了 Spark 技术生态栈中最常用的三个技术框架,Spark Core、Spark SQL 和 Spark Streaming,进行离线计算和实时计算业务模块的开发。实现了包括用户访问 session 分析、页面单跳转化率统计、热门商品离线统计、广告流量实时统计 4 个业务模块。通过合理的将实际业务模块进行技术整合与改造,该项目几乎完全涵盖了 Spark Core、Spark SQL 和 Spark Streaming 这三个技术框架中大部分的功能点、知识点,学员对于 Spark 技术框架的理解将会在本项目中得到很大的提高。

1.2  项目整体框架

1.3  业务需求部分

本项目分为离线分析与实时分析两大模块。

在离线分析系统中,我们将模拟业务数据写入Hive表中,离线分析系统从 Hive 中获取数据,并根据实际需求(用户访问Session分析、页面单跳转化率分析、各区域热门商品统计)对数据进行处理,最终将分析完毕的统计数据存储到 MySQL 的对应表格中。

在实时分析系统中,我们将模拟业务数据写入Kafka集群中,实时分析系统从 KafkaBroker 中获取数据,通过 SparkStreaming 的流式处理对广告点击流量进行实时分析,最终将统计结果存储到 MySQL 的对应表格中。

电商项目整体介绍-尚硅谷大数据培训相关推荐

  1. Hadoop源码编译介绍-尚硅谷大数据培训

    前期准备工作 1.CentOS联网 使用能连接外网的CentOS系统虚拟机,使用root用户进行编译,避免出现文件夹权限问题. 2.Jar包准备 从官网下载以下安装包 (1)hadoop-3.1.3- ...

  2. SQL语法应用介绍-尚硅谷大数据培训

    1 CREATE 1.1 CREATE DATABASE 用于创建指定名称的数据库,语法如下: CREATE DATABASE [IF NOT EXISTS] db_name 如果查询中存在IF NO ...

  3. 电商数据源分析-尚硅谷大数据培训

    数据源分析 1 user_visit_action user_visit_action 表:存放网站或者APP 每天的点击流数据.通俗地讲,就是用户对网站/APP 每点击一下,就会产生一条存放在这个表 ...

  4. Azkaban环境配置-尚硅谷大数据培训

    Azkaban(单节点)环境配置 1 安装Git // 安装GIT [bigdata@linux ~]$ sudo yum install git // 通过git下载Azkaban源代码 [bigd ...

  5. Spark 内存管理存储内存管理_尚硅谷大数据培训

    RDD的持久化机制 弹性分布式数据集(RDD)作为 Spark 最根本的数据抽象,是只读的分区记录(Partition)的集合,只能基于在稳定物理存储中的数据集上创建,或者在其他已有的 RDD 上执行 ...

  6. Tableau工具使用简介-尚硅谷大数据培训

    Tableau概述 作为领先的数据可视化工具,Tableau具有许多理想的和独特的功能.其强大的数据发现和探索应用程序允许您在几秒钟内回答重要的问题.您可以使用Tableau的拖放界面可视化任何数据, ...

  7. ElasticSearch环境配置-尚硅谷大数据培训

    ElasticSearch(单节点)环境配置 // 通过Wget下载ElasticSearch安装包 [bigdata@linux ~]$wget https://artifacts.elastic. ...

  8. 尚硅谷大数据技术Spark教程-笔记09【SparkStreaming(概念、入门、DStream入门、案例实操、总结)】

    尚硅谷大数据技术-教程-学习路线-笔记汇总表[课程资料下载] 视频地址:尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01[SparkCore ...

  9. 尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】

    视频地址:尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01[Spark(概述.快速上手.运行环境.运行架构)] 尚硅谷大数据技术Spark教 ...

  10. 电商数仓描述_笔记-尚硅谷大数据项目数据仓库-电商数仓V1.2新版

    架构 项目框架 数仓架构 存储压缩 Snappy与LZO LZO安装: 读取LZO文件时,需要先创建索引,才可以进行切片. 框架版本选型Apache:运维麻烦,需要自己调研兼容性. CDH:国内使用最 ...

最新文章

  1. javascript 传值给前端(ios 安卓)
  2. 将服务器置于最终用户附近可解决性能问题?—Vecloud微云
  3. 低代码发展系列专访之五:低代码的最大价值点是“技术平民化”吗?
  4. socket 编程原理1
  5. iPhone 12 Pro可能加入激光雷达传感器 摄像头布局将调整
  6. “我们的边缘计算技术点,可能超前了业界一点”
  7. 实习成长之路——设计模式四:什么是单一职责原则,如何判定某个类的职责是否够“单一”?
  8. 传输层的几个部分的ALCAP、SSCOP、MTP3-B、SCCP、SAAL、SCCF、STC、IP、UDP、GTPU
  9. 安装sql2012 正在启动操作系统功能NetFx3
  10. STM32官方应用笔记分类汇总
  11. xp系统开机自检很久_XP开机卡在自检不能进入系统的解决办法
  12. 实现树莓派模拟wifi进行打卡签到
  13. 记录一个非常实用的gif制作工具licecap
  14. feign.codec.DecodeException: Error while extracting response for type报错记录
  15. vue源码分析系列三:render的执行过程和Virtual DOM的产生
  16. 基于瑞芯微平台cif接口dvp相机的视频接入(ov2640、rv1126为例)
  17. Coding代码使用教程
  18. timewait php,timewait是什么意思
  19. 深度优先遍历算法-02最大岛屿问题
  20. 【愚公系列】2023年01月 Java教学课程 017-Random随机数的使用

热门文章

  1. ztree 加搜索框_zTree添加搜索
  2. LittlevGL 开源图形库
  3. linux_安装_SecureCRT下载安装登陆ubuntu配色和文件传输
  4. 升级IE11时,失败报错如何解决
  5. office visio 2007 画流程图
  6. 数字电子技术基础笔记(精简)
  7. 数字电子技术基础(四):门电路(CMOS)必看
  8. 如何将QQ内置可爱的表情包转换为通用GIF文件
  9. java数据同步视频,Oracle从入门到精通 oracle数据库 全程同步视频教学 内含Oracle Java项目实战教...
  10. centos 7 sogou input