电商大数据分析案例(Hadoop+Hive+Spark+Azkaban+Spring MVC+ECharts)
项目描述
某著名电商平台双十一美妆销售数据分析。由于是真实的商业数据,所以做了脱敏处理,数据集中对店名的引用被处理为产品的品牌名以保护店家隐私。。
通过对该平台双十一美妆销售数据的品牌、销量、热度等特征的分析(平台视角和用户视角),尝试探索以下问题:
- 双十一期间,最受消费者青睐的产品或品牌是哪些?
- 双十一期间,美妆行业各品类的销售情况?
- 双十一期间,消费高峰何时出现?
- 双十一期间,客户的评论数对销量的影响?
- ......
项目架构
电商大数据项目架构图
项目流程
项目流程说明如下:
- 1. 数据集:使用Spark ETL技术,将数据抽取到Hive数据仓库ODS层;
- 2. 大数据清洗:使用Spark SQL进行数据清洗,包括数据去重和错误数据处理;
- 3. 大数据属性转换与整理:使用Spark SQL进行数据属性预处理,包括属性转换与抽取、属性选择等;
- 4. 大数据分析:使用Spark SQL平台角度和用户角度分别进行分析,并使用Spark ETL技术将分析结果写出到MySQL数据库中;
- 5. 大数据可视化:使用Spring MVC + Apache ECharts展示分析结果。
注:本项目使用了分词处理技术以抽取商品分类属性。
适用对象
本项目适合以下人员学习使用:
- 已有Hadoop和Spark基础,需要掌握大数据完整开发和分析流程、积累大数据项目经验;
- 大数据毕业设计项目。
项目实施过程
本项目使用Hive作业数据仓库,使用Spark SQL开发数据处理管道,包括ETL、数据清洗和数据预处理,并使用Spark SQL作为OLAP引擎。大数据分析结果写出到MySQL数据库中,最后使用Spring MVC和Apache ECharts开发Web应用程序,对分析结果进行可视化展示。整体项目实施过程如下:
1. 数据ETL使用Spark SQL开发ETL作业,将某电商平台双十一美妆销售数据抽取并加载到Hive数据仓库的ODS层。
2. 大数据清洗和预处理使用Spark对大数据进行清洗,包括去重、错误数据处理、空值处理、属性转换、属性提取等数据预处理任务。其中比较难处理的(难点及亮点)是对美妆商品抽取主类别和子类别属性。这里我们在Spark平台上使用了结巴分词工具包来抽取这两个属性。
3. 大数据分析使用Spark SQL从多个维度对整理后的销售数据集进行分析。在项目实施过程中,我们先使用Zeppelin NoteBook执行交互式探索和分析,然后将实现过程使用IntellIJ IDEA进行项目重构。
4. 作业部署和执行项目使用Maven打jar包,使用Azkaban进行作业编排(当然是可选的,也可省略作业编排,手工依次执行),并部署到Spark集群上执行。最终分析结果写出到MySQL数据库中。
5. 大数据可视化使用IntellIJ IDEA开发Spring MVC项目,使用ECharts作为可视化组件,展示分析结果。
参考来源1
参考来源2
电商大数据分析案例(Hadoop+Hive+Spark+Azkaban+Spring MVC+ECharts)相关推荐
- 《Spark与Hadoop大数据分析》一一1.1 大数据分析以及 Hadoop 和 Spark 在其中承担的角色...
本节书摘来自华章计算机<Spark与Hadoop大数据分析>一书中的第1章,第1.1节,作者:文卡特·安卡姆(Venkat Ankam) 更多章节内容可以访问云栖社区"华章计算机 ...
- 电商大数据分析平台项目(一)项目框架
一.项目简介 这段时间自己从网上找了一个项目课程,学着做了一个电商大数据分析平台,不过较为简陋,知识作学习用. 项目环境:windows10+hadoop2.7.7+hbase2.1.0+flume1 ...
- 某网站电商运营数据分析案例
PHPStat是目前国内最专业的电子商务数据分析运营平台,专注为电子商务企业提供网站访客转化行为.订单分析.商品分析.页面转化分析.营销转化分析的整体优化解决方案.目前PHPStat已经成功为苏宁易购 ...
- 618电商大数据分析可视化报告
原文链接:http://tecdat.cn/?p=1078 618购物狂欢节前后,网民较常搜索的关键词在微博.微信.新闻三大渠道的互联网数据表现,同时通过分析平台采集618相关媒体报道和消费者提及数据 ...
- 电商大数据——用数据驱动电商和商业案例解析
电商大数据--用数据驱动电商和商业案例解析(国内第1本将大数据与电商完美结合的权威之作!) 雪鹰传奇 著 ISBN 978-7-121-22556-7 2014年3月出版 定价:98.00元 36 ...
- 互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(一)——简介入门
互联网电商大数据环境 --数据分析实践培训精华笔记(一) 工作内容 项目:DW数据库建设/经分/客户精准营销/推荐系统需求/移动端数据分析 数据:流量数据/交易数据B2C/会员与活动数据/物流与配送数 ...
- 电商大数据——用数据驱动电商和商业案例解析 1
电商大数据--用数据驱动电商和商业案例解析(国内第1本将大数据与电商完美结合的权威之作!) 雪鹰传奇 著 ISBN 978-7-121-22556-7 2014年3月出版 定价:98.00元 36 ...
- 【ECdataway数据威】2018电商大数据与案例分享会 品牌方免费公开报名开启
5月中旬开始,电商2大平台已经打响了"年中大促"的大战,并且将战线拉长到接近一个月,2大平台随后也晒出了骄人的战绩,在这战绩的背后是电商迭代的进化与演变,ECdataway数据威用 ...
- 电商大数据项目-推荐系统实战(一)
电商大数据项目-推荐系统实战(一)环境搭建以及日志,人口,商品分析 https://blog.51cto.com/6989066/2325073 电商大数据项目-推荐系统实战之推荐算法 https:/ ...
- 「新房+电商+大数据」如何塑造满意度达 99.8% 的万亿市场领路人?
新房领域毫无疑问是一个万亿市场,但当问到这个巨无霸领域的 TOP3,大众似乎没有答案,难道万亿级的新房市场,就真没有一个"现象级"的龙头? 目前没有,但即将会有.随着技术(如大数据 ...
最新文章
- AngularJS-Basic(一)
- Makefile_04:Makefile变量初了解
- linux中 tar 报参数列表过长,四种解决”Argument list too long”参数列表过长的办法...
- Link-Cut Tree
- Java Base64 编码解码方案总结
- 前端学习(1382):多人管理项目2案例初始化
- oracle连接工具_扯一扯Tableau软件配置数据源系列之Oracle
- as_hash ruby_Ruby中带有示例的Hash.keep_if方法
- VMware ESXI 虚拟磁盘工具 - vmkfstools 使用实例
- 20春计算机应用基础在线作业,19春学期《计算机应用基础》在线作业21.txt
- 智能优化算法:黏菌优化算法 - 附代码
- TensorFlow变量:创建、初始化、保存和加载
- C# 利用NPOI 实现Excel转html
- wireless中添加country code的方法(wireless-regdb crda)
- TimesTen索引的概念与日常操作
- 【基于机器学习/深度学习的睡眠信号分类】主题必读论文推荐
- qpython oh下载_QPython OH
- Gradle源码全解析,已拿offer
- MATLAB编写黄金分割法
- 将笔记本外接显示器设置为主显示器
热门文章
- VMware安装win7系统
- 在linux中查看服务,linux中怎么查看服务状态
- 优酷KUX1080转码工具如何将KUX视频转换成MP4格式
- 超级终端连接华为交换机_Win8系统如何使用超级终端连接华为交换机?
- vba常用函数详细介绍及示例
- [OpenAirInterface实战-13] :OAI 基站配置文件详解
- SD卡无法格式化怎么办?恢复SD卡这样做
- 天猫京东618下单金额近万亿;中国 5G 毫米波芯片研发成功;阿里P8招聘私人助理被辞退 | EA周报...
- Java实现HTML代码生成PDF文档
- Charles使用手册