项目描述
某著名电商平台双十一美妆销售数据分析。由于是真实的商业数据,所以做了脱敏处理,数据集中对店名的引用被处理为产品的品牌名以保护店家隐私。。
通过对该平台双十一美妆销售数据的品牌、销量、热度等特征的分析(平台视角和用户视角),尝试探索以下问题:

  • 双十一期间,最受消费者青睐的产品或品牌是哪些?
  • 双十一期间,美妆行业各品类的销售情况?
  • 双十一期间,消费高峰何时出现?
  • 双十一期间,客户的评论数对销量的影响?
  • ......

项目架构

电商大数据项目架构图

项目流程
项目流程说明如下:

  • 1. 数据集:使用Spark ETL技术,将数据抽取到Hive数据仓库ODS层;
  • 2. 大数据清洗:使用Spark SQL进行数据清洗,包括数据去重和错误数据处理;
  • 3. 大数据属性转换与整理:使用Spark SQL进行数据属性预处理,包括属性转换与抽取、属性选择等;
  • 4. 大数据分析:使用Spark SQL平台角度和用户角度分别进行分析,并使用Spark ETL技术将分析结果写出到MySQL数据库中;
  • 5. 大数据可视化:使用Spring MVC + Apache ECharts展示分析结果。

注:本项目使用了分词处理技术以抽取商品分类属性。
适用对象
本项目适合以下人员学习使用:

  • 已有Hadoop和Spark基础,需要掌握大数据完整开发和分析流程、积累大数据项目经验;
  • 大数据毕业设计项目。

项目实施过程
本项目使用Hive作业数据仓库,使用Spark SQL开发数据处理管道,包括ETL、数据清洗和数据预处理,并使用Spark SQL作为OLAP引擎。大数据分析结果写出到MySQL数据库中,最后使用Spring MVC和Apache ECharts开发Web应用程序,对分析结果进行可视化展示。整体项目实施过程如下:
1. 数据ETL使用Spark SQL开发ETL作业,将某电商平台双十一美妆销售数据抽取并加载到Hive数据仓库的ODS层。
2. 大数据清洗和预处理使用Spark对大数据进行清洗,包括去重、错误数据处理、空值处理、属性转换、属性提取等数据预处理任务。其中比较难处理的(难点及亮点)是对美妆商品抽取主类别和子类别属性。这里我们在Spark平台上使用了结巴分词工具包来抽取这两个属性。
3. 大数据分析使用Spark SQL从多个维度对整理后的销售数据集进行分析。在项目实施过程中,我们先使用Zeppelin NoteBook执行交互式探索和分析,然后将实现过程使用IntellIJ IDEA进行项目重构。
4. 作业部署和执行项目使用Maven打jar包,使用Azkaban进行作业编排(当然是可选的,也可省略作业编排,手工依次执行),并部署到Spark集群上执行。最终分析结果写出到MySQL数据库中。
5. 大数据可视化使用IntellIJ IDEA开发Spring MVC项目,使用ECharts作为可视化组件,展示分析结果。

参考来源1

参考来源2

电商大数据分析案例(Hadoop+Hive+Spark+Azkaban+Spring MVC+ECharts)相关推荐

  1. 《Spark与Hadoop大数据分析》一一1.1 大数据分析以及 Hadoop 和 Spark 在其中承担的角色...

    本节书摘来自华章计算机<Spark与Hadoop大数据分析>一书中的第1章,第1.1节,作者:文卡特·安卡姆(Venkat Ankam) 更多章节内容可以访问云栖社区"华章计算机 ...

  2. 电商大数据分析平台项目(一)项目框架

    一.项目简介 这段时间自己从网上找了一个项目课程,学着做了一个电商大数据分析平台,不过较为简陋,知识作学习用. 项目环境:windows10+hadoop2.7.7+hbase2.1.0+flume1 ...

  3. 某网站电商运营数据分析案例

    PHPStat是目前国内最专业的电子商务数据分析运营平台,专注为电子商务企业提供网站访客转化行为.订单分析.商品分析.页面转化分析.营销转化分析的整体优化解决方案.目前PHPStat已经成功为苏宁易购 ...

  4. 618电商大数据分析可视化报告

    原文链接:http://tecdat.cn/?p=1078 618购物狂欢节前后,网民较常搜索的关键词在微博.微信.新闻三大渠道的互联网数据表现,同时通过分析平台采集618相关媒体报道和消费者提及数据 ...

  5. 电商大数据——用数据驱动电商和商业案例解析

    电商大数据--用数据驱动电商和商业案例解析(国内第1本将大数据与电商完美结合的权威之作!) 雪鹰传奇 著   ISBN 978-7-121-22556-7 2014年3月出版 定价:98.00元 36 ...

  6. 互联网电商大数据环境 ——大数飓数据分析实践培训精华笔记(一)——简介入门

    互联网电商大数据环境 --数据分析实践培训精华笔记(一) 工作内容 项目:DW数据库建设/经分/客户精准营销/推荐系统需求/移动端数据分析 数据:流量数据/交易数据B2C/会员与活动数据/物流与配送数 ...

  7. 电商大数据——用数据驱动电商和商业案例解析 1

    电商大数据--用数据驱动电商和商业案例解析(国内第1本将大数据与电商完美结合的权威之作!) 雪鹰传奇 著   ISBN 978-7-121-22556-7 2014年3月出版 定价:98.00元 36 ...

  8. 【ECdataway数据威】2018电商大数据与案例分享会 品牌方免费公开报名开启

    5月中旬开始,电商2大平台已经打响了"年中大促"的大战,并且将战线拉长到接近一个月,2大平台随后也晒出了骄人的战绩,在这战绩的背后是电商迭代的进化与演变,ECdataway数据威用 ...

  9. 电商大数据项目-推荐系统实战(一)

    电商大数据项目-推荐系统实战(一)环境搭建以及日志,人口,商品分析 https://blog.51cto.com/6989066/2325073 电商大数据项目-推荐系统实战之推荐算法 https:/ ...

  10. 「新房+电商+大数据」如何塑造满意度达 99.8% 的万亿市场领路人?

    新房领域毫无疑问是一个万亿市场,但当问到这个巨无霸领域的 TOP3,大众似乎没有答案,难道万亿级的新房市场,就真没有一个"现象级"的龙头? 目前没有,但即将会有.随着技术(如大数据 ...

最新文章

  1. AngularJS-Basic(一)
  2. Makefile_04:Makefile变量初了解
  3. linux中 tar 报参数列表过长,四种解决”Argument list too long”参数列表过长的办法...
  4. Link-Cut Tree
  5. Java Base64 编码解码方案总结
  6. 前端学习(1382):多人管理项目2案例初始化
  7. oracle连接工具_扯一扯Tableau软件配置数据源系列之Oracle
  8. as_hash ruby_Ruby中带有示例的Hash.keep_if方法
  9. VMware ESXI 虚拟磁盘工具 - vmkfstools 使用实例
  10. 20春计算机应用基础在线作业,19春学期《计算机应用基础》在线作业21.txt
  11. 智能优化算法:黏菌优化算法 - 附代码
  12. TensorFlow变量:创建、初始化、保存和加载
  13. C# 利用NPOI 实现Excel转html
  14. wireless中添加country code的方法(wireless-regdb crda)
  15. TimesTen索引的概念与日常操作
  16. 【基于机器学习/深度学习的睡眠信号分类】主题必读论文推荐
  17. qpython oh下载_QPython OH
  18. Gradle源码全解析,已拿offer
  19. MATLAB编写黄金分割法
  20. 将笔记本外接显示器设置为主显示器

热门文章

  1. VMware安装win7系统
  2. 在linux中查看服务,linux中怎么查看服务状态
  3. 优酷KUX1080转码工具如何将KUX视频转换成MP4格式
  4. 超级终端连接华为交换机_Win8系统如何使用超级终端连接华为交换机?
  5. vba常用函数详细介绍及示例
  6. [OpenAirInterface实战-13] :OAI 基站配置文件详解
  7. SD卡无法格式化怎么办?恢复SD卡这样做
  8. 天猫京东618下单金额近万亿;中国 5G 毫米波芯片研发成功;阿里P8招聘私人助理被辞退 | EA周报...
  9. Java实现HTML代码生成PDF文档
  10. Charles使用手册