文章目录

  • 案例分析
    • 前言
    • 数据分析流程
    • 环境准备
      • 软件要求
      • 硬件要求
      • 环境搭建

案例分析

前言

通过本案例,你可以:

  1. 熟悉在 Linux 系统中安装 Hadoop 集群、安装 Mysql 数据库,安装 Sqoop 数据迁移工具,安装 Spark ,安装 Hive 数据仓库。
  2. HDFS 分布式文件系统中创建文件夹、上传文件。
  3. Hive 中建立表,使用 HiveHDFS 中的文件进行操作,使用 HQL 进行业务查询。
  4. 使用 SqoopHive 中的数据迁移到 Mysql 中。
  5. 了解 SparkMLlib自带的工具,使用 Spark-Shell 编程。使用 Spark 读取 csv 文件,并分析数据。
  6. Web 项目整合 ECharts,可视化展示数据分析结果。

数据分析流程

环境准备

软件要求

软件/插件/编程语言等 版本
Linux 系统 CentOS 7
JDK 1.8.0_161
MySQL 5.7.26
Hadoop 2.7.7
Scala 2.11
Spark 2.4.4
Hive 2.3.6
Sqoop 1.4.7
Idea 2018版
ECharts 3.4.0

硬件要求

本案例可以在单机上完成(即伪分布式环境),也可以在集群环境下完成。**由于硬件限制,我的所有操作均在伪分布式环境下完成。**单机的要求, 8 G 以上内存,500 G 磁盘存储。

环境搭建

  1. 安装 Linux 系统。(参考本人博客:VMware 安装 Linux 系统(CentOS 7 图文教程))
  2. Linux 安装 JDK。(参考本人博客:Linux 安装 JDK(图文教程))
  3. Hadoop 伪分布式搭建。(参考本人博客:Hadoop 集群搭建详细步骤)另:本次使用的是仅主机模式,主机名为centos2020(使用命令:hostnamectl set-hostname centos2020)。
  4. MySQL 安装。(参考本人博客:Linux 安装 MySQL)
  5. Linux 安装 Hive 。(参考本人博客:Linux 安装 Hive)
  6. Linux 安装 Sqoop。(参考本人博客:Linux 安装 Sqoop)
  7. Linux 安装 Spark(单机版,参考本人博客:Linux 安装 Spark)
  8. echarts 下载

淘宝双11大数据分析(环境篇)相关推荐

  1. 淘宝双11大数据分析(数据准备篇)

    文章目录 前言 数据内容分析 `user_log.csv`文件内容含义 `train.csv` 和 `test.csv` 文件内容含义 数据上传到Linux系统并解压 数据集的预处理 文件信息截取 导 ...

  2. 淘宝双11大数据分析(Hive 分析篇-上)

    文章目录 前言 当前环境 用聚合函数 count() 计算出表内有多少条数据 查出 user_id 不重复的数据的条数 查询不重复的数据有多少条(为了排除客户刷单的情况) 关键字条件查询分析 查询双1 ...

  3. 大数据系统开发综合实践(淘宝双11大数据批处理分析系统、NBA 、淘宝购物大数据实时展示、Spark GraphX)

    cqupt || xmu--大数据系统开发综合实践 代码放在了GitHub上 链接 task01 大数据批处理系统 淘宝双11大数据批处理分析系统 task02 大数据查询分析计算系统 NBA 统计大 ...

  4. Spark大数据-基于Hive和Spark的淘宝双11数据分析与预测

    基于Hive和Spark的淘宝双11数据分析与预测 1.系统和环境要求(版本仅供参考): Linux: centos7 MySQL: 5.7.16 Hadoop: 2.7.1 Hive: 1.2.1 ...

  5. 大数据-11-案例演习-淘宝双11数据分析与预测

    主要摘自 http://dblab.xmu.edu.cn/post/8116/ 案例简介 Spark课程实验案例:淘宝双11数据分析与预测课程案例,由厦门大学数据库实验室团队开发,旨在满足全国高校大数 ...

  6. 淘宝双11数据分析与预测

    淘宝双11数据分析与预测 一. 案例简介 Spark课程实验案例:淘宝双11数据分析与预测课程案例,由厦门大学数据库实验室团队开发,旨在满足全国高校大数据教学对实验案例的迫切需求.本案例涉及数据预处理 ...

  7. 淘宝双11数据分析与预测汇总

    国庆假期留在学校做了一下林子雨博士的大数据实验--淘宝双11数据分析与预测,虽然教程写得很详细,但自己还是踩了很多坑,现在记录下来,希望给别人一点帮助. 淘宝双11数据分析与预测实验链接:http:/ ...

  8. 淘宝双11数据分析与预测--“坑点”汇总

    国庆假期留在学校做了一下林子雨博士的大数据实验--淘宝双11数据分析与预测,虽然教程写得很详细,但自己还是踩了很多坑,现在记录下来,希望给别人一点帮助. 淘宝双11数据分析与预测实验连接:点击这里 问 ...

  9. 淘宝双11数据分析与预测课程案例—步骤四:利用Spark预测回头客行为代码报错

    在练习林子雨老师的"淘宝双11数据分析与预测课程案例-步骤四:利用Spark预测回头客行为"章节时出现了代码报错. 具体在执行"val model = SVMWithSG ...

最新文章

  1. springboot视图解析器
  2. react-antd项目中重新npm  install  导致自动升级antd版本,引发的样式问题
  3. 什么是 SAP Spartacus UI 的 feature level
  4. oracle数据库、数据表的创建与管理 实验笔记二
  5. Activity Window View WindowManager关系Touch事件分发机制
  6. 数模论文研读--------09年B题:眼科病床
  7. 《统计学习方法》读书笔记——机器学习常用评价指标
  8. windows下用navicat远程链接虚拟机Linux下MySQL数据库
  9. isdigit( )函数调用——python小练
  10. JUC主要包含哪些功能?
  11. 学习银行转账系统-代码摘取csdn
  12. 算法产品化---人脸识别采集终端的摄像头品质要求
  13. html页面显示不全问题,网页显示不完全
  14. 使用思科交换机Packet——Tracer模拟器教程
  15. linux libssl.so.6,centos6 安装directadmin出现libssl.so.6找不到问题
  16. 7月26日 select单表查询基础语句
  17. Python高级编程——13.垃圾回收机制
  18. vim制作python3编辑器
  19. [PTA]实验7-2-6 打印杨辉三角
  20. 详述 Java 语言中的格式化输出

热门文章

  1. <a>链接下载视频 而不是打开新页面播放
  2. 计算机主机配件及图解,电脑主机有哪些配件组成
  3. [翻译Pytorch教程]NLP从零开始:使用序列到序列网络和注意力机制进行翻译
  4. 宫崎骏动画里的新垣结衣见过没?这个开源动漫生成器让你的照片秒变手绘日漫
  5. MFC Windows程序设计学习笔记--文件和串行化
  6. 基于CNN的垃圾分类模型
  7. PyQt5,一个好的qt教程。
  8. 十年一梦,小米的原罪得到救赎了吗?
  9. 案例分享 | 戴尔 VxRail 研发团队: 效能度量如何支持成长期团队的超线性增长
  10. element ui el-table单元格按需合并