淘宝双11大数据分析(环境篇)
文章目录
- 案例分析
- 前言
- 数据分析流程
- 环境准备
- 软件要求
- 硬件要求
- 环境搭建
案例分析
前言
通过本案例,你可以:
- 熟悉在
Linux
系统中安装Hadoop
集群、安装Mysql
数据库,安装Sqoop
数据迁移工具,安装Spark
,安装Hive
数据仓库。 - 在
HDFS
分布式文件系统中创建文件夹、上传文件。 - 在
Hive
中建立表,使用Hive
对HDFS
中的文件进行操作,使用HQL
进行业务查询。 - 使用
Sqoop
将Hive
中的数据迁移到Mysql
中。 - 了解
Spark
的MLlib
自带的工具,使用Spark-Shell
编程。使用Spark
读取csv
文件,并分析数据。 Web
项目整合ECharts
,可视化展示数据分析结果。
数据分析流程
环境准备
软件要求
软件/插件/编程语言等 | 版本 |
---|---|
Linux 系统 | CentOS 7 |
JDK | 1.8.0_161 |
MySQL | 5.7.26 |
Hadoop | 2.7.7 |
Scala | 2.11 |
Spark | 2.4.4 |
Hive | 2.3.6 |
Sqoop | 1.4.7 |
Idea | 2018版 |
ECharts | 3.4.0 |
硬件要求
本案例可以在单机上完成(即伪分布式环境),也可以在集群环境下完成。**由于硬件限制,我的所有操作均在伪分布式环境下完成。**单机的要求, 8 G 以上内存,500 G 磁盘存储。
环境搭建
- 安装
Linux
系统。(参考本人博客:VMware 安装 Linux 系统(CentOS 7 图文教程)) - Linux 安装 JDK。(参考本人博客:Linux 安装 JDK(图文教程))
Hadoop
伪分布式搭建。(参考本人博客:Hadoop 集群搭建详细步骤)另:本次使用的是仅主机模式,主机名为centos2020
(使用命令:hostnamectl set-hostname centos2020
)。- MySQL 安装。(参考本人博客:Linux 安装 MySQL)
- Linux 安装 Hive 。(参考本人博客:Linux 安装 Hive)
- Linux 安装 Sqoop。(参考本人博客:Linux 安装 Sqoop)
- Linux 安装 Spark(单机版,参考本人博客:Linux 安装 Spark)
- echarts 下载
淘宝双11大数据分析(环境篇)相关推荐
- 淘宝双11大数据分析(数据准备篇)
文章目录 前言 数据内容分析 `user_log.csv`文件内容含义 `train.csv` 和 `test.csv` 文件内容含义 数据上传到Linux系统并解压 数据集的预处理 文件信息截取 导 ...
- 淘宝双11大数据分析(Hive 分析篇-上)
文章目录 前言 当前环境 用聚合函数 count() 计算出表内有多少条数据 查出 user_id 不重复的数据的条数 查询不重复的数据有多少条(为了排除客户刷单的情况) 关键字条件查询分析 查询双1 ...
- 大数据系统开发综合实践(淘宝双11大数据批处理分析系统、NBA 、淘宝购物大数据实时展示、Spark GraphX)
cqupt || xmu--大数据系统开发综合实践 代码放在了GitHub上 链接 task01 大数据批处理系统 淘宝双11大数据批处理分析系统 task02 大数据查询分析计算系统 NBA 统计大 ...
- Spark大数据-基于Hive和Spark的淘宝双11数据分析与预测
基于Hive和Spark的淘宝双11数据分析与预测 1.系统和环境要求(版本仅供参考): Linux: centos7 MySQL: 5.7.16 Hadoop: 2.7.1 Hive: 1.2.1 ...
- 大数据-11-案例演习-淘宝双11数据分析与预测
主要摘自 http://dblab.xmu.edu.cn/post/8116/ 案例简介 Spark课程实验案例:淘宝双11数据分析与预测课程案例,由厦门大学数据库实验室团队开发,旨在满足全国高校大数 ...
- 淘宝双11数据分析与预测
淘宝双11数据分析与预测 一. 案例简介 Spark课程实验案例:淘宝双11数据分析与预测课程案例,由厦门大学数据库实验室团队开发,旨在满足全国高校大数据教学对实验案例的迫切需求.本案例涉及数据预处理 ...
- 淘宝双11数据分析与预测汇总
国庆假期留在学校做了一下林子雨博士的大数据实验--淘宝双11数据分析与预测,虽然教程写得很详细,但自己还是踩了很多坑,现在记录下来,希望给别人一点帮助. 淘宝双11数据分析与预测实验链接:http:/ ...
- 淘宝双11数据分析与预测--“坑点”汇总
国庆假期留在学校做了一下林子雨博士的大数据实验--淘宝双11数据分析与预测,虽然教程写得很详细,但自己还是踩了很多坑,现在记录下来,希望给别人一点帮助. 淘宝双11数据分析与预测实验连接:点击这里 问 ...
- 淘宝双11数据分析与预测课程案例—步骤四:利用Spark预测回头客行为代码报错
在练习林子雨老师的"淘宝双11数据分析与预测课程案例-步骤四:利用Spark预测回头客行为"章节时出现了代码报错. 具体在执行"val model = SVMWithSG ...
最新文章
- springboot视图解析器
- react-antd项目中重新npm install 导致自动升级antd版本,引发的样式问题
- 什么是 SAP Spartacus UI 的 feature level
- oracle数据库、数据表的创建与管理 实验笔记二
- Activity Window View WindowManager关系Touch事件分发机制
- 数模论文研读--------09年B题:眼科病床
- 《统计学习方法》读书笔记——机器学习常用评价指标
- windows下用navicat远程链接虚拟机Linux下MySQL数据库
- isdigit( )函数调用——python小练
- JUC主要包含哪些功能?
- 学习银行转账系统-代码摘取csdn
- 算法产品化---人脸识别采集终端的摄像头品质要求
- html页面显示不全问题,网页显示不完全
- 使用思科交换机Packet——Tracer模拟器教程
- linux libssl.so.6,centos6 安装directadmin出现libssl.so.6找不到问题
- 7月26日 select单表查询基础语句
- Python高级编程——13.垃圾回收机制
- vim制作python3编辑器
- [PTA]实验7-2-6 打印杨辉三角
- 详述 Java 语言中的格式化输出
热门文章
- <a>链接下载视频 而不是打开新页面播放
- 计算机主机配件及图解,电脑主机有哪些配件组成
- [翻译Pytorch教程]NLP从零开始:使用序列到序列网络和注意力机制进行翻译
- 宫崎骏动画里的新垣结衣见过没?这个开源动漫生成器让你的照片秒变手绘日漫
- MFC Windows程序设计学习笔记--文件和串行化
- 基于CNN的垃圾分类模型
- PyQt5,一个好的qt教程。
- 十年一梦,小米的原罪得到救赎了吗?
- 案例分享 | 戴尔 VxRail 研发团队: 效能度量如何支持成长期团队的超线性增长
- element ui el-table单元格按需合并