基于Hadoop的数据分析案例-陌陌聊天软件数据分析
目录
前言
一、使用的工具
二、操作步骤
1.数据来源
2.数据内容分析
3.加载数据
4.数据清洗ETL
5.数据分析
8.数据可视化
前言
本文章是使用基于Hadoop的数据仓库Hive针对陌陌聊天软件进行数据分析并可视化。
一、使用的工具
- Vmware Workstation Pro
- Centos 7 64bit
- FinalShell 3.9.2.2
- DataGrip 2020.1 x64
- Tableau 2021.1
二、操作步骤
1.数据来源
来自聊天系统中导出的2021年11月01日一天24小时的用户聊天数据,以TSV文本形式存储
数据获取链接:https://pan.baidu.com/s/1dq1YJE_drBtJBsjgXDqpsg
提取码:wgls
2.数据内容分析
①数据大小:两个文件data1.tsv和data2.tsv,共14万条数据
②列分割符:'\t'
③字段名及数据类型(这里为了方便统一,一致使用varchar数据类型)
消息发送时间:varchar
发件人昵称:varchar
发件人账号:varchar
发件人性别:varchar
发件人IP:varchar
发件人系统:varchar
发件人手机型号:varchar
发件人网络类型:varchar
发件人GPS:varchar
收件人昵称:varchar
收件人IP:varchar
收件人账号:varchar
收件人系统:varchar
收件人手机型号:varchar
收件人性别:varchar
消息类型:varchar
相隔距离:varchar
消息内容:varchar
3.加载数据
①创建数据库momo(这里使用DataGrip)
②创建表momo_data
③将两份数据data1.tsv和data2.tsv上传到HS2服务所在的本地文件系统(这里使用FinalShell,我的是在虚拟机node1的/root/hivedata/下)
④加载data1.tsv和data2.tsv数据到momo_data表上
⑤验证数据加载是否成功
查看momo_data表前10行数据是否正常
查看momo_data表的总行数(这里可能会耗费一点时间)
4.数据清洗ETL
①检查发现发送人GPS一列存在数据缺失
②需要将消息发送时间进行日期和小时的拆分
③由于tableau需要经度纬度进行分析,需要对发送人GPS和接收人GPS进行拆分
④将数据清洗后的数据保存到新表中
创建新表momo_etl_data并验证数据是否清洗成功
5.数据分析
①统计今日(2021-11-01)消息量
②统计每小时消息量、发送和接收用户数
③统计今日各地区发送消息量
④统计发送消息最多次数的Top10用户
⑤统计接收消息最多次数的Top10用户
⑥统计发送人手机型号分布情况
⑦统计发送人操作系统分布情况
8.数据可视化
这里使用Tableau对以上数据表进行可视化,具体过程便不多赘述
总结
以上就是今天要讲的内容,本文仅仅简单介绍了数据分析的业务案例,具体的环境配置没有在这里说明,望大家自行配置。
基于Hadoop的数据分析案例-陌陌聊天软件数据分析相关推荐
- 【数据分析案例】用Excel进行数据分析:从市场调研到销售分析
作者:禅与计算机程序设计艺术 [数据分析案例]用Excel进行数据分析:从市场调研到销售分析 1. 引言 1.1. 背景介绍 在当今信息时代,数据分析已成为各个行业必备的一环.无论是在市场营销.销售. ...
- 【数据分析案例】某瓣读书数据分析
前言说明 本文借用原文作者路人甲的爬取数据进行数据分析思路分享,如有侵犯相关版权信息,请联系本文作者删除文章 数据来源 数据源来自路人甲的公众号,可关注「路人甲 TM」公众号获取数据源 部分数据特征为 ...
- Python数据分析案例12——网飞影视剧数据分析及其可视化
背景介绍 Netflix是最受欢迎的媒体和视频流平台之一.他们的平台上有超过 8000 部电影或电视节目.截至 2021 年年中,他们在全球拥有超过 2 亿订阅者. 博主看美剧也较为多,像<怪奇 ...
- Hadoop综合案例 - 聊天软件数据
目录 1.聊天软件数据分析案例需求 2.基于Hive数仓实现需求开发 2.1 建库 2.2 建表 2.3 加载数据 2.4 ETL数据清洗 2.5 需求指标统计---都很简单 3.FineBI实现可视 ...
- 基于Hadoop的企业级网盘系统的研究与开发
基于Hadoop的企业级网盘系统的研究与开发 Research and Development of Enterprise-class Online Storage System based on H ...
- 【Hadoop】四、Hadoop生态综合案例 ——陌陌聊天数据分析
文章目录 四.Hadoop生态综合案例 --陌陌聊天数据分析 1.陌陌聊天数据分析案例需求 1.1.背景介绍 1.2.目标需求 1.3.数据内容 2.基于Hive数仓实现需求开发 2.1.建库建表.加 ...
- 陌陌聊天数据分析 (一)
陌陌聊天数据分析(一) 目标 基于Hadoop和Hive实现聊天数据统计分析,构建聊天数据分析报表 需求 统计今日总消息量 统计今日每小时消息量,发送和接收用户数量 统计今日各地区发送消息数据量 统计 ...
- 陌陌聊天数据分析 (二)
陌陌聊天数据分析 (二)
- 大数据综合实例—陌陌聊天数据分析
大数据综合实例-陌陌聊天数据分析 1. 需求分析 数据大小:14万条 列分隔符:制表符 \t 2. 建库建表与加载数据 建库 --------------1.建库------------------- ...
- 基于Hive数仓的陌陌聊天数据需求开发
文章目录 数据背景 数据准备 需求分析 创建数据库及表 加载数据 ETL数据清洗 需求指标统计 数据背景 陌陌作为聊天平台每天都会有大量的用户在线,会出现大量的聊天数据,通过对聊天数据的统计分析,可以 ...
最新文章
- 「镁客早报」华为Mate 30最快今年9月推出;波士顿动力再秀Handle新动态
- C++多态的概念及前提条件(最精辟)
- 如何用item pipeline(管道)清洗数据
- Required request body is missing 错误
- 审查元素找不到创建的元素_香奈儿除了珍珠,还有哪些你不知道的经典元素?答案在原文中找...
- utilities(C++)——Null类的设计
- Spring中使用的九种设计模式
- 前端学习的开源实战项目及其源码
- OptiX OSN3500
- python中cursor的用法_python中cursor操作数据库
- 熔断漏洞和幽灵漏洞_崩溃和幽灵:发现新的英特尔CPU漏洞
- 2021/1/26-每日三题第33弹:皮皮虾,我们走 !你知道什么是面向对象编程和面向过程编程吗 ???
- 各类型PPT免费模板,无需编辑直接套用即可!
- 双非计算机保研北邮经验贴|纯干货(面向平民)
- 2022圣诞节用canvas实现流星雨
- 软文标题怎么写?这8种标题写法你用对了吗
- 管理学专业学生必懂 3月25日 16:40
- java tsp 遗传算法_遗传算法解决TSP问题
- 如何看待996现象,996工作模式是种什么样的体验?
- 笔记本wlan显示未开启