目录

前言

一、使用的工具

二、操作步骤

1.数据来源

2.数据内容分析

3.加载数据

4.数据清洗ETL

5.数据分析

8.数据可视化

前言

本文章是使用基于Hadoop的数据仓库Hive针对陌陌聊天软件进行数据分析并可视化。

一、使用的工具

  • Vmware Workstation Pro
  • Centos 7 64bit
  • FinalShell 3.9.2.2
  • DataGrip 2020.1 x64
  • Tableau 2021.1

二、操作步骤

1.数据来源

来自聊天系统中导出的2021年11月01日一天24小时的用户聊天数据,以TSV文本形式存储

数据获取链接:https://pan.baidu.com/s/1dq1YJE_drBtJBsjgXDqpsg 
提取码:wgls

2.数据内容分析

①数据大小:两个文件data1.tsv和data2.tsv,共14万条数据

②列分割符:'\t'

③字段名及数据类型(这里为了方便统一,一致使用varchar数据类型)

消息发送时间:varchar
发件人昵称:varchar
发件人账号:varchar
发件人性别:varchar
发件人IP:varchar
发件人系统:varchar
发件人手机型号:varchar
发件人网络类型:varchar
发件人GPS:varchar
收件人昵称:varchar
收件人IP:varchar
收件人账号:varchar
收件人系统:varchar
收件人手机型号:varchar
收件人性别:varchar
消息类型:varchar
相隔距离:varchar
消息内容:varchar

3.加载数据

①创建数据库momo(这里使用DataGrip)

②创建表momo_data

③将两份数据data1.tsv和data2.tsv上传到HS2服务所在的本地文件系统(这里使用FinalShell,我的是在虚拟机node1的/root/hivedata/下)

④加载data1.tsv和data2.tsv数据到momo_data表上

⑤验证数据加载是否成功

查看momo_data表前10行数据是否正常

查看momo_data表的总行数(这里可能会耗费一点时间)

4.数据清洗ETL

①检查发现发送人GPS一列存在数据缺失

②需要将消息发送时间进行日期和小时的拆分

③由于tableau需要经度纬度进行分析,需要对发送人GPS和接收人GPS进行拆分

④将数据清洗后的数据保存到新表中

创建新表momo_etl_data并验证数据是否清洗成功

5.数据分析

①统计今日(2021-11-01)消息量

②统计每小时消息量、发送和接收用户数

③统计今日各地区发送消息量

④统计发送消息最多次数的Top10用户

⑤统计接收消息最多次数的Top10用户

⑥统计发送人手机型号分布情况

⑦统计发送人操作系统分布情况

8.数据可视化

这里使用Tableau对以上数据表进行可视化,具体过程便不多赘述

总结

以上就是今天要讲的内容,本文仅仅简单介绍了数据分析的业务案例,具体的环境配置没有在这里说明,望大家自行配置。

基于Hadoop的数据分析案例-陌陌聊天软件数据分析相关推荐

  1. 【数据分析案例】用Excel进行数据分析:从市场调研到销售分析

    作者:禅与计算机程序设计艺术 [数据分析案例]用Excel进行数据分析:从市场调研到销售分析 1. 引言 1.1. 背景介绍 在当今信息时代,数据分析已成为各个行业必备的一环.无论是在市场营销.销售. ...

  2. 【数据分析案例】某瓣读书数据分析

    前言说明 本文借用原文作者路人甲的爬取数据进行数据分析思路分享,如有侵犯相关版权信息,请联系本文作者删除文章 数据来源 数据源来自路人甲的公众号,可关注「路人甲 TM」公众号获取数据源 部分数据特征为 ...

  3. Python数据分析案例12——网飞影视剧数据分析及其可视化

    背景介绍 Netflix是最受欢迎的媒体和视频流平台之一.他们的平台上有超过 8000 部电影或电视节目.截至 2021 年年中,他们在全球拥有超过 2 亿订阅者. 博主看美剧也较为多,像<怪奇 ...

  4. Hadoop综合案例 - 聊天软件数据

    目录 1.聊天软件数据分析案例需求 2.基于Hive数仓实现需求开发 2.1 建库 2.2 建表 2.3 加载数据 2.4 ETL数据清洗 2.5 需求指标统计---都很简单 3.FineBI实现可视 ...

  5. 基于Hadoop的企业级网盘系统的研究与开发

    基于Hadoop的企业级网盘系统的研究与开发 Research and Development of Enterprise-class Online Storage System based on H ...

  6. 【Hadoop】四、Hadoop生态综合案例 ——陌陌聊天数据分析

    文章目录 四.Hadoop生态综合案例 --陌陌聊天数据分析 1.陌陌聊天数据分析案例需求 1.1.背景介绍 1.2.目标需求 1.3.数据内容 2.基于Hive数仓实现需求开发 2.1.建库建表.加 ...

  7. 陌陌聊天数据分析 (一)

    陌陌聊天数据分析(一) 目标 基于Hadoop和Hive实现聊天数据统计分析,构建聊天数据分析报表 需求 统计今日总消息量 统计今日每小时消息量,发送和接收用户数量 统计今日各地区发送消息数据量 统计 ...

  8. 陌陌聊天数据分析 (二)

    陌陌聊天数据分析 (二)

  9. 大数据综合实例—陌陌聊天数据分析

    大数据综合实例-陌陌聊天数据分析 1. 需求分析 数据大小:14万条 列分隔符:制表符 \t 2. 建库建表与加载数据 建库 --------------1.建库------------------- ...

  10. 基于Hive数仓的陌陌聊天数据需求开发

    文章目录 数据背景 数据准备 需求分析 创建数据库及表 加载数据 ETL数据清洗 需求指标统计 数据背景 陌陌作为聊天平台每天都会有大量的用户在线,会出现大量的聊天数据,通过对聊天数据的统计分析,可以 ...

最新文章

  1. 「镁客早报」华为Mate 30最快今年9月推出;波士顿动力再秀Handle新动态
  2. C++多态的概念及前提条件(最精辟)
  3. 如何用item pipeline(管道)清洗数据
  4. Required request body is missing 错误
  5. 审查元素找不到创建的元素_香奈儿除了珍珠,还有哪些你不知道的经典元素?答案在原文中找...
  6. utilities(C++)——Null类的设计
  7. Spring中使用的九种设计模式
  8. 前端学习的开源实战项目及其源码
  9. OptiX OSN3500
  10. python中cursor的用法_python中cursor操作数据库
  11. 熔断漏洞和幽灵漏洞_崩溃和幽灵:发现新的英特尔CPU漏洞
  12. 2021/1/26-每日三题第33弹:皮皮虾,我们走 !你知道什么是面向对象编程和面向过程编程吗 ???
  13. 各类型PPT免费模板,无需编辑直接套用即可!
  14. 双非计算机保研北邮经验贴|纯干货(面向平民)
  15. 2022圣诞节用canvas实现流星雨
  16. 软文标题怎么写?这8种标题写法你用对了吗
  17. 管理学专业学生必懂 3月25日 16:40
  18. java tsp 遗传算法_遗传算法解决TSP问题
  19. 如何看待996现象,996工作模式是种什么样的体验?
  20. 笔记本wlan显示未开启

热门文章

  1. 百度网盘链接提取码接口实现
  2. CFAR检测MATLAB仿真
  3. JAVA 多线程并发
  4. Java实验输出希腊字母表
  5. 时域,空域,频域的基本概念
  6. 使用阿里云邮件推送服务群发邮件
  7. 天正安装autocad启动失败_安装天正后cad无法启动 - 卡饭网
  8. endnote初始化数据库支持_学术干货:Endnote免费网页版竟如此强大!
  9. 函数计算机怎么算开根号,excel开根号公式怎么计算(详解excel开根号公式函数)...
  10. 新手小白做短视频自媒体,入门级教程分享,抓紧收藏