这各项目中有大量的指标,这里先只做一个进行分析 ,后续再更。

1.分析指标

每日登陆人数

用户在N天内每日的登陆人数。

2.静态分析数据

静态观察CharacterLogin中的2014­10­27.txt数据文件,结合xml文件,发现有两个字段很有用,分别是LogTime和IsLogin。这里的IsLogin表示登陆和登出,无论取什么值,都可以看作登录。也就是说,有用的字段实际上只有2个。

3.基础层数据分析

  • 1.先把全部数据导入到hdfs中

执行

hdfs dfs -put /GameData /

数据就导入到hdfs的根目录下

  • 2.创建一个外部临时表【临时表的作用是中转】,把数据导入到hive中
create external table t2(line string) location "/GameData/2015-6-12/0001/0007/CharacterLogin";
  • 3.测试分割的语法,比如分割一行的内容 select split(line, '\\|') from t2 limit 1;

  • 4.取出自己需要的值,建立表

在建表之前,考虑到需求中的日期格式,所以

在hive中对日期数据进行处理,毫秒级时间转化为yyyy-MM-dd格式

https://georgedage.blog.csdn.net/article/details/103263588

然后创表:

create table CLogin as
select
split(line,"\\|")[5] as AccountID,
split(line,"\\|")[6] CharacterID,
from_unixtime(cast(substr(split(line,"\\|")[8],0,10) as bigint),"yyyy-MM-dd") LogTime,
split(line,"\\|")[10] IsLoginfrom t2;

使用查询语句进行验证:

 select * from clogin limit 1;

因为要统计每日的登陆人数,所以再次做出测试:

select count(accountid),LogTime from CLogin group by LogTime limit 1;

  • 5.在这里我们已经可以进行初步的计算每日,不过由于需要进行表格展示给用户,所以我们使用了可视化工具echarts。

计算好的数据:

create table n_days_stat as
select
count(accountid),
LogTime
from CLogin
group by LogTime;

进行检验:

select * from n_days_stat limit 10;

我来更新了:


  • 使用sqoop将数据导入到mysql中

https://georgedage.blog.csdn.net/article/details/103265732

然后再来条sql语句,【注我们统计7日内的每日用户数】

select logtime from n_days_stat where
TO_DAYS("2015-06-01")> TO_DAYS(logtime) and TO_DAYS("2015-06-01")-
TO_DAYS(logtime)<=7 ORDER BY logtime desc;

然后:https://www.echartsjs.com/examples/zh/editor.html?c=line-simple

这里没有直接做一个web页面,后续会再次更新!!!

游戏数仓分析(一)数据准备阶段相关推荐

  1. 游戏数仓分析(三)SpringBoot项目对数据进行可视化展示,每日注册用户

    在游戏数仓分析(二)SpringBoot项目对数据进行可视化展示中已经做出一定的演示:https://georgedage.blog.csdn.net/article/details/10327840 ...

  2. 游戏数仓分析(二)SpringBoot项目对数据进行可视化展示

    项目架构: 1.新创建war项目 2.补全项目结构文件夹 3.添加依赖Pom.xml: <?xml version="1.0" encoding="UTF-8&qu ...

  3. 每天和琦琦学点新知识_大数据_数仓分析

    数仓分析 ShopXO免费开源商城系统.国内领先企业级B2C免费开源电商系统,包含PC.h5.微信小程序.支付宝小程序.百度小程序.头条&抖音小程序.QQ小程序.APP.多商户,遵循MIT开源 ...

  4. 大数据架构详解_【数据如何驱动增长】(3)大数据背景下的数仓建设 amp; 数据分层架构设计...

    背景 了解数据仓库.数据流架构的搭建原理对于合格的数据分析师或者数据科学家来说是一项必不可少的能力.它不仅能够帮助分析人员更高效的开展分析任务,帮助公司或者业务线搭建一套高效的数据处理架构,更是能够从 ...

  5. 爱奇艺数据中台建设组合拳:日志投递、统一数仓、大数据平台

    本文根据马金韬老师在[deeplus直播第233期]线上分享演讲内容整理而成.首发于DBAplus社群,经授权转载(文末有获取本期PPT&回放的方式,不要错过) 马金韬 爱奇艺数据中台负责人 ...

  6. 一文读懂数仓建设和数据治理

    点击上方 "大数据肌肉猿"关注, 星标一起成长 点击下方链接,进入高质量学习交流群 今日更新| 950个转型案例分享-大数据交流群 本文分为两大节介绍,第一节是数仓建设,第二节是数 ...

  7. 1W字概括数仓建设和数据治理

    点击上方 "大数据肌肉猿"关注, 星标一起成长 后台回复[加群],进入高质量学习交流群 2021年大数据肌肉猿公众号奖励制度 本文分为两大节介绍,第一节是数仓建设,第二节是数据治理 ...

  8. 关于数仓建设及数据治理的超全概括

    进入主页,点击右上角"设为星标" 比别人更快接收好文章 本文分为两大节介绍,第一节是数仓建设,第二节是数据治理,内容较长,还请耐心阅读! 在谈数仓之前,先来看下面几个问题: 数仓为 ...

  9. 谈笑间学会数仓—主题域数据域

    谈笑间学会数仓-主题域&&数据域 在之前的文章里虽然没有按照顺序来,但是基本上都介绍了数据仓库建设的大概流程,比如技术架构方案设计.建模方法论.数仓分层.开发规范.数仓建设中的各种事实 ...

最新文章

  1. 《Spring2之站立会议8》
  2. php简单实例,php实现推荐功能的简单实例
  3. 【Linux】一步一步学Linux——gdb命令(258)
  4. tomcat手动发布
  5. 分析攻击IP来源地并画出饼图
  6. SAP Spartacus产品数据HTTP GET请求前的OPTIONS请求
  7. python多线程编程(2): 线程的创建、启动、挂起和退出
  8. python shelve模块
  9. 2017.10.15 旅行comf 失败总结
  10. Intel Core Enhanced Core架构/微架构/流水线 (12) - 数据预取
  11. Swoole(PHP高级Web开发框架)
  12. 5显示日志_如何在 Linux 中管理日志 | Linux 中国
  13. oracle 主键自动地址实现
  14. 手电筒安卓_开号以来安卓软件汇总!
  15. 专用计算机的运行速度,WIN10专业版下电脑运行速度慢多个解决技巧
  16. 【比赛游记】NOI2019打铁记
  17. Vue——v-show的使用——2020.11.18
  18. Form表单提交方法method
  19. Fedora 服务启动管理
  20. SpringBoot定时任务(@Scheduled)说明

热门文章

  1. tourist取模模板
  2. CodeForces - 1220B Multiplication Table(思维)
  3. UVA - 1533Moving Pegs移动小球 (bfs加状态压缩)
  4. HDU1823(二维线段树)
  5. SqlServer安装出错解决办法
  6. leetcode-876. 链表的中间结点解法
  7. QUIC学习笔记之 如何做到0RTT加密传输
  8. 你了解HTTPS工作原理吗?
  9. 聊一聊Java中的文件锁
  10. 注意!!Redis使用不当真的可能会导致应用卡死