数仓 DW层中主题表之页面交互事件概况主题(分享,点赞,收藏)

1. 背景

  1. 在大数据开发中,本身的数据处理分析目的一般就是2类,一个是基于现有数据找出规律,做总结和分类统计。一个是基于现有数据找出规律,然后训练出模型,最后预测未来变化。
  • 前者就是传统的大数据分析和处理
  • 后者就是近几年火起来的机器学习
  1. 大数据处理中,数据来源一般是三大类,爬虫数据,行为日志埋点数据,业务数据。当然特殊场合还会有购买来的线程数据。
  2. 行为日志数据中,顾名思义,一般就是对用户行为记录的数据,由于目前都是互联网迭代敏捷开发,一个功能出现后,并不能很好确定对业务和业绩带来的变化是正面还是负面,以及影响程度。这时候就可以从行为日志中对一些基本指标做统计,从侧面来评估一个功能或者页面,或者流程对现有用户和业务业绩的影响。
  3. 赞,转,踩,收藏,很常见的四个指标,互联网需求开发中会经常遇到。本文就是解析基于行为日志数据对这几个指标做统计分析

2. 分享

  1. 分享的行为日志模拟数据
{"account":"","appId":"cn.doitedu.app1","appVersion":"3.4","carrier":"中国移动","deviceId":"8QEmr7ljihxQ","deviceType":"GALAXY-2","eventId":"share","ip":"237.104.179.108","latitude":26.48286080225125,"longitude":106.05814604570286,"netType":"3G","osName":"android","osVersion":"6.5","properties":{"pageId":"301","productId":"888","shareMethod":"qq空间","title":"PhT KoH yhG","url":"ril/wkL"},"releaseChannel":"柠檬助手","resolution":"1024*768","sessionId":"OQSWOhT8WsC","timeStamp":1602063077854}
  1. 需要的指标
  2. 数据统计思路
  • 因为数据是每天产生的,所以每日滚动做分析,按照日期做分区存储,这个指标没问题
  • 商品品类,商品品牌,所在页面,所述栏目,分享平台都是现成的上报字段,直接获取即可
  • 时段,这里需要确定一下口径,本文以时间向下取整,计算出所述的小时时段
  • 设备类型,也是现成指标,但这里需要确定设备类型是大类型还是小类型(手机、平板;抑或是安卓,ios手机;抑或是精确到 手机品牌?)
  • 分享次数,顾名思义,就是统计eventId是share类型的数据条数
  • 分享人数,这里需要count时,基于guid进行distinct统计
  1. 综上,无法一次性拿到所有指标,所以分2部分获取,一部分直接拿对应的指标,并按照对应字段做group by统计。注意加上guid作为group by字段;另外一部分直接计算分享次数,分享人数等统计

3. 点赞

  1. 点赞的行为日志模拟数据
{"account":"wWRAho9y","appId":"cn.doitedu.app1","appVersion":"3.4","carrier":"腾讯移动","deviceId":"8MHvYuyzpkYB","deviceType":"MI-10","eventId":"thumbup","ip":"71.108.129.236","latitude":28.223969803957008,"longitude":106.58697132089286,"netType":"WIFI","osName":"android","osVersion":"8.0","properties":{"pageId":"744","productId":"215","title":"lAW cLb jmC","url":"Mat/akI"},"releaseChannel":"小米应用商店","resolution":"1024*768","sessionId":"zJ6FB9XqKQw","timeStamp":1602063084875}
  1. 需要的指标
  2. 分析思路,和上述分享是一样的

4. 收藏

  1. 收藏的行为日志模拟数据
{"account":"OojqS36Vk","appId":"cn.doitedu.app1","appVersion":"4.0","carrier":"中国移动","deviceId":"5hZaxgYv2Vdp","deviceType":"REDMI-6","eventId":"collect","ip":"228.241.223.115","latitude":34.344448280621755,"longitude":105.58117092708984,"netType":"WIFI","osName":"android","osVersion":"7.5","properties":{"pageId":"890","productId":"959","title":"Baa kvn sIi","url":"rQY/iFa"},"releaseChannel":"拇指玩","resolution":"1024*768","sessionId":"6xyR0rGoA0Y","timeStamp":1602063085415}
  1. 所需要指标
  2. 分析思路,和分享是一样的解决思路

数仓 DW层中主题表之页面交互事件概况主题(分享,点赞,收藏)相关推荐

  1. 数仓 DW层 用户留存分析主题

    数仓 DW层 用户留存分析主题 1. 背景 在app运营和产品设计中,一般都是拉新和留存2个最关键指标来衡量对用户的吸引力程度. 拉新,顾名思义, 拉新用户进来 留存,顾名思义,让用户留下来,这里面有 ...

  2. 数仓dw怎么建_从0建设离线数据仓库

    话聊 建设数仓 ETL 工具 面临的问题 分层 分层的出发点 分层设计 模型建设 为什么要建设模型 怎么建设模型 理清工作思路 实施步骤 建模方法及实施 规范建设 临时表管理 代码规范 流程规范 话聊 ...

  3. 数仓(十)从0到1简单搭建加载数仓DWS层

    数仓(一)简介数仓,OLTP和OLAP 数仓(二)关系建模和维度建模 数仓(三)简析阿里.美团.网易.恒丰银行.马蜂窝5家数仓分层架构 数仓(四)数据仓库分层 数仓 (五) 元数据管理系统解析 数仓( ...

  4. 数仓ADS层指标计算案例分享

    数仓ADS层指标计算案例分享 ADS层数据往往是最终的结果指标数据,在大屏展示,或者实时流处理时候使用,通过下面两个例子来练习业务大屏展示sql该怎么写. 1. 会员分析案例 1.1 数据准备 表结构 ...

  5. 数仓维度建模之维度表技术基础

    数仓维度建模之维度表技术基础 01 维度表结构 组成结构: 主键 + 维度属性 名词解释: 主键:作⽤是与事实表的外键进⾏关联. 维度属性:是⽤于描述维度特性的字段,⼀般作为 group by分组查询 ...

  6. ☀️ 数仓建模理论,大数据邻域通用的维度建模技巧【建议收藏学习】

    文章目录 前言: 正文: 关系建模 关系建模的特点 维度建模 维度建模的特点 事实表 维度模型的分类 各模型的适用场景 建模阶段具体的划分 1. ODS层 ( 原始数据存储层,直接加载原始日志.数据保 ...

  7. 数仓dw怎么建_网易严选如何打造数仓规范和评价体系

    数据为王的时代,数据量从最初的几十 G,慢慢沉淀到几十 T,甚至几十 PB 的量.数据工程师,也从最初的 ETL 工程师慢慢成长为数据全栈工程师:采集.同步.模型.离线.实时.规范.平台.工具.产品. ...

  8. 从0到1搭建数仓DWD层案例实践

    关注公众号:大数据技术派,回复资料,领取1024G资料. 然后点击右上角 "设为星标" 比别人更快接收好文章 前 导读:数仓架构(ods-dwd-dws-ads)每一层之前我们已经 ...

  9. 数仓(六)从0到1简单搭建数仓ODS层(埋点日志 + 业务数据)

    数仓(一)简介数仓,OLTP和OLAP 数仓(二)关系建模和维度建模 数仓(三)简析阿里.美团.网易.恒丰银行.马蜂窝5家数仓分层架构 数仓(四)数据仓库分层 数仓(五)元数据管理系统解析 最近工作一 ...

最新文章

  1. 重庆理工大学计算机考研就业,重庆理工大学专业硕士含金量高吗?好就业吗?
  2. Redis使用场景、Redis线程模型、Redis持久化 - 公开课笔记
  3. HTML行内元素/行级元素/内联元素/行标签/内联标签/行内标签/行元素
  4. python 各个模块的简单介绍 转载
  5. c++基础学习(06)--(时间,输入输出,数据结构)
  6. MySQL数据库之MyISAM与InnoDB的区别
  7. PHP 调用shell命令
  8. loj#2073. 「JSOI2016」扭动的回文串
  9. 【机器人操作系统】ROS话题编程
  10. 一款用了都说好的思维导图软件:Ayoa
  11. Excel曲线拟合的精度问题
  12. 不为人知的华为和小米真相
  13. 拼音模糊搜索 php,精确搜索加拼音搜索加模糊搜索
  14. Ogre 合成器 compositor
  15. Improved autoencoder for unsupervised anomaly detection
  16. php判断移动端和pc端访问_PHP函数判断移动端和PC端
  17. 入职一个月老大教我如何在做测试中运用Linux
  18. 5G时代来临,电影行业面临的机遇与挑战
  19. Word中表的自动断开、且断开处有空白页面的问题之解决
  20. 2022 综合英语慕课(大学英语二)最新满分章节测试答案(题库中自找具体题目)

热门文章

  1. 【自监督GAN】Self-Supervised GANs via Auxiliary Rotation Loss(SS-GAN)
  2. 如何把npf号码本从三星手机导入android,如何将旧手机中联系人导入Android手机
  3. 华为od机考真题-数组拼接
  4. 给定一个矩阵m*n,从左上角开始每次只能向右或者向下走,最后到右下角的位置共有多少种路径
  5. 马云与史玉柱经典语录
  6. Axure谷歌浏览器Chrome扩展程序下载地址:Axure RP Extension For Chrome 0.62
  7. Python 实现我的世界 MINECRAFT
  8. python爬取淘宝全部『螺蛳粉』数据,看看你真的了解螺蛳粉吗?
  9. 计算机编程的基础小知识
  10. NameError: name ‘imshow’ is not defined. 和TypeError: Invalid shape (3, 224, 224) for image data