数仓 DW层中主题表之页面交互事件概况主题(分享,点赞,收藏)
数仓 DW层中主题表之页面交互事件概况主题(分享,点赞,收藏)
1. 背景
- 在大数据开发中,本身的数据处理分析目的一般就是2类,一个是基于现有数据找出规律,做总结和分类统计。一个是基于现有数据找出规律,然后训练出模型,最后预测未来变化。
- 前者就是传统的大数据分析和处理
- 后者就是近几年火起来的机器学习
- 大数据处理中,数据来源一般是三大类,爬虫数据,行为日志埋点数据,业务数据。当然特殊场合还会有购买来的线程数据。
- 行为日志数据中,顾名思义,一般就是对用户行为记录的数据,由于目前都是互联网迭代敏捷开发,一个功能出现后,并不能很好确定对业务和业绩带来的变化是正面还是负面,以及影响程度。这时候就可以从行为日志中对一些基本指标做统计,从侧面来评估一个功能或者页面,或者流程对现有用户和业务业绩的影响。
- 赞,转,踩,收藏,很常见的四个指标,互联网需求开发中会经常遇到。本文就是解析基于行为日志数据对这几个指标做统计分析
2. 分享
- 分享的行为日志模拟数据
{"account":"","appId":"cn.doitedu.app1","appVersion":"3.4","carrier":"中国移动","deviceId":"8QEmr7ljihxQ","deviceType":"GALAXY-2","eventId":"share","ip":"237.104.179.108","latitude":26.48286080225125,"longitude":106.05814604570286,"netType":"3G","osName":"android","osVersion":"6.5","properties":{"pageId":"301","productId":"888","shareMethod":"qq空间","title":"PhT KoH yhG","url":"ril/wkL"},"releaseChannel":"柠檬助手","resolution":"1024*768","sessionId":"OQSWOhT8WsC","timeStamp":1602063077854}
- 需要的指标
- 数据统计思路
- 因为数据是每天产生的,所以每日滚动做分析,按照日期做分区存储,这个指标没问题
- 商品品类,商品品牌,所在页面,所述栏目,分享平台都是现成的上报字段,直接获取即可
- 时段,这里需要确定一下口径,本文以时间向下取整,计算出所述的小时时段
- 设备类型,也是现成指标,但这里需要确定设备类型是大类型还是小类型(手机、平板;抑或是安卓,ios手机;抑或是精确到 手机品牌?)
- 分享次数,顾名思义,就是统计eventId是share类型的数据条数
- 分享人数,这里需要count时,基于guid进行distinct统计
- 综上,无法一次性拿到所有指标,所以分2部分获取,一部分直接拿对应的指标,并按照对应字段做group by统计。注意加上guid作为group by字段;另外一部分直接计算分享次数,分享人数等统计
3. 点赞
- 点赞的行为日志模拟数据
{"account":"wWRAho9y","appId":"cn.doitedu.app1","appVersion":"3.4","carrier":"腾讯移动","deviceId":"8MHvYuyzpkYB","deviceType":"MI-10","eventId":"thumbup","ip":"71.108.129.236","latitude":28.223969803957008,"longitude":106.58697132089286,"netType":"WIFI","osName":"android","osVersion":"8.0","properties":{"pageId":"744","productId":"215","title":"lAW cLb jmC","url":"Mat/akI"},"releaseChannel":"小米应用商店","resolution":"1024*768","sessionId":"zJ6FB9XqKQw","timeStamp":1602063084875}
- 需要的指标
- 分析思路,和上述分享是一样的
4. 收藏
- 收藏的行为日志模拟数据
{"account":"OojqS36Vk","appId":"cn.doitedu.app1","appVersion":"4.0","carrier":"中国移动","deviceId":"5hZaxgYv2Vdp","deviceType":"REDMI-6","eventId":"collect","ip":"228.241.223.115","latitude":34.344448280621755,"longitude":105.58117092708984,"netType":"WIFI","osName":"android","osVersion":"7.5","properties":{"pageId":"890","productId":"959","title":"Baa kvn sIi","url":"rQY/iFa"},"releaseChannel":"拇指玩","resolution":"1024*768","sessionId":"6xyR0rGoA0Y","timeStamp":1602063085415}
- 所需要指标
- 分析思路,和分享是一样的解决思路
数仓 DW层中主题表之页面交互事件概况主题(分享,点赞,收藏)相关推荐
- 数仓 DW层 用户留存分析主题
数仓 DW层 用户留存分析主题 1. 背景 在app运营和产品设计中,一般都是拉新和留存2个最关键指标来衡量对用户的吸引力程度. 拉新,顾名思义, 拉新用户进来 留存,顾名思义,让用户留下来,这里面有 ...
- 数仓dw怎么建_从0建设离线数据仓库
话聊 建设数仓 ETL 工具 面临的问题 分层 分层的出发点 分层设计 模型建设 为什么要建设模型 怎么建设模型 理清工作思路 实施步骤 建模方法及实施 规范建设 临时表管理 代码规范 流程规范 话聊 ...
- 数仓(十)从0到1简单搭建加载数仓DWS层
数仓(一)简介数仓,OLTP和OLAP 数仓(二)关系建模和维度建模 数仓(三)简析阿里.美团.网易.恒丰银行.马蜂窝5家数仓分层架构 数仓(四)数据仓库分层 数仓 (五) 元数据管理系统解析 数仓( ...
- 数仓ADS层指标计算案例分享
数仓ADS层指标计算案例分享 ADS层数据往往是最终的结果指标数据,在大屏展示,或者实时流处理时候使用,通过下面两个例子来练习业务大屏展示sql该怎么写. 1. 会员分析案例 1.1 数据准备 表结构 ...
- 数仓维度建模之维度表技术基础
数仓维度建模之维度表技术基础 01 维度表结构 组成结构: 主键 + 维度属性 名词解释: 主键:作⽤是与事实表的外键进⾏关联. 维度属性:是⽤于描述维度特性的字段,⼀般作为 group by分组查询 ...
- ☀️ 数仓建模理论,大数据邻域通用的维度建模技巧【建议收藏学习】
文章目录 前言: 正文: 关系建模 关系建模的特点 维度建模 维度建模的特点 事实表 维度模型的分类 各模型的适用场景 建模阶段具体的划分 1. ODS层 ( 原始数据存储层,直接加载原始日志.数据保 ...
- 数仓dw怎么建_网易严选如何打造数仓规范和评价体系
数据为王的时代,数据量从最初的几十 G,慢慢沉淀到几十 T,甚至几十 PB 的量.数据工程师,也从最初的 ETL 工程师慢慢成长为数据全栈工程师:采集.同步.模型.离线.实时.规范.平台.工具.产品. ...
- 从0到1搭建数仓DWD层案例实践
关注公众号:大数据技术派,回复资料,领取1024G资料. 然后点击右上角 "设为星标" 比别人更快接收好文章 前 导读:数仓架构(ods-dwd-dws-ads)每一层之前我们已经 ...
- 数仓(六)从0到1简单搭建数仓ODS层(埋点日志 + 业务数据)
数仓(一)简介数仓,OLTP和OLAP 数仓(二)关系建模和维度建模 数仓(三)简析阿里.美团.网易.恒丰银行.马蜂窝5家数仓分层架构 数仓(四)数据仓库分层 数仓(五)元数据管理系统解析 最近工作一 ...
最新文章
- 重庆理工大学计算机考研就业,重庆理工大学专业硕士含金量高吗?好就业吗?
- Redis使用场景、Redis线程模型、Redis持久化 - 公开课笔记
- HTML行内元素/行级元素/内联元素/行标签/内联标签/行内标签/行元素
- python 各个模块的简单介绍 转载
- c++基础学习(06)--(时间,输入输出,数据结构)
- MySQL数据库之MyISAM与InnoDB的区别
- PHP 调用shell命令
- loj#2073. 「JSOI2016」扭动的回文串
- 【机器人操作系统】ROS话题编程
- 一款用了都说好的思维导图软件:Ayoa
- Excel曲线拟合的精度问题
- 不为人知的华为和小米真相
- 拼音模糊搜索 php,精确搜索加拼音搜索加模糊搜索
- Ogre 合成器 compositor
- Improved autoencoder for unsupervised anomaly detection
- php判断移动端和pc端访问_PHP函数判断移动端和PC端
- 入职一个月老大教我如何在做测试中运用Linux
- 5G时代来临,电影行业面临的机遇与挑战
- Word中表的自动断开、且断开处有空白页面的问题之解决
- 2022 综合英语慕课(大学英语二)最新满分章节测试答案(题库中自找具体题目)
热门文章
- 【自监督GAN】Self-Supervised GANs via Auxiliary Rotation Loss(SS-GAN)
- 如何把npf号码本从三星手机导入android,如何将旧手机中联系人导入Android手机
- 华为od机考真题-数组拼接
- 给定一个矩阵m*n,从左上角开始每次只能向右或者向下走,最后到右下角的位置共有多少种路径
- 马云与史玉柱经典语录
- Axure谷歌浏览器Chrome扩展程序下载地址:Axure RP Extension For Chrome 0.62
- Python 实现我的世界 MINECRAFT
- python爬取淘宝全部『螺蛳粉』数据,看看你真的了解螺蛳粉吗?
- 计算机编程的基础小知识
- NameError: name ‘imshow’ is not defined. 和TypeError: Invalid shape (3, 224, 224) for image data