Hologres如何基于roaringbitmap实现超高基数UV计算?
简介:本文将会介绍Hologres基于roaringbitmap实现超高基数的UV计算
RoaringBitmap是一种压缩位图索引,RoaringBitmap自身的数据压缩和去重特性十分适合对于大数据下uv计算。其主要原理如下:
- 对于32bit数, RoaringBitmap会构造2^16个桶,对应32位数的高16位;32位数的低16位则映射到对应桶的一个bit上。单个桶的容量由桶中的已有的最大数值决定
- bitmap把32位数用1位表示,可以大大地压缩数据大小。
- bitmap位运算为去重提供了手段。
主体思想(T+1):把上一天的所有数据根据最大的查询维度聚合出的uid结果放入RoaringBitmap中,把RoaringBitmap和查询维度存放在聚合结果表(每天百万条)。之后查询时,利用Hologres强大的列存计算直接按照查询维度去查询聚合结果表,对其中关键的RoaringBitmap字段做or运算进行去重后并统计基数,即可得出对应用户数UV,count条数即可计算得出PV,达到亚秒级查询。
只需进行一次最细粒度的预聚合计算,也只生成一份最细粒度的预聚合结果表。得益于Hologres的实时计算能力,该方案下预计算所需的次数和空间都达到较低的开销。
Hologres计算UV、PV方案详情
图1 Hologres基于RoaringBitmap计算pv uv流程
1.创建相关基础表
1)使用RoaringBitmap前需要创建RoaringBitmap extention,语法如下,同时该功能需要Hologres 0.10版本。
CREATE EXTENSION IF NOT EXISTS roaringbitmap;
2)创建表ods_app为明细源表,存放用户每天大量的明细数据 (按天分区),其DDL如下:
BEGIN; CREATE TABLE IF NOT EXISTS public.ods_app ( uid text, country text, prov text, city text, channel text, operator text, brand text, ip text, click_time text, year text, month text, day text, ymd text NOT NULL ); CALL set_table_property('public.ods_app', 'bitmap_columns', 'country,prov,city,channel,operator,brand,ip,click_time, year, month, day, ymd'); --distribution_key根据需求设置,根据该表的实时查询需求,从什么维度做分片能够取得较好效果即可 CALL set_table_property('public.ods_app', 'distribution_key', 'uid'); --用于做where过滤条件,包含完整年月日时间字段推荐设为clustering_key和event_time_column CALL set_table_property('public.ods_app', 'clustering_key', 'ymd'); CALL set_table_property('public.ods_app', 'event_time_column', 'ymd'); CALL set_table_property('public.ods_app', 'orientation', 'column'); COMMIT;
3)创建表uid_mapping为uid映射表,uid映射表用于映射uid到32位int类型。
RoaringBitmap类型要求用户ID必须是32位int类型且越稠密越好(用户ID最好连续),而常见的业务系统或者埋点中的用户ID很多是字符串类型,因此使用uid_mapping类型构建一张映射表。映射表利用Hologres的SERIAL类型(自增的32位int)来实现用户映射的自动管理和稳定映射。
注: 该表在本例每天批量写入场景,可为行存表也可为列存表,没有太大区别。如需要做实时数据(例如和Flink联用),需要是行存表,以提高Flink维表实时JOIN的QPS。
BEGIN; CREATE TABLE public.uid_mapping ( uid text NOT NULL, uid_int32 serial, PRIMARY KEY (uid) ); --将uid设为clustering_key和distribution_key便于快速查找其对应的int32值 CALL set_table_property('public.uid_mapping', 'clustering_key', 'uid'); CALL set_table_property('public.uid_mapping', 'distribution_key', 'uid'); CALL set_table_property('public.uid_mapping', 'orientation', 'row'); COMMIT;
3)创建表dws_app基础聚合表,用于存放在基础维度上聚合后的结果
基础维度为之后进行查询计算pv和uv的最细维度,这里以country, prov, city为例构建聚合表
begin; create table dws_app( country text, prov text, city text, ymd text NOT NULL, --日期字段 uid32_bitmap roaringbitmap, -- UV计算 pv integer, -- PV计算 primary key(country, prov, city, ymd)--查询维度和时间作为主键,防止重复插入数据 ); CALL set_table_property('public.dws_app', 'orientation', 'column'); --clustering_key和event_time_column设为日期字段,便于过滤 CALL set_table_property('public.dws_app', 'clustering_key', 'ymd'); CALL set_table_property('public.dws_app', 'event_time_column', 'ymd'); --distribution_key设为group by字段 CALL set_table_property('public.dws_app', 'distribution_key', 'country,prov,city'); end;
2.更新dws表及id_mapping表
每天从上一天的uid中找出新客户(uid映射表uid_mapping中没有的uid)插入到uid映射表中
WITH -- 其中ymd = '20210329'表示上一天的数据 user_ids AS ( SELECT uid FROM ods_app WHERE ymd = '20210329' GROUP BY uid ) ,new_ids AS ( SELECT user_ids.uid FROM user_ids LEFT JOIN uid_mapping ON (user_ids.uid = uid_mapping.uid) WHERE uid_mapping.uid IS NULL ) INSERT INTO uid_mapping SELECT new_ids.uid FROM new_ids ;
更新完uid映射表后,将数据做聚合运算后插入聚合结果表,主要步骤如下:
- 首先通过源表inner join uid映射表,得到上一天的聚合条件和对应的uid_int32;
- 然后按照聚合条件做聚合运算后插入RoaringBitmap聚合结果表,作为上一天的聚合结果;
- 每天只需进行一次聚合,存放一份数据,数据条数最坏等于UV的量。以案例说明,明细表每天几亿的增量,在聚合结果表每天只需存放百万级数据。
WITH aggregation_src AS( SELECT country, prov, city, uid_int32 FROM ods_app INNER JOIN uid_mapping ON ods_app.uid = uid_mapping.uid WHERE ods_app.ymd = '20210329' ) INSERT INTO dws_app SELECT country ,prov ,city ,'20210329' ,RB_BUILD_AGG(uid_int32) ,COUNT(1) FROM aggregation_src GROUP BY country ,prov ,city ;
3.UV、PV查询
查询时,从汇总表dws_app 中按照查询维度做聚合计算,查询bitmap基数,得出Group by条件下的用户数
--运行下面RB_AGG运算查询,可先关闭三阶段聚合开关性能更佳(默认关闭) set hg_experimental_enable_force_three_stage_agg=off --可以查询基础维度任意组合,任意时间段的uv pv SELECT country ,prov ,city ,RB_CARDINALITY(RB_OR_AGG(uid32_bitmap)) AS uv ,sum(1) AS pv FROM dws_app WHERE ymd = '20210329' GROUP BY country ,prov ,city; --查一个月 SELECT country ,prov ,RB_CARDINALITY(RB_OR_AGG(uid32_bitmap)) AS uv ,sum(1) AS pv FROM dws_app WHERE ymd >= '20210301' and ymd <= '20210331' GROUP BY country ,prov; 该查询等价于 SELECT country ,prov ,city ,COUNT(DISTINCT uid) AS uv ,COUNT(1) AS pv FROM ods_app WHERE ymd = '20210329' GROUP BY country ,prov ,city; SELECT country ,prov ,COUNT(DISTINCT uid) AS uv ,COUNT(1) AS pv FROM ods_app WHERE ymd >= '20210301' and ymd <= '20210331' GROUP BY country ,prov;
4.可视化展示
计算出UV、PV和,大多数情况需要用BI工具以更直观的方式可视化展示,由于需要使用RB_CARDINALITY 和 RB_OR_AGG 进行聚合计算,需要使用BI的自定义聚合函数的能力,常见的具备该能力的BI包括Apache Superset和Tableau,下面将会讲述这两个BI工具的最佳实践。
4.1 使用 Apache Superset
Apache Superset 对接 Hologres 的方式,请参考产品手册。在Superset中可以直接使用dws_app表作为Dataset使用
并且在数据集中,创建一个单独Metrics,名为UV,表达式如下:
RB_CARDINALITY(RB_OR_AGG(uid32_bitmap))
然后您就可以开始探索数据了
当然也可以创建Dashborad:
4.2 使用 Tableau
Tableau 对接 Hologres 的方式,请参考产品手册。可以使用Tableau的直通函数直接实现自定义函数的能力,详细介绍请参照Tableau的手册。在Tableau对接Hologres后,可以创建一个计算字段,表达式如下
RAWSQLAGG_INT("RB_CARDINALITY(RB_OR_AGG(%1))", [Uid32 Bitmap])
然后您就可以开始探索数据了
当然也可以创建Dashborad
原文链接:https://developer.aliyun.com/article/784334?
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
Hologres如何基于roaringbitmap实现超高基数UV计算?相关推荐
- Hologres如何支持超高基数UV计算(基于roaringbitmap实现)
简介: 本文将会介绍Hologres基于roaringbitmap实现超高基数的UV计算 RoaringBitmap是一种压缩位图索引,RoaringBitmap自身的数据压缩和去重特性十分适合对于大 ...
- Hologres如何支持亿级用户UV计算
简介: 本文将介绍阿里云Hologres如何基于RoaringBitmap进行UV等高复杂度计算的方案,实现亿级用户万级标签亚秒级分析,帮助用户从Kylin平滑迁移到Hologres,实现更实时.开发 ...
- Hologres揭秘:如何支持超高QPS在线服务(点查)场景
简介:本期我们将揭秘Hologres如何支持超高QPS在线服务(点查)场景. Hologres(中文名交互式分析)是阿里云自研的一站式实时数仓,这个云原生系统融合了实时服务和分析大数据的场景,全面兼容 ...
- 基于AD7705的超高精度电压采集电路板 4路电压采集端口,通过前端通过AD620运算放大器输出至AD5505通过STM32F030数据处理
基于AD7705的超高精度电压采集电路板 4路电压采集端口,通过前端通过AD620运算放大器输出至AD5505通过STM32F030数据处理,电压采集精度达到万分之一伏.显示电路通过74HC164静态 ...
- python读二进制格点雷达基数据_radar: 基于python pycinrad 以及多种类库 编写基于java 的雷达基数据统一格式读取...
radar-core 介绍 基于python pycinrad 以及多种类库 编写基于java 的雷达基数据统一格式读取 包括读取分层ppi.插值到等经纬度的网格化ppi以及 cappi.vcs等基本 ...
- java雷达数据解析_radar: 基于python pycinrad 以及多种类库 编写基于java 的雷达基数据统一格式读取...
radar-core 介绍 基于python pycinrad 以及多种类库 编写基于java 的雷达基数据统一格式读取 包括读取分层ppi.插值到等经纬度的网格化ppi以及 cappi.vcs等基本 ...
- 基于新型忆阻器的存内计算原理、研究和挑战
作者 | 林钰登.高滨.王小虎.钱鹤.吴华强 来源 | <微纳电子与智能制造>期刊 引言 过去半个世纪以来 ,芯片计算性能的提高主要依赖于场效应晶体管尺寸的缩小.随着特征尺寸的减小 ,器件 ...
- 免费公开课 | 基于定制数据流技术的AI计算加速
随着人工智能时代的来临,业内对于更高效率算力的需求也越来越紧迫,而传统的 CPU 计算能力弱,只适合软件编程,并不适合应用于人工神经网络算法的自主迭代运算. 为了满足支撑深度学习的大规模并行计算的需求 ...
- MATLAB实战系列(三十七)-MATLAB基于PQ解耦风电场并网潮流计算
前言 文中涉及代码请参见 电力系统仿真-MATLAB基于PQ解耦风电场并网潮流计算 IEEE30节点.14节点.4节点标准算例,潮流计算的功能:风力发电机组并网潮流计算,并网对大电网的影响. 以下是我 ...
最新文章
- Red Hat Linux 5.2 14T大文件系统 分区过程
- 【BZOJ-13962865】识别子串字符串识别 后缀自动机/后缀树组 + 线段树
- The sentence of everyday use
- java excel 模板 替换_JAVA POI替换EXCEL模板中自定义标签(XLSX版本)满足替换多个SHEET中自定义标签...
- 二叉树的递归遍历算法c语言 数据结构,递归创建二叉树c语言实现+详细解释
- C++读写注册表的问题
- 什么是RAID(独立磁盘冗余阵列)?
- .net 获取xml里面的值_Java-XML技术
- K8S_Google工作笔记0005---搭建k8s集群(kubeadm方式)
- POJ 1789 Truck History(最小生成树)
- Linux磁盘分区及文件系统格式化和挂载
- Unity-中英对照汉化
- CCNA考试题库中英文翻译版及答案15
- 测试思维:正向思维和逆向思维
- 双系统装完只能u盘启动_怎样用u盘安装双系统呢?
- 网站PHP框架之Laravel5.5(十一)数据库版本控制数据迁移工具migration详解
- android app闪退的原因分析,打开一个app就闪退解决方法
- 如何在word中设置带悬挂缩进对齐的多行???
- deepin更新linux内核,修改deepin启动内核
- 学习云计算有什么用处 该怎么学好云计算技术