如果你要统计网站的PV,你可以使用Redis计数器就好了,每来一个请求,调用一次incrby即可。但是如果要统计UV就没那么简单呢,它需要去重,当然你肯定想到了Redis中的去重的Set集合,当一个请求过来使用sadd添加用户ID,通过scard取出集合的大小。但是如果上千万的UV,使用集合来统计,就非常浪费空间了。而Redis提供的HyperLogLog数据结构正是来解决这类统计问题的,当然在数据量很大的情况下,他会有一定的误差。

HyperLogLog算法是一种非常巧妙的近似统计海量去重元素数量的算法。它内部维护了 16384 个桶(bucket)来记录各自桶的元素数量。当一个元素到来时,它会散列到其中一个桶,以一定的概率影响这个桶的计数值。因为是概率算法,所以单个桶的计数值并不准确,但是将所有的桶计数值进行调合均值累加起来,结果就会非常接近真实的计数值。

具体的原理解析可参考探索HyperLogLog算法

使用方法

HyperLogLog 使用比较简单,主要提供提供了两个指令

  • pfadd 增加计数
  • pfcount 获取计数

HyperLogLog还提供了第三个指令 pfmerge,用于将多个 pf 计数值累加在一起形成一个新的 pf 值。

比如在网站中我们有两个内容差不多的页面,运营需要将两个页面的数据进行合并。其中页面的 UV 访问量也需要合并,这时候就可以使用pfmerge

pf 的内存只有12k

HyperLogLog 实现中用到的是 16384 个桶,也就是 2^14,每个桶的 maxbits 需要 6 个 bits 来存储,最大可以表示 maxbits=63,于是总共占用内存就是2^14 * 6 / 8 = 12k字节

转载于:https://juejin.im/post/5cff0afff265da1bd522c4c1

Redis应用-HyperLogLog相关推荐

  1. python 操作redis之——HyperLogLog (八)

    #coding:utf8 import redis # python 操作redis之--HyperLogLog r =redis.Redis(host="33.23.724.12190&q ...

  2. redis数据结构--hyperloglog

    redis数据结构--hyperloglog 1.业务背景介绍现存实现手法以及痛点 公司广告落地页项目的 一个统计pv,uv的需求 第一版实现方案 业务快速增长面临的痛点 2.业务场景调研,bitma ...

  3. Redis(十)——HyperLogLog 基数统计和 Bitmap位图场景详解

    文章目录 Redis(十)--HyperLogLog 基数统计和 Bitmap位图场景详解 1.HyperLogLog 基数统计 2.Bitmap位图场景详解 Redis(十)--HyperLogLo ...

  4. springboot整合redis实现HyperLogLog统计文章浏览量使用过期策略完成数据库同步

    springboot整合redis实现HyperLogLog统计文章浏览量&&使用过期策略完成数据库同步 本文目录 springboot整合redis实现HyperLogLog统计文章 ...

  5. redis 的 HyperLogLog

    Redis 在 2.8.9 版本添加了 HyperLogLog 结构. Redis HyperLogLog 是用来做基数统计的算法 HyperLogLog 的优点是,在输入元素的数量或者体积非常非常大 ...

  6. redis的HyperLogLog与布隆过滤器

    HyperLogLog与布隆过滤器都是针对大数据统计存储应用场景下的知名算法. HyperLogLog是在大数据量的情况下关于数据基数的空间复杂优化实现,而布隆过滤是在大数据量情况下关于检索一个元素是 ...

  7. redis的hyperloglog用法

    Hyperloglog 什么事基数 A{1,3,5,7,8,9} B{1,3,5,7,8} 基数:不重复的元素,可以接受误差. Redis Hyperloglog基数统计的算法,网页的UV(一个人方 ...

  8. redis用HyperLogLog计算UV

    UV:unique visitor,独立访客,数据去重 DV:distinct value,去重统计,如上面的UV. 用redis的set去重,用户多时,比如微信月活10亿,就会占用很多内存. 用Hy ...

  9. 怎么往integer型数组添加数据_用户日活月活怎么统计 - Redis HyperLogLog 详解

    HyperLogLog 是一种概率数据结构,用来估算数据的基数.数据集可以是网站访客的 IP 地址,E-mail 邮箱或者用户 ID. 基数就是指一个集合中不同值的数目,比如 a, b, c, d 的 ...

最新文章

  1. Caffe学习系列(11):图像数据转换成db(leveldb/lmdb)文件
  2. SpringMVC和mybatis的框架
  3. 揭秘MySQL生态重要功能,X-Engine引擎核心能力——OnlineDDL
  4. golang实现聊天室(三)
  5. kernel: TCP: time wait bucket table overflow
  6. 不止鸿蒙 OS,华为的备用操作系统还有“极光”?
  7. 洛谷P2234 [HNOI2002]营业额统计 set简易解法
  8. 超频真的不难!G3258超频4.5GHz全攻略
  9. 人类的终极目标是什么?
  10. Java实现按分数排名,同分同名次
  11. lzx和网页之间脚本交互调试方式
  12. React (三) 修改props,React父传子、子传父、this绑定
  13. iMazing 2.11.6 WinMac 中文版 — iOS设备管理工具
  14. 利用Android属性动画实现有趣的加载中动效
  15. 湘潭2017 ccpc中南地区邀请赛 Determinant 高斯约当求逆矩阵
  16. 解决MATLAB高版本启动较慢问题
  17. 基于python,虹软sdk3.0实现的实时人脸识别
  18. 关于服务器的使用——深度学习菜鸡入门(1)
  19. Vue系统指令(一)
  20. 史上最全Java面试题:数据结构+算法+JVM+线程+finalize+GC

热门文章

  1. Python 之 Numpy (一)属性
  2. MicroSoft的Office使用攻略
  3. 互联网大脑如何产生“梦境“并形成元宇宙
  4. 离奇的梦境,能够防范大脑过拟合
  5. 在失败中学习,MIT新研究显示,机器可以像婴儿一样学会理解人类目标
  6. SpaceX再发射58颗星链卫星 总数达到538颗
  7. 测温枪的工作原理全面解析,如何测出你的温度
  8. 5G将改变技术格局的8个原因(上)
  9. 【图文解析】带你看清全球机器人四大家族现状,四家企业瓜分中国57%、全球50%的市场份额...
  10. 量子计算生态:市场预期、行业应用与“霸权”争夺