怎么用SQL计算可能认识的人

用户关系数据可以有很多应用,比如说好友动态PUSH,朋友圈兴趣发现,好友推荐等等。推荐可能认识的人,属于好友推荐的一种。平台应该把沉淀、培养用户关系作为平台的目标之一。当用户在平台上积累了足够的关系网,用户离开平台的沉没成本就变得很大,所以你看现在人们已经离不开微信。

可能认识的人,主要是基于用户的好友关系计算。假设有用户A,B,C其中AB是朋友,AC也是朋友,那么B和C很大可能也是认识的朋友。这时候向B推荐C或者向C推荐B,他们互相加好友的概率相对就大一些。需要注意一下,这里需要双向关注的强用户关系,单向关注并不在考虑范围之内(计算互相关注的SQL应该怎么写)。

这是一个用SQL就能解决的好问题。假设朋友关系表的名字叫做table_friends,里面有两列user_1user_2,含义是user_1向user_2提出了好友申请,并且申请通过。

先把最终的SQL摆出来:

select a.base_user,a.possible_user,sum(1) as common_friends_count                                  -- 5、sum
from
(select comm_user,base_user,possible_userfrom (select comm_user,collect_set(userid) as possible_user_set                -- 2、collect_setfrom (select user_1 as comm_user,user_2 as useridfrom table_friendsunion all                                               -- 1、union_allselect user_2 as comm_user,user_1 as useridfrom table_friends)agroup by comm_user)alateral view explode(possible_user_set) t1 as base_user         -- 3、explodelateral view explode(possible_user_set) t2 as possible_user
)a left join (select user_1,user_2from (select user_1,user_2from table_friendsunion allselect user_2 as user_1,user_1 as user_2from table_friends)agroup by user_1, user_2
)b on a.base_user = b.user_1 and a.possible_user = b.user_2
where a.base_user <> a.possible_user and b.user_1 is null           -- 4、filter
group by base_user, possible_user

先说明一下SQL的主要思想:
假设我们有了好友关系(A, B), (A, C),那么
A、第一步先得到数组(B, C)
B、然后展开数组得到 (B, (B, C)), (C, (B, C))
C、然后再展开一次数组得到(B,B), (B,C), (C, B), (C, C)
D、过滤掉相同的项(B,B),(C,C),剩下的就是我们需要的结果,并且统计出现的次数,就是共同好友的个数。这里给B推荐C,有一个共同好友;给C推荐B,有一个共同好友

然后重点介绍几个关键的注释点:

1、union_all

好友关系申请表一般只会记录申请关系,即A向B申请了好友,那么表中只有一条(A, B),而不会存在(B, A)。而我们需要A的好友群,也需要B的好友群,所以这里复制了一份反向的申请关系。当然,如果好友关系表里面本来就是用两条记录来表示好友关系的,那就不需要做一次union all了

2、collect_set 聚合

这里把每个用户的好友们整理在一个集合中,存在possible_user_set里。换句话说就是,把有同一个共同好友的人,都放在一起,成一个Array

3、explode 展开

两次展开好友集合,相当于好友集合自身做了一次笛卡尔积。假设我有N个朋友,展开之后就是N^2条记录。这样就把他们之间所有可能的链接做了出来。

4、filter 过滤

在所有可能的链接中,我们需要去掉自己对自己的链接关系,以及已经是好友的链接关系

5、sum

根据base_user进行聚合求sum(1),就是共同好友的个数了。如果不放心,也可以用count(distinct comm_user)

优化点

第三步展开时,N^2带来的内存压力还是很大的。微信目前最多可以添加5000个好友,上限就是25000000,用户关系上涨两千五百万倍,随便哪个集群都吃不消。所以这里需要考虑只展开一次,膨胀5000倍还是可以考虑的。只展开一次时,数据的格式是(B, (B, C)),这就要求直接操作array,我们需要进行array_remove_element删除自身,还需要进行一次array_minus把已经是好友的元素剔除。这两个操作使用UDF可以轻松完成,这里不再展开。

相关文章
计算互相关注的SQL应该怎么写

怎么用SQL计算可能认识的人相关推荐

  1. 做 SQL 性能优化真是让人干瞪眼

    很多大数据计算都是用 SQL 实现的,跑得慢时就要去优化 SQL,但常常碰到让人干瞪眼的情况. 比如,存储过程中有三条大概形如这样的语句执行得很慢: select a,b,sum(x) from T ...

  2. sql计算留存_SQL无所不能:DBA宝妈宝爸系列分享

    原文链接:https://www.modb.pro/db/22315 目前程序从功能上其实已经完全满足客户(当然我这里的客户都是指媳妇儿)需求,具体可参考: 使用SQL计算宝宝每次吃奶的时间间隔 - ...

  3. SQL计算宝宝吃奶的时间间隔(二)

    导读:之前,在"数据和云"公众号发表过一篇文章<如何使用SQL计算宝宝每次吃奶的时间间隔(分析函数的使用)>,本文为续篇,如何提升程序的易用性. 因为我工作繁忙,时常不 ...

  4. 计算机怎么模拟人,计算机能不能模拟人的思维?

    元培学院李通 1200017674 最近我愈发感觉到计算机是那么的"不聪明".计算机只会机械地执行我写的程序代码,却从来不能帮助我分析和解决问题.我有时候想,要是计算机可以像人一样 ...

  5. 如何使用SQL计算宝宝每次吃奶的时间间隔(文末含PPT)

    编者的话:搞好SQL可以做很多事情,比如说可以解决海盗分金的问题,可以用SQL把大象装进冰箱,还可以用SQL解决环环相扣的刑侦推理问题,近期,有位读者朋友投稿了"使用SQL计算宝宝每次吃奶的 ...

  6. oracle 求一年多少天,SQL 计算一年有多少天

    SQL 计算一年有多少天,计算当前年份有多少天. SQL 计算一年有多少天 问题描述 计算当前年份有多少天. SQL 计算一年有多少天 解决方案 计算当前年份有多少天,等同于计算下一年的第一天和当前年 ...

  7. 在DB2中,使用sql 计算昨天、最后一天等日期

    在DB2中,使用sql 计算想要的日期值,比如昨天,上月的最后一天,下个月的最后一天等. /* 作者:宾晓辰 微信:BD_BXC MAIL:646501050@QQ.COM PHONE:1802626 ...

  8. 2021_lg_03.SQL实战:如何用sql计算用户留存问题

    如何用sql计算用户留存问题 一.留存 1 .留存的含义: 留存:指基准日到APP的用户在之后的n日当天返回APP的人数: 留存率 = 基准日之后的n天当日返回的用户数 / 基准日的用户数 * 100 ...

  9. PL/SQL计算质数

     PL/SQL计算质数 2008-01-08 10:48:31|  分类: 默认分类 |  标签: |举报 |字号大中小 订阅 看到别人写的一片计算质数文章, 感觉不错:转过来学习一下. 目标很简 ...

最新文章

  1. 《领域特定语言》一2.3DSL的问题
  2. 安装mariadb以及允许远程访问
  3. silverlight寻奇 - Graphite
  4. linux后台停止执行命令,Linux 命令的后台运行
  5. 如何删除 macOS 压缩包中的隐藏文件?
  6. (BFS) bzoj 1102
  7. win10 系统Docker搭建设备共享平台stf(三)
  8. 初谈“信息安全审计”
  9. 金色传说:SAP-ABAP-销售订单增强:记录销售订单修改信息和修改原因
  10. 算法复习-Akari Puzzle
  11. windows快速添加开机启动项/禁用开机启动项
  12. java socket 聊天室_java利用Socket实现聊天室功能实例
  13. 5G套餐资费会越来越便宜,但需注意“限速机制”
  14. 星转二手交易平台/二手交易系统/二手网站
  15. Win10 DISM 清理 C盘的 WinSXS 文件夹
  16. 2021年度训练联盟热身训练赛第五场 F,G,H,I
  17. jsonp无X-Requested-With 及其深扒
  18. pLC支持C语言编程执行复杂控制,能够实现多种工作方式的plc控制系统的编程
  19. 损耗的基础知识(中)
  20. 使用奥维地图加载星图地球数据云地图数据

热门文章

  1. ValidationSummary 控件
  2. 美通社企业新闻汇总 | 2019.1.24 | 美团投110亿扶持商户发展;中海油2019年预计投产6个新项目...
  3. 2823-44-1,2,3,4,6-TETRA-O-ACETYL-ALPHA-D-MANNOPYRANOSYL FLUORIDE,2,3,4,6-四邻乙酰基-alpha-d-吡喃甘露糖氟化物
  4. 数字乡村建设与示范项目可行性研究报告(word可编辑)
  5. 低成本2.4G无线收发器芯片
  6. python—实现str转MD5
  7. 为什么安装了python在 cmd不显示_CMD提示Python不是内部或外部命令的解决方法
  8. C语言里怎么输出6位以上的小数
  9. 走进递归经典——青蛙跳台阶问题详解
  10. android中串口的问题