今天谈下突发热门话题对于推荐系统的考验。内容推荐系统,本质上是一种人物喜好与内容的信息匹配。在大部分情况下,推荐系统可以离线的根据每名用户的历史观看记录以及每个内容的属性训练模型,并且实现推荐。但是,当一个非常热门的话题爆发了,例如李小璐PGONE事件这样整个平台的内容和人们的关注点都会聚焦到一个问题上,究竟会对推荐系统造成哪些影响呢?傲海为您细细道来。

架构考验

目前市面上绝大部分的内容推荐都是基于离线计算的架构实现的。离线计算的含义是每天系统把全量数据下载到存储空间中,对于每个用户的喜好做计算并把结果反馈给推荐引擎。在离线计算框架下,每个用户的待推荐内容都是前一天算好的,对于新产生的内容往往没有那么强的感知。

但是有的同学会问:“为什么我在每个新闻客户端还是可以看到最新的突发新闻推荐呢?这与离线的推荐架构不符啊?”那是因为很多内容推荐客户端为了防止热门新闻无法被实时推荐的问题,在给用户的推荐列表中添加了一部分有利于最新新闻的规则,比如推荐引擎会设定“李小璐PGONE”新闻出现在每个用户的待推荐列表。这种规则其实并不是一个基于算法的实时推荐实现。

那么如何做到实时推荐热门新闻呢?这要求推荐系统需要建立在一个实时计算框架上,目前业内主流的是Flink或者Spark-streaming。在这种框架下实现的流式推荐引擎,数据通过Kafka流入,通过流式框架实时构建新闻特征,并且代入模型进行推荐排序。

而实时推荐框架相比于离线推荐框架会复杂的多,比如在实时推荐框架下一旦出现数据阻塞或者服务挂掉,failover机制就会比离线系统复杂得多,这点在之后的文章我会再介绍。

性能考验

前面介绍了计算框架,那么光有流式框架是不够的,突发新闻产生后,对于整个架构的性能也有很高要求,因为这种事件会造成系统中的待推荐内容爆发式增长,更会造成每个用户的行为属性大幅度变更。

在推荐系统中,每个待推荐内容、每个用户都会通过一个embedding向量表示,这些向量需要全量数据在一起做很多矩阵运算得到。如果系统中突然增加大量的待推荐内容,比如“李小璐出轨”、“PGONE李小璐视频”、“李小璐PGONE亲嘴”,这些新闻会在短时间爆发性增长,系统如果想基于这些内容作推荐,需要在短时间内消耗大量的计算量去做内容的embedding。

对于每个用户来讲,行为属性也很有可能在短时间内大幅度改变,比如A用户之前可能不是一个很八卦的人,关心的内容都是养生、军事、科技。突然A发现李小璐出轨这个事很好玩,然后大范围查看相关娱乐新闻。对于A的embedding向量需要重新计算才准确。诸如此类的计算能力,也是事实计算系统能否完成基于热点内容推荐的关键。

写到最后~每次这种吃瓜事件出来,都是对各个推荐系统的一次大考,大家可以用心看下哪家的推荐系统推荐的最符合你对这个瓜的预期,用心去感受推荐系统的魅力,谢谢~

李小璐PGONE事件对推荐系统的考验相关推荐

  1. 抖音回应李小璐PGone视频曝光:草稿视频不会上传到后台

    昨日,李小璐.PGone亲密视频流出后,宛如往社交平台上扔上一枚深水炸弹,引起波澜无数.关于这其中的八卦逸闻,咱们就不再赘述.不过值得注意的是,晚间,PGone发长文回应此事件时提到,"为什 ...

  2. 数据分析李小璐PG one出轨门自卫反击战

    01 "李小璐+PG one"关键词-全微博平台分析  分析围绕关键词"李小璐+pgone",对2017/12/30 07:23~2018/01/04日 12: ...

  3. 【正一专栏】为了小甜馨贾乃亮会原谅李小璐吗?

    为了小甜馨贾乃亮会原谅李小璐吗? 2018-01-05 九天 九天时空 PGone李小璐夜宿事件现以真相已经大白,水落石出 娱乐圈的事情不闲事大,李小璐夜宿PGone家,更有传说消失的卓伟又出来了,拍 ...

  4. cam350怎么看顶层_厉害的人是怎么分析问题的?(实操干货)

    "经常做一个方案,几十页PPT还没把问题讲清楚,老板一个问题就貌似发现了关键,这到底是一种怎么样的思维方式?" 我在职场这么多年,也遇到过很多次这样的问题. 在我初入职场时,经领导 ...

  5. html里c3动画是什么,C3动画+H5知识点使用总结

    概览 Html5和CSS3就是在原有的基础上新加的一些特性,在前面的博客中已经用很多新特性了,Flex弹性布局大大的减少css代码,今天再总结一下工作中会用到的一些常用知识点. 本编文章会讲到的知识点 ...

  6. 明星公关危机中的常见类型以及应对方法

    文丨公关之家 作者:李姗 引言:明星面对不同的公关危机,需要采取不同的应对方法. 像明星这样的社会公众人物,一旦有了污点.丑闻或者重大的变故,总是能够引爆舆论,在大多数时候,这些负面新闻都会给名人的形 ...

  7. 苹果“降频门”之《军师联盟》

    每年年末,新闻都有大事件上演,今年依然不例外.抛开五五开开挂.李小璐PGone等热点事件之外,在科技电子行业,最夺人眼球的莫过于苹果"降频门"事件中的这出"谋略" ...

  8. 自动化日吸1000粉的流程和思路:内含3个案例和实操

    本文讲解直接上干货,日粉千粉的思路:公众号关键词截留! [案例1]截留关键词:陈翔六点半 (1)陈翔六点半有多火,我就不说了,咱们聊今天的截留引流. (2)搜索关键词"陈翔六点半" ...

  9. 结合Flink,国内自研,大规模实时动态认知图谱平台——AbutionGraph |博文精选

    作者 | Raini 出品 | 北京图特摩斯科技 (www.thutmose.cn) (*点击阅读原文,查看作者更多精彩文章) Flink:目前最受关注的大数据技术,最活跃 Apache 项目之一. ...

最新文章

  1. 在线作图|如何绘制一张坡度图
  2. B树、B+树其实很简单,看不懂你找我
  3. Web Service未定义的解决办法
  4. 下列关于php说法错误的,PHP试题
  5. hdfs数据均衡操作命令
  6. 850是什么意思_沃尔沃为什么不是一线豪华品牌?
  7. python机器学习常用包下载安装以及使用案例汇总
  8. foxmail邮件怎样打印日历
  9. 第 14 章 结构和其他数据形式(names)
  10. 拒绝访问(Access Denied)错误的快捷诊断方法
  11. 一份JAVA工程师的求职简历来告诉你求职简历怎么写(上)
  12. 信息学奥赛一本通2072答案
  13. RUP软件开发生命周期
  14. 中兴代工移动光猫GM620开启telnet
  15. mongodb一致性协议_Mongodb选举机制
  16. 《Multiobjective Evolutionary Algorithms:A Comparative Case Study and the Strength Pareto Approach》
  17. 如何正确回复审稿意见
  18. 举报两年论文终撤稿!123页PDF实名举报985大学导师学术造假后续来了...
  19. 计算机小游戏有哪些,计算机有哪些单机游戏可以耐玩,4 G以下?
  20. 虚机打不开报failed to lock the file错误原因及解决方案

热门文章

  1. PAT甲级1053 Path of Equal Weight (30分) :[C++题解]dfs求树的路径长度、邻接表
  2. 柱状图设置坐标轴名称_职场老鸟珍藏的柱状图技巧
  3. Linux 套接字编程 套接字选项SO_BINDTODEVICE 绑定接口 示例
  4. php服务为什么开不了,php怎么打不开
  5. 15支持哪些数据库版本 tfs_我司虚拟主机支持脚本及数据库版本一览表
  6. if vue 跳出_vue使用v-if v-show 页面闪烁
  7. php不是预定义超全局变量,五、PHP知识核心 预定义变量(超全局变量/数组)
  8. Linux内核对设备树的处理
  9. java akiba,java使用jeids实现redis2.6的脚本执行
  10. 支架预压弹性变形值计算_桥梁支架的预压方法与流程