基于点击行为的个性化新闻推荐

  • 前言
  • 一、相关工作
  • 二、用户兴趣的日志分析
    • 1.数据集
    • 2.点击分布
    • 3.用户兴趣随时间的变化
    • 4.新闻趋势
    • 5.新闻趋势对用户兴趣的影响
    • 6.结论
  • 三、用户兴趣预测
    • 1.用户真实兴趣计算
    • 2.综合用户真实兴趣
    • 3.预测用户当前兴趣
  • 四、实验结果
  • 五、总结
    • 1.优点
    • 2.缺点

前言

《Personalized News Recommendation Based on Click Behavior》是一篇利用用户点击行为进行个性化新闻推荐的论文。
该论文首先分析谷歌新闻中的用户点击记录,接着通过贝叶斯方法综合用户个人对新闻类别的点击历史(即稳定兴趣genuine interests)以及用户群体对新闻类别的点击历史(即新闻趋势news trend)来构建当前用户画像(Profile),最后通过结合基于新闻内容的推荐机制(Content-based recommendation)(新闻内容与用户兴趣做相似比较)以及协同过滤模型(collaborative filtering method)(相似用户推荐)构建个性化新闻推荐模型,并应用于谷歌推荐系统中,取得了不错的效果。


::以下是本篇文章正文内容

一、相关工作

二、用户兴趣的日志分析

1.数据集

来源:谷歌新闻已注册用户
时间:2007/7/1 到 2008/6/30 共计12个月
大小:16848个用户,每个用户每个月至少10次点击行为

2.点击分布

作者对12个月用户点击行为的分布进行如下表示:

其中,D(u,t)代表用户 u 在时间段 t 内的点击分布;Ntotal 代表该时间段内总的点击次数;Ni 代表对某一类新闻的点击次数,i 代表新闻类别。最终意义即为对具体用户 u ,在时间段 t 内,各个类别新闻点击比例,即分布。

3.用户兴趣随时间的变化


利用d1与dinf距离计算各个时间段与最后一个月的用户兴趣向量距离,结果如上。
可以看到,随着时间的推移,越久远的兴趣与用户当前的兴趣越不相似,相反,距离越近的月份与用户当前的兴趣越相近,可以认为用户兴趣确实随时间改变,同时更久远的点击历史对预测用户当前的兴趣帮助越小。

4.新闻趋势

对于新闻趋势,作者使用D(t)进行表示,即在时间段 t 内所有用户的点击统计(不是针对某一个用户),计算方法同D(u,t)。


由以上两图可以得到结论:
一个国家公众的兴趣变化往往对应于该国的重大新闻事件。
不同地点存在不同的新闻趋势。

5.新闻趋势对用户兴趣的影响


可以看到,在同一地区,用户的兴趣往往与当前的新闻趋势(大众兴趣)相近,可以认为用户兴趣受新闻趋势的影响。

6.结论

1.个人用户的新闻兴趣确实随着时间的推移而改变,时间越长,兴趣改变越大。
2.一般公众的点击分布反映了新闻趋势,与大新闻事件相对应。
3.不同地点存在不同的新闻趋势。
4.在一定程度上,个人用户的新闻兴趣与用户所属位置的新闻趋势相对应


三、用户兴趣预测

1.用户真实兴趣计算

作者利用贝叶斯公式进行用户真实兴趣计算,计算公式如下:

用户兴趣即给定新闻类别category = ci的情况下,计算用户点击的概率,概率越大即代表用户对当前类别越感兴趣。
通过贝叶斯展开,可以看到用户兴趣计算公式由三项组成:
Pt(category = ci | click) 是用户点击某一类新闻 ci 的概率,它能够利用用户的点击分布D(u,t)得到。
Pt(click) 是在不考虑新闻类别时,用户点击新闻的先验概率。
Pt(category = ci) 是一篇文章为类别 ci 的先验概率,意义为在一段时间内该类新闻文章的比例,但常常该比例是未知的,在此,可以使用群众兴趣分布 D(t) 来进行预测。因为当在某一领域有更多的新闻事件发生时,该类别的新闻数量会增加,并导致用户兴趣的转移,即可以使用 D(t) 来进行间接预测。

该公式有着显著的意义,它不仅考虑了用户点击新闻类别的概率,同时考虑了大众的整体新闻趋势,这是十分重要的。
因为在某一时间段内,用户大量阅读的新闻(即Pt(category = ci | click)较大)不一定是用户的兴趣所在。
可能是Pt(category = ci) 也大,即该类为流行新闻,导致用户大量阅读。

2.综合用户真实兴趣

经由贝叶斯公式的推导,我们得到了用户兴趣随时间的分布,为了得到用户的稳定兴趣,需要综合各个时间段的兴趣,用户真实兴趣公式如下:

假设用户点击新闻文章的概率随时间是一致的,则可以把 p(click) 提取出来,作为常数。

此公式意在综合以往的各时段的兴趣来生成用户的稳定兴趣,却又不是简单的加和求平均值。
考虑数据量(点击次数)越大的时段兴趣预测更准确,所以用点击次数进行归一化操作,确保预测更准确。
此外,还可以考虑利用时间信息,即越久远的统计信息越不可信,权值越小。

3.预测用户当前兴趣

为了预测用户将来的点击分布,在作者提出的方法中,需要综合考虑用户的稳定兴趣以及当前的新闻趋势。当前的新闻趋势使用 p0(category = ci) 进行表示,目标点击预测用 p0(category = ci | click)来进行表示,贝叶斯推导如下:

其中,p0(click | category = ci) 可以认为是用户的兴趣,即 interest(category = ci),可以用式(5)计算得到,另一方面, 当前的新闻趋势 p0(category = ci) 由大众最近一段时间(如一小时)的点击分布得到(在作者的实验中,用户数较多,有较多的点击信息)。
从直观上理解,可以认为该公式目标是得到用户未来点击的分布,方法即将用户的长期兴趣以及当前的新闻趋势进行相乘得到用户点击各个类别的概率,综合考虑了interest与trend。

将表达式展开:


在将公式展开后,作者通过加入小值常量G(取值10左右)来进行平滑,防止用户兴趣历史过少带来的影响,当历史过少,可以认为表达式右侧为1,最终的预测结果即为新闻趋势。

在结合模型方面,对基于上下文的方法设置分数 CR(article),对协同过滤模型设置CF(article),通过综合两模型进行最终打分:


四、实验结果




用户更频繁的访问网页。
用户在网页停留的时间不变,但花在个性化推荐界面的时间增长。

五、总结

1.优点

对数据进行了分析,得到了关于用户兴趣的一些结论。

考虑了新闻的新颖性,即新闻当前的趋势(trend)。
Trend 应该是这篇文章的核心,在贝叶斯方法中,仅仅依据用户的历史来预测兴趣是不够的,需要综合考虑trend才能更准确地进行分析(分母);同时在预测用户点击行为中,也结合了用户兴趣以及当前trend来进行用户画像的构建。

2.缺点

文章提及了解到用户兴趣随时间的转变是十分重要的,但在贝叶斯推断中仅仅对兴趣进行了加和平均处理,没有刻画兴趣的转变(可能是用户兴趣往往随大事件变动,不好预测)。

用户兴趣随时间不断变动,越远的历史对兴趣的影响越小,公式4中应该考虑历史的权值。

仅仅用到了类别信息。

推荐系统论文:Personalized News Recommendation Based on ClickBehavior相关推荐

  1. SIGIR2020推荐系统论文解析:Recommendation for New Users and New Items

    冷启动问题的解决方案是推荐系统的一个重要的研究热点.本文解析的论文来自顶会SIGIR2020,论文构建了一个新颖的深度学习模型Heater来对新用户或新物品进行推荐.本文旨在理清顶会论文的思路和框架, ...

  2. 推荐系统论文:DKN Deep Knowledge-Aware Network for News Recommendation

    推荐系统论文:DKN Deep Knowledge-Aware Network for News Recommendation 概述 模型实现 概述 这是一篇结合了知识的推荐系统. 本质上是对新闻标题 ...

  3. 【学术相关】RSPapers | 工业界推荐系统论文合集

    嘿,记得给"机器学习与推荐算法"添加星标 随着大数据时代的飞速发展,信息逐渐呈现出过载状态.推荐系统,作为近年来实现信息生产者与消费者之间利益均衡化的有效手段之一,越来越发挥着举足 ...

  4. WWW2020推荐系统论文合集(已分类整理,并提供下载)

    文章来源于机器学习与推荐算法,作者张小磊 1   摘要 国际顶级学术会议WWW2020定在2020年4月20-24日于中国台湾举办.受COVID-19疫情影响(疫情赶紧过去吧),大会将在线上举行.今天 ...

  5. CIKM2021推荐系统论文集锦

    猜你喜欢 0.2021年轻人性生活调研报告 1.如何搭建一套个性化推荐系统? 2.从零开始搭建创业公司后台技术栈 3.某视频APP推荐详解(万字长文) 4.微博推荐算法实践与机器学习平台演进 5.腾讯 ...

  6. SIGIR2021推荐系统论文集锦(附论文原文及代码链接)

    第44届国际信息检索研究和发展大会(SIGIR)于2021年7月11-15日在线上举行(目前正在进行中).此次大会共收到了720篇长文投稿,录用151篇,长文录取率21%(去年的录取率为26.4%): ...

  7. RSPapers | 工业界推荐系统论文合集

    随着大数据时代的飞速发展,信息逐渐呈现出过载状态.推荐系统,作为近年来实现信息生产者与消费者之间利益均衡化的有效手段之一,越来越发挥着举足轻重的作用.像今日头条.抖音这样的APP之所以如此之火,让人们 ...

  8. 16篇最新推荐系统论文送你(文末附打包下载链接)

    A Survey on Knowledge Graph-Based Recommender  Systems 链接:https://arxiv.org/pdf/2003.00911 简介:该文是一篇利 ...

  9. ICDE‘22推荐系统论文之Research篇

    2022推荐系统论文梳理系列 推荐系统相关顶会整理 AAAI'22推荐系统论文梳理 IJCAI'22 推荐系统论文梳理 ICML/ICLR'22 推荐系统论文梳理 WWW'22 推荐系统论文之序列推荐 ...

最新文章

  1. Linux 下的KILL函数的用法
  2. Linux yum包管理工具常用命令示例
  3. muse ui tabs背景颜色字体颜色
  4. HandlerMappings
  5. 动物识别专家系统python_Python有哪些作用?
  6. SSH远程终端连接数问题
  7. 搞笑动图:这些痛,只有程序员懂…
  8. typecho 邮件mail插件 LoveKKCommentModify 美化版
  9. 【Flink】Flink 清理过期 Checkpoint 目录的正确姿势
  10. python19 random随机数 json模块 pickle模块 hashlib模块 hmac模块 shutil模块 shelve模块...
  11. BuzzFeed如何从Perl单体应用迁移到Go和Python微服务
  12. 分页实体类:PageBean
  13. 小强升职记思维导图_思维导图之《小强升职记》
  14. Win10系统下进行磁盘分区
  15. NXP ZigBee JN5169开发流程总结
  16. mac安装php+mysql数据库_Mac环境下Nginx+PHP+MySQL的安装与配置
  17. Pytorch与强化学习 —— 1. 如何实现一个简单的Q Learning算法
  18. 云开发平台开源应用中心一次体验
  19. 候补购票为旅客购票提供更加快捷的渠道
  20. 客服管理之如何使用座席劵添加子账号(客服人数)

热门文章

  1. Gradual Warmup Scheduler
  2. 【python游戏开发】回合制手游做任务嫌麻烦?教你用Python简单制作回合制手游外挂
  3. 红米4a android 9 速度,雷军感叹科技进步速度太快!Redmi 9入门机性能已经相当于骁龙835...
  4. c语言输入名字判断姓是否缩写,C语言复习笔记
  5. yarn 修改国内镜像
  6. dB单位与放大倍数关系
  7. ip段各个号段的含义
  8. 数据可能只有在你眼里才一文不值
  9. OA协同办公系统 公共事务设置
  10. Java 判断字符是大写小写或者数字