随着网站规模的扩大,内容也相应的与日俱增,涵盖的频道也越来越繁杂,在如此海量的信息平台下,如何更好的服务用户成了各门户网站的首要任务。从用户需求的角度考虑,对内容的判断标准无疑是用户对此内容是否感兴趣。“千人千面”算法在互联网行业已经不是个新鲜的词汇,但如何做到对用户兴趣的精准匹配仍是难点,特别是对图片、视频等非文本内容来说,因为本身缺乏描述性文本,因此兴趣标签成为一种非常重要的语义素材。本文主要介绍根据优酷用户历史行为构建的兴趣标签模型,模型能够及时捕捉用户兴趣的变化,调整个性化兴趣标签的排序,从而达到提高精准推荐和个性化推荐的效果。

1.模型数据流程

模型从用户行为出发,最终定位用户的兴趣标签,根据行为权重、时间衰减等因素,计算标签权重并排序。流程如下所示: 

在用户行为的选取上,登录用户考虑的用户行为包括观看、搜索、收藏、评论、顶踩和上传,未登录用户考虑的用户行为则只有观看和搜索。

1.1 用户行为数据采集

在本项目中,我们选取了最近180天内的用户行为,每天将新的行为数据和历史数据进行累加计算。 

1.2 视频Tag信息

视频都有一些特定的分词标签描述,一般是通过视频标题和描述分词提取出来的,可以单独使用这些分词,也可以用机器学习算法给标签打上不同的权重,来标识标签不同的重要性。 

1.3 用户兴趣标签

用户兴趣标签体系是一个分层级表示用户兴趣的结构,目的是为了从不同的粒度定位用户的兴趣。从视频分词标签到用户兴趣标签有一个映射关系,目前视频分词标签量级为百万,用户兴趣标签有8万左右。我们给用户打上下一层级标签的同时也会打上上一层级的标签。 

2. 用户兴趣标签权重计算规则

2.1 用户行为打分规则(每日)

我们对用户不同的行为类型设置了不同的权重。如此设定行为权重带有一定的主观性,但设定值符合大多数用户的行为特点,也可以快速推进项目的进行。在下一版的改进计划中,拟先对用户进行一次聚类,然后对每个聚类群体利用回归算法迭代出一组最优权重值,从而使权重的设定更具有针对性。下面主要介绍下观看行为打分规则。 
主要考虑因素如下: 
1、 视频观看比例,用户一天内的观看比例有可能多倍于视频长度。 
2、 降低短视频的打分值。 
3、 考虑视频播放次数的因素。 
4、 限定打分范围。

2.2 用户视频Tag打分规则

将用户行为融合,并转化成对视频标签的打分。在生成用户Tag打分数据时,我们考虑以下几个因素: 
1、 时间衰减系数。用户行为距当前时间越近的影响越大,因此从用户标签上可以反应该用户最近的兴趣点。 
2、 每天Tag数量衰减系数。考虑到用户某一天内对某一标签的集中行为有可能会拉偏此用户的兴趣点,因此添加了tag数量的衰减。 

2.3 用户兴趣标签打分规则

这一步只是简单的将视频标签映射到用户兴趣标签分级体系,累加得到兴趣标签分值并按由高到低进行排序。结果数据形式如下,Weight为该兴趣标签分值占总标签分值的百分比,Support为该兴趣标签的累加分值。 

小结:

虽然目前的兴趣标签模型还存在一些不足之处有待进一步改进,但引入用户兴趣模型确实可以在一定程度上更精确的定位用户的兴趣,进而提高个性化推荐的质量。此外,如何优化兴趣标签的提取也会直接影响着模型的精度。

基于用户行为的兴趣标签模型相关推荐

  1. 兴趣标签体系告诉我,闲鱼的95后是这样的

    背景与挑战 - - "水果糖小椿 M39 暂挂" - - "列表科幻?" 不知大家能否读懂上面的对话,但在闲鱼,这样的对话每天都在发生.数据显示,闲鱼约30%的 ...

  2. 会玩会生活!兴趣标签体系的背后方案是......

    - - "水果糖小椿 M39 暂挂" - - "列表科幻?" 不知大家能否读懂上面的对话,但在淘系闲鱼,这样的对话每天都在生,本文就带大家了解一下闲鱼特色的兴趣 ...

  3. 兴趣标签体系告诉我,闲鱼的95后是这样的...

    背景与挑战 - - "水果糖小椿 M39 暂挂" - - "列表科幻?" 不知大家能否读懂上面的对话,但在闲鱼,这样的对话每天都在发生.数据显示,闲鱼约30%的 ...

  4. Python+Django+Mysql实现在线音乐推荐系统 基于用户、项目、兴趣标签的协同过滤推荐在线音乐系统、用户兴趣标签推荐系统 代码实现 源代码下载

    Python+Django+Mysql实现在线音乐推荐系统(基于用户.项目的协同过滤推荐算法) 一.项目简介 1.开发工具和实现技术 pycharm2020professional版本,python3 ...

  5. MetaSelector:基于用户级自适应模型选择的元学习推荐

    文章目录 前言 Abstract Background 什么叫元学习? 元学习与机器学习的区别 元学习数据分布 推荐系统 Contributions: Method MetaSelector fram ...

  6. 标签模型:用户性别标签

    文章目录 1.1.新建标签 1.1.1.新建业务标签: 性别标签 ,相关字段信息如下: 1.1.2.新建属性标签: 男.女 ,相关字段信息如下: 1.1.3.对应到数据库中插入语句如下: 1.2.模型 ...

  7. python协同过滤电影推荐_推荐系统:基于用户和模型的协同过滤电影推荐

    2018-04-26 1.协同过滤 协同过滤(Collaborative Filtering)字面上的解释就是在别人的帮助下来过滤筛选,协同过滤一般是在海量的用户中发现一小部分和你品味比较相近的,在协 ...

  8. 一些基于新闻表示和用户表示的新闻推荐模型总结:NPA/ NAML/ LSTUR/ NRMS

    前言 上上上次组会研一学长汇报了一篇数据集文章:MIND: A Large-scale Dataset for News Recommendation,是微软为新闻推荐而发布的一个数据集.在听汇报时我 ...

  9. SIGIR 2022 | 基于用户价格偏好及兴趣偏好的会话推荐

    ©作者 | 张晓堃 单位 | 大连理工大学 来源 | 社媒派SMP 论文标题: Price DOES Matter! Modeling Price and Interest Preferences i ...

最新文章

  1. testng入门教程5TestNG套件测试
  2. nginx常用配置目录
  3. spring--打印hello--注解component--自动创建对象
  4. 2017.9.10 ricehub 思考记录
  5. L2-016. 愿天下有情人都是失散多年的兄妹-PAT团体程序设计天梯赛GPLT(广度优先bfs)
  6. linux信号常用函数
  7. Git 常用操作(一)
  8. 二分、冒泡、快速、插入排序
  9. 《2021爱分析·中国RPA应用趋势报告》正式发布
  10. 【GitCracken】v8.1.1
  11. 计算机显示应用程序错误窗口,电脑开机后弹出netsh.exe应用程序错误提示的解决方法...
  12. 怎样把PDF转换成PPT?迅捷PDF转换器来助力
  13. 2019长江课堂作业答案_2019长江作业本同步练习册九年级数学参考答案,人教版!...
  14. OpenCV 画箭头 python
  15. 分享:实时语音通讯,可广域网实时通讯,音质清晰流畅!
  16. 开机两个小时后定时关机
  17. 趣味测评对话交互版流量主小程序开发
  18. 【Linux-SVN】安装 SVN Server
  19. P1216 数字金字塔
  20. 算法复习 - 蛮力法

热门文章

  1. Mysql索引的创建和使用
  2. 只有本地用户才能安装sql_为何只有安装了新风换气机才能打造好的家居环境?听听厂家怎么说...
  3. Android 服务器推送技术
  4. 多维列表索引_10分钟带你学会Pandas多层级索引
  5. java scanner字符串_Java Scanner toString()用法及代码示例
  6. android string拼接字符串_为什么阿里巴巴不建议在循环体中使用+进行字符串拼接?...
  7. mysql io_MySQL服务器 IO 100%的分析与优化方案
  8. 孤灯php加密,PHP实现观察者模式
  9. hibernate4调用mysql存储过程_hibernate调用存储过程
  10. c语言的运算答案,C语言运算符与表达式的练习题答案.doc