1.说明

UGC标签系统是很多网站、平台的必要组成成分,下面简单介绍如何使用UGC的方式进行推荐。

2.标签的种类

  • 表明物品是什么:比如一本书,就会有“书”的标签。
  • 表明物品的种类:比如《数学之美》,就会有“数学”的标签。
  • 表明谁拥有的物品:比如本篇博客的所属。
  • 表达用户的观点:比如给某个商品、电影打上“搞笑”的标签。
  • 用户相关的标签:比如网易云里一首歌《Lemon》,标注为“我喜欢”。
  • 用户的任务:比如在贴吧或者知乎会经常遇到。“Mark”这样的标签。
  • 类型:主要表示物品所属的类别,比如牙刷属于“日用品”。
  • 时间:商品的上线时间。
  • 人物:商品的代言,或者电影的演员、导演等。
  • 地点:商品的产地,电影的拍摄地等。
  • 语言:比如电影的语言。
  • 奖项:电影获过什么大奖。
  • 其他。

3.标签推荐

【数据】

  • 一个用户标签行为的数据集一般有一个三元组的集合表示,即为(u,i,b)。
  • 其中,u表示用户,i表示为物品,b表示为用户u对物品i的标签。

【算法】

  • 有了用户标签行为数据,就可以设计一个算法来进行个性化推荐。过程如下:

    • 统计每个用户最常用的标签。
    • 对每个标签,统计被打过这个标签次数最多的物品。
    • 对一个用户,首先找到他常用的标签,然后找到具有这些标签的最热门物品推荐给这个用户。
  • 对于上面的算法,用户u对物品i的兴趣公式如下:

p(u,i)=∑b(nu,b∗nb,i)p(u,i) = \sum_b({n_{u,b}*n_{b,i}}) p(u,i)=b∑​(nu,b​∗nb,i​)

  • 这个公式比较容易理解,nu,bn_{u,b}nu,b​表示用户u打标签b的次数,nb,in_{b,i}nb,i​表示物品i被打过b标签的次数。累加是指的不同标签的累加,即用户u常用标签集合B(u)B(u)B(u)。

【算法缺点】

  • 热门问题: 这个算法更加倾向于给热门标签对应的热门物品很大的权重。因为热门的物品会被给与更多的打标签次数,热门的标签也会有更多的应用。因此会造成推荐热门的物品给用户,从而降低推荐结果的新颖性。
  • 数据稀疏性: 在这个算法中,用户兴趣和物品的联系是通过B(u)B(u)B(u)和B(i)B(i)B(i)的交集的标签建立的。但是对于新用户或者新物品,这个交集中的标签数量会很少。就很难有很好的推荐。
  • 标签清理: 不是所有的标签都能反映用户的兴趣。比如,一个用户对一个视频打了一个表示情绪的标签“不搞笑”,我们不能因此认为用户会对“不搞笑”感兴趣。

【算法改进】

  • TagBasedTF-IDF: 我们可以针对上述的热门问题做出如下改进:


这里利用了TF-IDF的思想,通过上面的公式就可以对热门标签进行惩罚。其中分子表示的用户u的常用标签,分母的log部分表示的该标签在其他用户的使用情况。也就是该标签的流行度,如果该标签流行度比较大,该标签的总体计算就会权重减低。
单一惩罚的效果:

同样的思想我们可以对热门物品进行惩罚:


分子表示的该物品被打上b标签的次数,而分母表示的该标签的流行度,即物品i被多少个不同的用户打过该标签。

双惩罚的效果:

  • 标签扩展: 针对上述的数据稀疏性问题,我们可以通过标签的扩展的方式解决。具体的解决思路:比如用户曾经打过“搞笑”这个标签,那么对应的我们可以扩展出“好玩”、“有趣”这样的标签。其实这里是用了标签的相似性。具体的相似度的度量方式就有很多了。

扩展后的效果:

  • 标签清理: 标签清理的另一个重要意义在于将标签作为推荐解释。如果要讲标签呈现给用户,就对标签的质量要求很高。首先,这些标签不能含有没有意义的停止词或者表示情绪的词,其次这些推荐解释里不能包含意义重复的词。

    • 一般来说有如下标签清理的方法:

      • 去除词频很高的停止词
      • 去除因词根不同造成的同义词
      • 去除因分隔符造成的同义词

推荐系统之---UGC标签推荐方式相关推荐

  1. 推荐系统-------------基于UGC的推荐

    用户用标签描述对物品的看法,所以用户生成标签(UGC)是联系用户和物品的纽带,也是反应用户兴趣的重要数据源. 一个用户标签行为的数据集一般有一个三元组(用户,物品,标签)的集合组成,其中一条记录(a, ...

  2. 推荐系统6——基于标签的推荐方法

    在之前我也看了很多人写的推荐系统的博客,理论的.算法的都有,多是个人的理解和感悟,虽然很深刻,但是对于自己而言还是不成系统,于是我参考大牛项亮编著的<推荐系统实践>将该领域知识系统整理一遍 ...

  3. 推荐系统之基于标签的推荐算法

    文章目录 1.联系用户和物品的途径 2.标签系统的典型代表 3.基于标签的推荐系统 3.1 试验设置 3.2 最简单的推荐算法 思路: 定义: 1.联系用户和物品的途径 第一种方式利用用户喜欢过的物品 ...

  4. 使用TF-IDF对UGC基于用户标签推荐算法的改进

    基于 UGC 的推荐 用户用标签来描述对物品的看法,所以用户生成标签(UGC)是联系用户和物品的纽带,也是反应用户兴趣的重要数据源 一个用户标签行为的数据集一般由一个三元组(用户,物品,标签)的集合表 ...

  5. 推荐系统——标签推荐系统:UGC的标签应用

    UGC: user generated content, 用户生成的内容. Delicious 允许用户给互联网的每个网页打标签,从而通过标签重新组织整个互联网. CiteULike 是一个著名的论文 ...

  6. 机器学习-推荐系统-利用用户标签数据

    在之前的博文中介绍了三种方法给用户推荐物品. 1)UserCF:给用户推荐和他们兴趣爱好相似的其他用户喜欢的物品. 2) ItemCF:给用户推荐与他喜欢过的物品相似的物品. 3) LFM:通过一些特 ...

  7. 推荐系统之用户标签,以及基于标签的算法

    目录 一.用户标签 1.维度 2.阶段 3.打标签的方式 4.如何给用户推荐标签 二.基于标签的算法 1.SimpleTagBased 2.NormTagBased 3.TagBased-TFIDF ...

  8. 推荐系统系列一:推荐系统介绍

    下面内容转自大数据与人工智能微信公众号,由于网络上推荐系统的相关学习资料太多太杂,东拼西凑学习很难摸出门道,同时我也在学习推荐系统,因此我将该系列内容摘录到我的博客,方便大家直接在博客中查看,大家一起 ...

  9. MM2020 | 基于对抗学习的个性化标签推荐

    猜你喜欢 0.2021年轻人性生活调研报告 1.如何搭建一套个性化推荐系统? 2.从零开始搭建创业公司后台技术栈 3.某视频APP推荐详解(万字长文) 4.微博推荐算法实践与机器学习平台演进 5.腾讯 ...

最新文章

  1. BCH与BCE共享比特币之名
  2. php钩子原理和实现
  3. DL之SSD:SSD算法的简介(论文介绍)、架构详解、案例应用等配图集合之详细攻略
  4. SAP UI5 busy Dialog debug
  5. db2 语句包括不必要的列表_DB2 SQL0956C 数据库堆中没有足够的处理空间可用来处理此语句...
  6. (王道408考研数据结构)第一章绪论-第一节:数据结构的基本概念、三要素、逻辑结构和物理结构
  7. 1048 行 MySQL指令(经典)
  8. 机器学习中遇到的问题
  9. SEO_关键词研究工具
  10. APP设计~切图那些事儿
  11. 很好用的绘图软件cad,非常喜欢这个简易方法
  12. 大神论坛 史上最全植物大战僵尸分析及游戏辅助Python实现
  13. flink kafka addSource(comsumer ) 源码学习笔记
  14. Android开源项目以及开源库集合(持续更新中)
  15. 【日志】学习笔记之看图玩转LTM
  16. Java开发必学:java核心技术电子书资源
  17. 通过Excel制作下拉框筛选出成绩
  18. eclipse的正确使用方式
  19. 癃闭病以及其常见药方
  20. R语言统计分析|批量单变量Cox回归分析

热门文章

  1. 2021年汽车修理工(初级)报名考试及汽车修理工(初级)最新解析
  2. seatunnel 简单使用(原名waterdrop)
  3. 多肽纯化中的常见问题-一定要了解
  4. MySQL替换换行符
  5. 【 python 中 if 的用法(if else, if not, elif)】
  6. c# 拒绝访问 进程_c# - 无法复制文件,拒绝访问路径
  7. 洛谷—P1379 八数码难题
  8. 初次使用Cadence Pspice仿真功能详细教程
  9. 在Tomcat中配置不同的域名对应不同的war包项目
  10. 系统测试缺陷定义说明