内容来源:“Recommender Systems Specialization” course of 明尼苏达大学 (University of Minnesota) at Coursera

一、Learning Objectives

  • Understand what data recommenders can use to learn what users like
  • Identify types of data collected from users
  • Understand when different data types are possible and appropriate
  • Be able to identify types of preference data likely used in a system
    (怎么收集数据、怎么使用、以及它们意味着什么)

二、Preference Model

推荐过程的核心是学习得到用户的偏好信息(preference information),即用户喜欢什么。
用户在互联网中的各种行为或数据信息能够体现其偏好信息,例如评分、购买、浏览等行为和年龄、性别等数据。这些数据和行为大体可分为两类,即explicit data 和 implicit data。

2.1 Explicit ratings

user直接表明对某个item的喜好信息,例如可以收集用户对电影的打分、对商品的评论等。

How to collect data?

怎么从用户那收集信息?

Star Ratings:
  • Widely-used interface
  • Several design decisions
    • 5? 7? 10?(5-stars or 7-stars)
    • Half-stars?(是否提供半星,即打0.5星)
    • Provide meaning/calibration?(是否为每个评级提供说明)
    • More not necessarily better(因为用户可能不能很好的利用这些信息,所以有时提供更多的说明信息并不代表能收集到质量更好的数据,但有利于用户表达他们的观点)
Thumbs and Likes
  • Vote up/down
  • Or just ‘Like’/‘+1’
  • Common with ephemeral items (常见于短暂的项目,用户对信息快速进行浏览的场景,例如知乎、微博)
    • News aggregation (Reddit, Digg)
    • Q&A (StackOverflow)
    • YouTube
  • Very low cost to rate
Other Interfaces
  • Continuous scales (users can rate anywhere on a fairly wide ranging scale.)
  • Pairwise preference (to judge whether they like one item better than another)
  • Hybrid (e.g. 1-100 + never again)
  • Temporary (e.g. Pandora 30-day suspend,即30天内不再播放该歌曲)

When are ratings provided?

什么时候让用户进行评分?

  • Consumption — during or immediately after experiencing the item (例如刚看完电影,就让用户进行评分,其感受不受记忆影响)
  • Memory — some time after experience
  • Expectation — the item has not been experienced (适用于一些high cost low volume items,例如调研对某片区域房子的偏好信息,实际上拥有房子的用户很少,因此需要对房子进行详细描述,使用户基于该描述对房子进行评分,得到Expectation ratings)

Problems

  • 用户的评分信息是否准确,用户本身是否可靠?
  • 用户的偏好会随着时间改变,但是评分数据不会因此更新。
  • 评分的具体含义不明确,给出相同评分的用户所表达的喜好程度可能不同。

2.2 Implicit data

  • Data collected from user actions
  • Key difference: user action is for some other purpose, not expressing preference
  • Their actions say a lot!

How to collect data?

Reading Time
  • Early implicit data: how long did user read?
  • Listening and watching (用户听音乐/观看影片的时间,例如秒切和秒关表示对该内容不感兴趣)
    • IMMS
    • Video services
Binary actions
  • Click on link (ad, result, cross-reference)
  • Don’t click on link
  • Purchase
  • Follow/Friend

Subtleties and Difficulties

  • What does the action mean?

    • Purchase: they might still hate it
    • Don’t click: expect bad, or didn’t see (没点击有可能仅是没看见,而不是不喜欢)
  • How to scale/represent actions?
    when you are combining multiple types of actions, how you represent them and combine them in order to come up with the recommendations becomes important.
  • Lots of opportunity to be creepy
    • Education may help
    • So can respecting privacy
      (行为有歧义,但通过教育用户这些行为将如何影响后续推荐过程,能够获取质量更好的行为。该过程为达到更好推荐效果提供机会的同时也尊重了用户的隐私)

2.3 Key difference between implicit data and explicit ratings

As in Explicit ratings, the user is intending to say how much they like something. In implicit data, the user is just doing something that’s based on their preference but they’re not doing it to say what they prefer. Their actions can say a lot and they have a lot of actions.
(前者是间接表达偏好信息,而后者是直接表达)

三、Conclusion

  • Recommenders mine what users say (explicit data) and what they do (implicit data) to learn preferences
  • Ratings provide explicit expressions of
    preference
  • Implicit data benefits from greater volume (相较于explicit ratings,更易获得大量的用户行为数据)

【Week 1】Preferences and Ratings相关推荐

  1. 【SARscape 5.6】preferences common设置

    [SARscape 5.6]preferences common设置 这个是什么,目的是什么? 1. 目录和批处理文件名(Directories and batch file name) 1.1 目的 ...

  2. 【推荐实践】智能推荐算法在直播场景中的应用

    导 读 随着移动互联网泛娱乐化行业的发展,直播与短视频越来越深入人们的生活,人们对于直播与短视频的质量要求也越来越高.是否能够匹配用户的兴趣,满足用户的需求,已经成为决定平台增长的关键因素.今天会和大 ...

  3. 【上古秘籍】之Eclipse的秘籍 转

    CSS code . 打开MyEclipse 6.0.1,然后"window"→"Preferences" 2. 选择"java",展开,& ...

  4. java寻宝算法_【Java 7】今天,你寻宝了吗?

    [Java 7]今天,你寻宝了吗? 背景描述: Dmaven.multiModuleProjectDirectory system property is not set. Check $M2_HOM ...

  5. 【论文阅读】2021年牛津大学的 Survey:Recent Advances in Reinforcement Learning in Finance

    1 本文概述 本文是牛津大学2021年对 深度强化学习在金融领域内各种决策的应用 的综述文章.文章分为四个部分,第一部分是整体介绍:第二部分详细介绍了强化学习的基础知识,包括马尔科夫决策过程的定义.基 ...

  6. 【安全开发】IOS安全编码规范

    申明:本文非笔者原创,原文转载自:https://github.com/SecurityPaper/SecurityPaper-web/blob/master/_posts/2.SDL%E8%A7%8 ...

  7. 【Cadence17.2】Padstack Editor制作焊盘和过孔

    [Cadence17.2]Padstack Editor制作焊盘和过孔 表贴焊盘 圆形通孔焊盘 过孔.机械通孔.其他形状的通孔(slot) 表贴焊盘 首先在Start界面选择SMD Pin,并在下方选 ...

  8. 潮阳实验学校文件服务器,【潮实】潮阳实验学校校歌(调教用)

    Introduction 潮阳实验学校校歌 bpm 108 人声单轨 汕头市潮阳实验学校20周年校庆 使用请标注:Bilibili-帅酱OvO "[潮实]潮阳实验学校校歌(调教用)" ...

  9. 【Java+MySQL】使用JDBC连接MySQL 8.0数据库

    一.Java MySQL 8.0连接驱动包 下载链接:https://pan.baidu.com/s/1YFOImz0dCHtzIajSFq9xgg?pwd=boul 提取码:boul [IDEA]导 ...

  10. 【AAAI 2021】全部接受论文列表(五)

    来源:AINLPer微信公众号(点击了解一下吧) 编辑: ShuYini 校稿: ShuYini 时间: 2021-01-14 马上春节了,疫情又卷土而来,希望大家注意防护,爱护自己的身体 AAAI ...

最新文章

  1. android系统密码设置功能,手机锁屏密码怎么设置 三种安卓手机锁屏方式推荐
  2. codeforces570C
  3. STM32 基础系列教程 3 – 外部中断
  4. Pwn环境配置(一)——安装虚拟机
  5. 转:pysqlite笔记
  6. 遍历这些字符串,如果字符串没有包含数字的,就将字符串中的小写字母转成大写字母并打印字符串
  7. VS2010中的sln,suo分别是什么文件
  8. c语言贪吃蛇咬到尾巴,【图片】C语言小游戏~贪吃蛇【c语言吧】_百度贴吧
  9. Nginx、Haproxy、LVS负载均衡从原理到部署(一)
  10. r语言折线图_R语言基础入门视频教程——语法篇(完结)
  11. vissim4.3安装教程
  12. 在 pandas 中画树状图,使用 squarify 画树状图
  13. 如何添加二级域名(图文超级详细)
  14. java 月份缩写_实训汇编语言设计——输入1-12 ,显示月份缩写
  15. 由浅入深配置webpack4
  16. SQL Server 数据库之数学函数
  17. 常见字读音(粤语)---(2)
  18. mybatis 多字段in_Mybatis Plus 之 inSql 使用
  19. 你了解这么多万兆以太网规范吗?
  20. CC2014中国互联网版权保护行动计划启动

热门文章

  1. python中shape的解释
  2. element-ui tree全部展开和全部折叠
  3. 第六章 类与对象 类的包含
  4. ps去水印通用方法和教程案例
  5. 【打卡】汽车领域多语种迁移学习挑战赛
  6. python输入一个英文句子 输出单词个数_C 统计英文句子“python is an interpreted language” 有多少个单词...
  7. 虚拟机如何使用计算机中文件,如何从电脑往虚拟机复制文件
  8. Data must be padded to 16 byte boundary in CBC mode
  9. Linux编程学习笔记-多进程编程
  10. 修改IDEA缓存文件路径