推荐系统第一课

罗老师,神秘人物
推荐系统介绍
评估方法
实战
冷启动问题
课程安排
推荐系统怎么产生的。信息太多了,需要推荐算法匹配人和信息。买东西,商店里面一眼都能看清楚,买饮料,直接拿走,不要推荐系统。去超市,需要导购员,去淘宝,需要搜索,更大系统需要推荐系统挖掘信息。未来更多信息,推荐系统也可能无法满足需求。
推荐和搜索区别
推荐被动,搜索主动
搜索意图明确,推荐比较模糊。推荐个性化很强。流量:搜索,头部流量很强。推荐让小众需求得到满足。搜索快速满足,推荐持续服务。评估指标,搜索简明,推荐复杂。
搜索和推荐的关联。
推荐系统存在的理由:
信息过载,用户需求不明确
推荐系统目标:链接用户和物品,发现商品,留住用户和内容生产者,实现商业目标,头条浏览新闻,投广告赚钱。购买各种服务,最终目的都是实现商业目标。
推荐系统用于:日常日常生活中。用三个不同推荐系统为代表,头条新闻产品,快手为代表,短视频推荐,第三个淘宝为代表的商品推荐,最早从亚马逊开始,Netflix影片推荐。每个章节会对比不同的区别。
第二部分:
评估指标,评估方法
用户,网站,内容提供方。
用户:满足需求,获取信息,快乐,扩展视野。获得认可感,很开心
内容提供方:获取长尾流量,获得互动和认可,获得收益;淘宝就是为了获得收益,
网站:留住用户,实现商业目标,
常用的评估指标:准确性,信任度,满意度,实时性,覆盖率,鲁棒性(系统不要崩溃,保证稳定),多样性,可扩展性,新颖性,商业目标,精细度,用户存留。
显示反馈(电影评分,是否喜欢这个推荐),隐式反馈(点击就满意,直接离开就不满意)
准确性:显示高,隐世低。
数量:显示少,隐世多
获取成本:显示高,隐世低。
准确性(学术性):定义:评分预测:RMSE;MAE
topN推荐:精确率和召回率
工业界准确性:和产品有很大关系;头条,点击了,说明对标题,图片认可,阅读-阅读时长-》分享和评论-》关注和付费
快手:播放-》播放完成-》点赞和评论-》关注和跟拍
淘宝评估:点击-》浏览深度-》加入购物车和收藏-》购买-》重复购买和好评
覆盖度:推荐出来的商品占据所有商品的数目
信息熵:衡量信息不确定性,越高,越不确定;
基尼系数:经济学领域,衡量财产分配平衡度的。小于1
分层流量占比:按照销量分层,大于1万的占比多少,大于5000的占比等
多样性:推荐列表中物品不同的种类,
新颖性:从来没有关注过的类别,商品等,一直在看鞋子,突然推荐了其他东西。推荐结果的平均流行度
惊喜性:历史不相似。但是很满意;
这三个指标和用户历史偏好有关。
往往需要牺牲准确性;
Exploitation:选择现在最佳的方案;
Exploration:选择不确定的方案,未来可能有高收益。尝试不同种类
Bandit算法原理:Epsilon-greedy:以1-epsilon的概率选择当前收益最大的臂,以epsilon的概率随机选取一个臂做探索;
upper confidence bound:均值越大,标准差越小,被选中的概率会越来越大;
Thompson Sampling:每个臂维护一个beta(wins, lose)分布,每次用现有的beta分布产生一个随机数,选择随机数最大的臂;
三种的区别:UCB算法返回结果一样的;TS采样有随机化策略;
下面直接拿Python代码开讲:代码还是老师刚写的。
Bandit算法应用:兴趣探索:老虎机收益最高。
冷启动探索:新用户来了,不知道用户的口味,
LinUCB:加入特征信息。用user和item的特征预估回报机器置信区间,选择置信区间上界最大的item推荐,观察回报后更新线性关系的参数,

EE实践:
兴趣扩展:相似话题,搭配推荐,看优衣库,直接扩展到无印良品
人群算法:usercf,用户聚类,相关性不强的人群聚类扩展,
Bandit算法:
graph walking:
平衡个性化推荐和热门推荐比例:平时不看娱乐,突然来个娱乐头条,范冰冰出事了。这个算法就是好算法
随机丢弃用户行为历史;
随机扰动模型参数;

眼前的苟且和远方的田野:
今天成交多少钱,用户明天是否继续买;
探索伤寒用户体验,头条今天给我推荐很多不喜欢的娱乐新闻,我就删除软件了。
探索带来的长期收益评估周期长,KPI压力大。
如何平衡实时兴趣和长期兴趣。
如何平衡短期产品体验和长期系统生态。
如何平衡大众口味和小众需求。
如何避免劣币驱逐良币。
休息5分钟。

评估方法:
问卷调查:成本高
离线评估:在用户看到过的候选集上做评估,且跟线上真实效果存在偏差;智能评估少数指标;速度快,不损害用户体验。
在线评估:A/B testing
实践:离线评估和在线评估相结合,定期做问卷调查

A/B testing:单层实验:分流方法给每个实验组分配一定流量。每个组配置不同的实验参数。
三个组:UI测试,推荐实验,广告实验。
只能支持少量实验,不利于迭代;
实验之间不独立,策略可能相互影响;分流方式不灵活。
多层重叠实验框架:保留单层实验框架易用,快速优点同时,增加可扩展性。
核心思路:
分配函数如何设计?保证分配的均匀性和正交性。
如何处理实验样本的过滤?
分配多大流量可以使实验置信?

推荐系统架构:
2013 NETFLIX:出租影像DVD,类似爱奇艺,视频的推荐。06年举办了百万大奖的比赛,推进了算法的进化。
offline,一天跑一次,online层轻量级,要快,用了逻辑回归。
淘宝2015年的推荐系统架构:底层存储如何,
2016 youtube架构

推荐系统发展阶段:
1.0 关联规则,热门推荐等统计方法。啤酒喝尿布放一起。
2.0 矩阵分解,协同过滤,离线推荐列表计算
3.0 召回+ learning to rank重排序。比较成熟时代2014年以后大规模使用了。
4.0 召回和排序实时化。
5.0 end2end深度学习,一切都是embedding
6.0 智能化推荐系统
比如,手机被其他人用了,是否推荐内容要变化。
头条和快手已经到了5.0.阿里和腾讯滞后了一点,为啥?因为抖音全部依赖于推荐,淘宝不那么依赖推荐,而且新公司历史包袱比较小。

发展趋势:单一模块到多模块;单一目标到多目标;单个场景到多场景;离线计算到实时计算;人工规则到人工智能;浅度模型到深度模型;

推荐系统架构:数据收集,学习,服务过程,还有反馈过程。
学术和工业差距:
数据量从百万到百亿
数据分布:学术稳定,工业变化;
研究问题:学术:定义清晰;工业复杂;
关注点:学术追求精度极致;工业考虑性价比;
评估指标:学术单一,工业多个目标
评估方法:学术离线;工业:在线和问卷调查

召回,预估,排序
学习资料:推荐系统实践,比较老旧,今日头条程序员看书一周,然后搭建系统,推荐系统
三篇论文:
item-based collaborative filtering recommendation algorithms
factorization meets the neighborhood:
matrix factorization techniques for recommender systems;有源码
上面三篇文章一定要看,因为课程会讲这些。

工业实践学习资料:
Facebook实践:recommending items to more than a billion people。需要翻墙
quora是如何做推荐的?
real-time personalization using embeddings for search ranking at airbnb
deep neural networks for youtube recommendations
wide& deep learning for recommender systems
ad click prediction: a view from the trenches

认识你是我们的缘分,同学,等等,学习人工智能,记得关注我。

微信扫一扫
关注该公众号

《湾区人工智能》

回复《人生苦短,我用Python》便可以获取下面的超高清电子书和代码

推荐系统第一课 听课记录,边听边打字模式相关推荐

  1. 中小学计算机听课记录表,中小学实验课听课记录(样表).doc

    中小学实验课听课记录(样表).doc (1页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 4.90 积分 **学校实验课听课记录实验课题: 实验年级:执 ...

  2. 小学教师计算机课评课,信息技术优质课听课反思

    这次的听课让我开阔了眼界明白了努力方向,同时也相信通过自己不断的努力一定能取得更大进步,听河南省小学信息技术优质课评比反思,在这个大平台中我学到了很多结合自己平时的教学反思如下. 信息技术优质课听课反 ...

  3. 听计算机课验课题评语,听课记录评语及建议

    [www.citswd.com--热门资讯] 教师听课评课是提高教师教学水平的重要途径,听课重点关注什么?听课记录记什么如何写?下面是关于听课记录评语及建议的内容,欢迎阅读! 课前准备: 1.准备家庭 ...

  4. 听计算机课评语与建议,听课记录评语及建议

    <听课记录评语及建议>由会员分享,可在线阅读,更多相关<听课记录评语及建议(7页珍藏版)>请在人人文库网上搜索. 1.体育听课记录评语及建议教学内容:携绳跑一.教学理念及课中渗 ...

  5. 中学计算机课使用登记册,中学信息技术听课记录.doc

    文档介绍: 中学信息技术听课记录,初二信息技术听课记录,信息技术听课记录,初中信息技术听课笔记,高中语文听课记录20篇,信息技术flash听课记录,七年级信息技术听课,听课记录信息技术表格,初二信息听 ...

  6. 高中计算机课听课记录表,中学信息技术听课记录.doc

    中学信息技术听课记录.doc 听课记录表听课记录表(一)(一) 实习学校实习学校_ _xxxxxx 九年制学校九年制学校 实践基地任课教师实践基地任课教师 xxxxxx 班 级 八.一 时 间 201 ...

  7. Games106学习记录第一课

    本文地址:https://blog.csdn.net/t163361/article/details/130139998 最近准备申请新星创作者,需要2000个粉丝关注,觉得文章有用的,请点一下左侧边 ...

  8. 计算机应用基础的听课记录,听课记录-计算机应用基础

    听课记录-计算机应用基础-Excel 2003的条件格式的应用 3.单击"条件格式"对话框中的"格式"按钮,弹出"单元格格式"对话框,设置字 ...

  9. 小学计算机二课活动记录,小学教研活动记录

    小学教研活动记录 小学教研活动记录(一): 某某小学教研活动记录 2009-2010学年第二学期 时间:2010年4月6日 地点:大办公室 出席:全体教师 主题:精神传达 记录人:某某某 一.外出学习 ...

最新文章

  1. 基于圆形标定点的相机几何参数的标定
  2. Genome Biology:人体各部位微生物组时间序列分析Moving Pictures
  3. eeglab教程系列(15)-绘制独立成分ERP贡献
  4. 谷歌为何要大力投资生命科学初创公司?
  5. AI:IPPR的数学表示-CNN结构/参数分析
  6. linux资源使用统计指南,指南:工作量分析文档
  7. 全部物理宇宙全部能由数学理解
  8. 门面设计模式php,学习php设计模式 php实现门面模式(Facade)
  9. How-to: Build VPP FD.IO development environment with Mellanox DPDK PMD.
  10. 解决docker push镜像到docker hub报没有权限
  11. 第九课 go的循环语句
  12. 贵族机要第二次半修改装备简单分配
  13. ab测试工具结果分析
  14. Centos 远程桌面管理工具
  15. 图Android 片缓存文件名,手机图片去了哪?教你理清照片存放路径
  16. 全国青少年软件编程(Scratch)等级考试一级考试真题2022年12月——持续更新.....
  17. android变身蓝牙键鼠,使用BluetoothHidDevice将安卓手机同时模拟成鼠标和键盘
  18. HALCON数组的删除 三
  19. 1恢复 群晖raid_群晖raid5数据恢复(一看就会的恢复软件)
  20. 聚智云算,向新而生| 有孚网络“专有云”开启新纪元

热门文章

  1. SIFT(尺度不变特征变换)算法浅析
  2. linux 服务管理
  3. spring mvc注解之@RequestBody和@RequestParm
  4. .NET 原理之 ViewState
  5. java 中hashcode 与 equals的关系
  6. TFS 团队项目不能访问documents解决方案
  7. 如何在网中使用百度地图API自定义个性化地图
  8. 基于mycat高可用方案——数据库负载
  9. 系统设置参数说明11
  10. jQuery EasyUI combobox多选及赋值