文 本 智 能 处 理 专 家
达观数据联合创始人 于敬 
目录
达观数据介绍
推荐系统概述
搭建推荐系统的关键算法
难点分析和解决方法
深度学习在推荐系统中的应用
进阶资源推荐
数据型产品的标配-推荐系统
淘宝
淘宝为每位不同的用户呈现
不同的首页商品
网易云音乐
网易云音乐根据用户的
音乐口味推荐不同的歌

今日头条
今日头条根据每个用户
的兴趣推荐不用的新闻
资讯
--文本:新闻、博客、小说、论文、……
--图片:风景、商品、旅游、……
--音频:歌曲、歌手、专辑、……
--视频:电影、电视剧、综艺节目、短视频、……
--其他:APP、位置服务、……
--SNS:人人、群组、……
常见的推荐系统应用场景
个性化推荐 相关推荐 热门推荐
常以“推荐”、“猜你喜
欢”、“发现”等形式出现,
一般放在首页
常以“相关推荐”、“看了还
看”、“买了还买”等形式出
现,一般放在内容详情页
基于上报的各种数据进行计算,
得到的排行榜,支持全局排行以
及分类排行等,位置不限
推荐系统对于用户的核心价值


用户的诉求 推荐系统的功能
l 帮用户便捷的筛选出感兴趣的内容
l 面对陌生领域时提供参考意见
l 需求不明确时,作用户的“贴心助手”
l 满足用户的好奇心
l 描述物品的特点,并与用户的个性化偏好进行匹配
l 进行有效的信息过滤以解决用户的过载问题
l 根据用户反馈迅速捕捉用户的兴趣,以及兴趣的变化
l 选择合适的场景、时机、表现方式进行推荐
个性化带来的显著效果
l 电商巨头亚马逊每年30%的收入来自个性化推荐;
l 自2008 年起,推荐算法为 YouTube 每天增加了数
十万小时的观看时长,每年视频点击量增幅都达到
50% ;
l Linkedin通过propensity model提供机器学习,最
终为公司带来了数十倍的持续稳定的增长;
l 进入京东、淘宝app或者网页端,每个用户的首页展
示甚至Logo都是依据行为偏好进行精准推荐,个性
化推荐系统是大势所趋。
什么是个性化推荐
BEFORE 单调刻板 用户流失  AFTER 千人千面 转化率高
l 个性化推荐系统是用户与内容之间的桥梁,
更快更准建立偏好关系,提高用户留存率;
l 个性化推荐系统好比筛网,从用户角度筛选
出喜好的内容;从内容角度,筛选出匹配的
用户群;
l 秒级响应用户点击反馈,保障推荐内容时效
性、多样性,时刻给用户惊喜的结果;
解决两大问题
l 信息过载
l 长尾问题
推荐系统的主要设计目标
功能
效果
性能


种类丰富完善,例如:相关推荐、个
性化推荐、热门推荐
推荐的高准确性,推荐结果的完备性
快速、稳定
功能
效果 性能
功能、效果、性能三方面相辅相成、互相作用与影
响;良好的推荐性能需要进行全面考虑与平衡
用户体验是根本,细分为三个部分:

总体架构


推荐流程


• 重量级算法
• 大数据集群
• 小时
• 千
• 轻量级算法
• 内存+RDB
• 秒
• 百
• 业务规则
• 内存
• 毫秒
• 十
召回 粗排 精排
离线 近线 在线
热门推荐
l生成多维度的热门数据
l广为人知,从众心理
l易于实现,按照固定指标排序
l人工编辑
基于内容的推荐


l 单一:标签,类别,品牌,价格等
l 组合:类别+价格,品牌+价格等
l 类别扩展
l 语义扩展
商品
标题
类别
标签
品牌
……
价格
折扣
人群
基于主题模型的推荐

l 生成item向量
l 计算item的相似度
l topN推荐
协同过滤


• item-similarity
• prediction
• user-similarity
• prediction
注:实际使用中,距离计算公式有大量调整和变形
user-based CF
item-based CF
Latent Factor Model


l 偏好信息的充分利用
l 能充分利用用户、物品的profile等属性信息
l 属性之间能方便的进行各种组合
l 解决显式反馈数据过少的问题
用户模型构建


l 生成多维度的偏好数据
l 用户群体聚类
l 用户分类
l 用户向量构建
多算法融合
l Linear Model
l Blending
l Ensemble
• Logistic Regression
• RBM
• GBDT
• …


 
构建推荐系统的常见难点


1 如何精准把握用户兴趣?
• 用户兴趣不仅存在多样性,而且会随着时间的变化
而动态变化
• 对用户兴趣的挖掘需要海量数据,如何合理建模
• 不同算法模型对用户兴趣的刻画结果不同,如何优
化模型
3 实际应用面临诸多考验
• 数据量膨胀快,且冷热不均
• 用户兴趣变化快,模型更新跟不上
• 算法调优,效果越调越差
• 机器资源有限、存储有限常出现性能瓶颈
4 推荐结果单调性和重复性
• 推荐内容越来越单调
• 优质内容得不到曝光
• 低俗或猎奇内容会赢得大量推荐曝光
• 仅依赖内容分类和标签的推荐质量低下
2 冷启动问题如何解决?
• 用户冷启动:用户冷启动需要解决如何给新用户进行
个性化推荐的问题。当新用户到来时,我们没有他的
行为数据,基于用户行为数据的推荐算法显然不适用
• 物品冷启动:物品冷启动需要解决如何将新的物品快
速推荐给可能对它感兴趣的用户
长短期兴趣画像让模型效果稳定提升


l 过滤:将历史推荐过、质量不佳、不满足
用户需求内容过滤掉,提高推荐品质保持
稳定的推荐效果。
l 排序:引入时间因子,捕捉用户长短期兴
趣偏好,采用机器学习方法灵活调整推荐
列表顺序,将更吸引用户的内容前置。
l 优化:随着时间推移,用户画像逐渐丰
富,达观技术团队持续优化算法引擎,保
障数据指标稳定攀升。
时间






快速建模技术解决冷启动问题
l 毫秒级快速生成新用户的用户
画像,迅速缓解冷启动
l 达观独特的CLUB(online
clustering bandits)算法,自
适应调整新用户推荐结果
l 通过自然语言处理技术,深度挖
掘建立新物品的画像
“三级火箭”架构保障系统稳定和毫秒级反馈


l 达观系统架构分为三级火箭:由Offline-Nearline-
Online三级依次衔接构成,融合了各类推荐算法和
数据
l Offline系统提供复杂离线运算,Online系统提供灵
巧的实时运算,Nearline衔接,整体兼顾了稳定性
和灵敏性
l 系统运用了大量NoSQL,内存计算、Spark
Stearming、Kafka等技术,确保了在高性能要求下
系统强大的可靠性
文本处理


穿上效果很好看保暖性很强,一级棒,毛领也很好看,面
料设计也好,而且还防水,很好的不错的。
评论分词
短句情感
分析
短句重要
性排序
观点抽取
穿上/效果/很/好看/保暖性/很/强,一级/棒,毛领/
也/很/好看,面料/设计/也/好,而且/还/防水,很
好/的/不错/的。
正面,正面,正面,正面,正面,正面
穿着好看 保暖性强 毛领好看 面料好 防水
穿着好看 保暖性强
面料好 防水

Embedding处理


l 词embedding,内容多样性优化
l item embedding,结果召回
l user和item的向量,特征工程
item标签 标签embedding 相似标签
用户行为数据 item embedding 相似item
feature
vector
machine
learning
基于DNN的推荐


l 模型采用MLP
l 训练时softmax做多分类
l 预测时计算与所有视频的相似度
l top K个视频
l 兴趣视频
l 兴趣搜索
l 用户地理位置
l 用户性别
l 视频发布时间
基于DKN的推荐


Wide&Deep
Wide:线性模型+特征组合。记忆性好、可解释性强
Deep:deep learning,几乎不需要特征工程,可以学习到更深层次的隐藏特征


DeepFM

l 没有预训练
l 共享Feature Embedding,没有特征工程
l 同时学习低阶和高阶组合特征
模型-排序


LR
• 线性
• 人工特征工程
FM,FFM
GBDT+LR
Xgboost + LR
• 非线性
• 多特征组合
DeepFM
Wide&Deep
•深度学习
•调参
XDeepFM


l 由linear、DNN、CIN三部分组成
l CIN实现了自动学习显式的高阶特征
交互
l 该模型在几个数据集上都取得了超
过DeepFM模型的效果
目录
达观数据介绍
推荐系统概述
搭建推荐系统的关键算法
难点分析和解决方法
深度学习在推荐系统中的应用
进阶资源推荐
心得体会
• 一切从用户出发,避免本末倒置
• 搭建一个推荐系统不难,如何持之以恒地提升效果是
关键
• 没有坏的方法,只有坏的用法,因地制宜、对症下药
• 没有最好,只有更好,体验和效果需要兼顾与时俱进

欢迎加qq群:953404975

微信群:paper go

达观数据个性化推荐系统实践相关推荐

  1. 免费公开课报名 | 达观数据个性化推荐系统实践

    在人工智能浪潮之下,个性化推荐技术更是风靡业界,在金融.传媒.短视频.电商.教育等诸多领域大放异彩,影响人们生活的方方面面.不仅方便了人们获取各种各样的信息,还给企业带来了收益的大幅提升. 本次公开课 ...

  2. 达观数据于敬:个性化推荐系统实践

    达观数据于敬:个性化推荐系统实践 在DT(data technology)时代,网上购物.观看视频.聆听音乐.阅读新闻等各个领域无不充斥着各种推荐,个性化推荐已经完全融入人们的日常生活当中.个性化推荐 ...

  3. 【4-14】个性化推荐系统实践应用

    个性化推荐系统实践应用 个性化推荐已经成为现代人们生活的一部分, "猜你喜欢"."相关阅读"你一定并不陌生.计算机如何做到对用户投其所好?企业在做个性化推荐时要 ...

  4. 深入浅出之个性化推荐系统实践

    作者:沈燕 ,来自:网易云 大数据在网易内部的应用丰富多彩,在<让机器读懂用户--大数据中的用户画像>一文中,网易工程师对用户画像进行了较为系统的介绍,并提到用户画像的一个重要作用在于个性 ...

  5. 达观数据搜索引擎排序实践

    前言 随着互联网的深入发展,人类已然进入大数据时代.如何在浩瀚的数据海洋里高速有效的获取有价值的信息,正是促使大数据技术具备走向众多企业的潜力.搜索引擎作为获取信息的有效入口,已然经历了20多年的发展 ...

  6. 推荐 :深入浅出之个性化推荐系统实践

    大数据在网易内部的应用丰富多彩,在<让机器读懂用户--大数据中的用户画像>一文中,网易工程师对用户画像进行了较为系统的介绍,并提到用户画像的一个重要作用在于个性化推荐.但企业怎样才能正确认 ...

  7. 大数据——个性化推荐系统

    要知道什么是个性化推荐系统,那么就要先了解什么是推荐系统: 什么是推荐系统 推荐系统就是利用电子商务网站或APP向客户提供商品信息和建议,有意地引导用户的意向,帮助用户决定应该购买什么产品,模拟销售人 ...

  8. 达观数据新用户推荐的三大利器

    推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣,但对于新用户而言,没有任何的用户行为,如何进行最有效的推荐呢?这就衍生了用户冷启动问题.在当下,企业拉新成本越来越高,用户的选择面也越来越 ...

  9. 达观数据推荐算法实现:协同过滤之item embedding

    推荐系统本质是在用户需求不明确的情况下,解决信息过载的问题,联系用户和信息,一方面帮助用户发现对自己有价值的信息,另一方面让信息能够展现在对它感兴趣的用户面前,从而实现信息消费者和信息生产者的双赢(这 ...

  10. 《百面机器学习——学习笔记》个性化推荐系统

    冷启动 冷启动问题:在没有大量用户数据的情况下如何给用户进行个性化推荐 冷启动目的:最优化点击率. 转化率或用户体验(用户停留时间. 留存率等) 冷启动问题分类: 用户冷启动:指对一个之前没有行为或行 ...

最新文章

  1. 透明度百分比换算十六进制
  2. 除醛重要性美博士环保为您解答!!
  3. lacp静态和动态区别_lacp静态与动态区别
  4. Linux中打开文件管理器的命令
  5. inotify之文件系统事件监控使用入门
  6. 深度学习行人重识别综述与展望
  7. 谷歌紧急修复已遭在野利用的0day
  8. 解决WebService本地访问正常,远程无法访问的问题
  9. Android开发入门的正确姿势,你get到了吗?
  10. MongoDB的查询语句示例说明
  11. python源文件的扩展名是什么_python源文件后缀是什么
  12. MVP实现Recy多条目展示
  13. 什么是程序?什么是程序设计?
  14. HLG 火影忍者之~静音
  15. 计算机显卡(GPU)基础介绍
  16. 链表--逆时针旋转一个链表
  17. leetcode38 count and say
  18. WebGL 及其在 WebRTC 中的应用
  19. mysql docker还是rds_rds · 输出自己/docker-mysql - Gitee.com
  20. 资本网红张拉拉,一面狂奔突进,一面隐忧渐显

热门文章

  1. Apache Flink 零基础入门(二):开发环境搭建和应用的配置、部署及运行
  2. Android Architecture Blueprints----安卓架构详细分析
  3. Android Multimedia框架总结(二十六)利用FFmpeg进行解码直播流
  4. 二叉排序树的中序遍历规律_王道数据结构|第四章 树与二叉树 04 二叉树的遍历...
  5. java boolean 大小_Java 中 boolean 类型占用多少个字节 [MD]
  6. 代号斗罗显示服务器暂未开放,代号斗罗手游
  7. java获取鼠标点击的坐标_怎么我用Java窗外获取鼠标点击的坐标
  8. 如何在点击事件中取得复选框选中的单元格值
  9. python截取某一段文字分栏_Python文本数据互相转换(pandas and win32com)
  10. java 多线程 举例,Java多线程简单举例