作  者:十方
公众号:炼丹笔记  

(1)Why Deep Retrieval?

一个规模较大的推荐系统,需要解决的核心问题就是如何从百万甚至亿级别的候选集中快速找到最相关的top-k个候选。以前的解决方案都是两步:

  • 双塔模型,最后做Dot
  • 用Annoy Tree或者HNSW给候选集建索引,在线计算向量实时检索top-k

之前方案存在的问题:

  • 因为要分两步,而两步的目标是不一样的。
  • 双塔限制了模型的表达能力

基于此,又出现了TDM等树结构模型,但是把每个候选分配到唯一一个叶子节点是最好的方案吗?所以end-to-end的Deep Retrieval(DR)就这样诞生了。

(2)Deep Retrieval 长什么样?

DR并没用用树结构,而是采用了一个矩阵结构(图a所示),现在规定只能从左向右走,因此走D步就可以走完这个矩阵,一共有K的D次方种走法,每一种走走法,都代表一簇候选。所以一个候选,可能存在于多种走法,一种走法也会有多个候选。类比到电商,比如一种类别就对应一种走法,一种类别包含多个商品,一个商品可能也属于多个类别,比如巧克力既可以是食品,也可以是情人节礼物。拿图(a)来说,(1,2,1)和(2,1,2)两条路径分别表示情人节礼物和食品,里面都可以有巧克力。

那怎么从从user的特征,找到一天路径,拉出候选商品呢。可以通过user特征,embeding后,user-embedding接softmax层确定先走到哪个节点,走第k步(k∈[1,D]),就可以用历史走过的所有节点的embedding和user-embedding concat在一起,接softmax层判断第k步走到应该走到哪个节点,最终得到的路径就可以拉出很多candidate了。

Deep Retrieval的优势:

  • 训练的时候item的露肩可以和神经网络参数用EM算法一起学习
  • Deep Retrieval是end-to-end的模型,容易部署
  • 多对多的编码方式使得DR能学到user和item更复杂的关系

(三) Deep Retrieval如何定义目标函数?

既然是概率,我们就可以定义类似logloss的目标函数,如下式:

融合上面两个式子:

看到这里,大家肯定有疑问,不是一个商品对应多个路径吗,目标函数咋一点没体现?下面才开始介绍多路径的目标函数。

预估的时候,用Beam Search找到J条路径,合并每条路径召回的item即可。

(四)Deep Retrieval如何学习参数?

因为有目标函数有π的存在,所以目标函数不连续,也就不可以做梯度下降,因此论文提出EM算法解决这个问题,并用正则化降低过拟合。

再看下多路径目标函数:

然后论文说上式有出现log(0)的风险,通过融合下面不等式,就可以避免这个情况:

最终,EM训练算法总结如下,关于正则化就不细说了:

(五)Deep Retrieval为何如此优秀?

论文提到,Deep Retrieval能如此优秀,是因为目标函数包含了softmax层,因为一开始每个物品的路径是随机初始化的,增加了优化的困难,因为softmax的输入是共享embeding的,使得模型一直在往正确的方向学习,最后还用了beam search,所以召回如此优秀。


推荐系统炼丹笔记:大规模推荐Deep Retrieval相关推荐

  1. 大规模推荐Deep Retrieval

    (1)Why Deep Retrieval? 一个规模较大的推荐系统,需要解决的核心问题就是如何从百万甚至亿级别的候选集中快速找到最相关的top-k个候选.以前的解决方案都是两步: 双塔模型,最后做D ...

  2. 推荐系统炼丹笔记:推荐算法特征交叉新方式CAN

    作 者:一元 公众号:炼丹笔记 昨天看非常多的群友在讨论该篇文章,很是好奇,今天就读了一下,个人感觉本文的co-action操作还是第一次碰到,但该方案在amazu等数据集上对比的方案还是较为弱的,所 ...

  3. 推荐系统炼丹笔记:Deep Retrieval

    作 者:十方 公众号:炼丹笔记 (1)Why Deep Retrieval? 一个规模较大的推荐系统,需要解决的核心问题就是如何从百万甚至亿级别的候选集中快速找到最相关的top-k个候选.以前的解决方 ...

  4. 推荐系统炼丹笔记:多模态推荐之用户评论篇

    作者:一元 公众号:炼丹笔记 目前非常多的推荐系统主要使用用户的一些基础反馈信息来作为最终的标签进行模型的训练,例如点击/购买等,但是却鲜有文章去进一步挖掘用户的其它反馈,例如用户对于该产品的评论,很 ...

  5. 推荐系统炼丹笔记:用户评论在推荐中的应用

    作者:一元 公众号:炼丹笔记 目前非常多的推荐系统主要使用用户的一些基础反馈信息来作为最终的标签进行模型的训练,例如点击/购买等,但是却鲜有文章去进一步挖掘用户的其它反馈,例如用户对于该产品的评论,很 ...

  6. 推荐系统炼丹笔记:阿里推荐算法特征交叉新方式CAN

    作 者:一元 公众号:炼丹笔记 昨天看非常多的群友在讨论该篇文章,很是好奇,今天就读了一下,个人感觉本文的co-action操作还是第一次碰到,但该方案在amazu等数据集上对比的方案还是较为弱的,所 ...

  7. 推荐系统炼丹笔记:EdgeRec阿里边缘计算推荐系统

    作者:一元 公众号:炼丹笔记 背景 推荐系统(RS)已经成为大多数web应用程序的关键模块.最近,大多数RSs都是基于云到边缘框架的瀑布式的,其中推荐的结果通过在云服务器中预先计算传送到edge(例如 ...

  8. 推荐系统炼丹笔记:推荐系统Bias/Debias大全

    作者:一元 公众号:炼丹笔记 背景 在实践中,做推荐系统的很多朋友思考的问题是如何对数据进行挖掘,大多数论文致力于开发机器学习模型来更好地拟合用户行为数据.然而,用户行为数据是观察性的,而不是实验性的 ...

  9. 推荐系统炼丹笔记:阿里边缘计算+奉送20个推荐系统强特

    作者:一元 公众号:炼丹笔记 背景 推荐系统(RS)已经成为大多数web应用程序的关键模块.最近,大多数RSs都是基于云到边缘框架的瀑布式的,其中推荐的结果通过在云服务器中预先计算传送到edge(例如 ...

最新文章

  1. initramfs 文件系统
  2. MYSQL使用inner join 进行 查询/删除/修改示例
  3. ELK 日志管理系统,再次尝试记录
  4. set,env,和export的区别
  5. tableau可视化数据分析60讲(八)-tableau计算函数(重点知识)
  6. 自学机器学习、深度学习、人工智能的学习资源集合
  7. AntDesign Form表单字段校验的三种方式
  8. 【Leetcode | 1】93. 复原IP地址
  9. Axios的Vue插件(添加全局请求/响应拦截器)
  10. Base Filtering Engine 拒绝访问解法
  11. Java注解实现权限管理
  12. Python的下载安装图文教程(超详细!!!)
  13. python(turtle库)画七巧板
  14. html 弹出框显示到最顶层,layer弹出层显示在top顶层的方法
  15. html输入框只能输入整数,轻松让INPUT框只能输入整数
  16. ACL-访问控制列表
  17. UI设计规范-全文篇
  18. Linux系统vscode断点单步运行调试C++程序
  19. 多线程 分段 爆破crc32 C#C/C++ (一)
  20. 在vs中使用 vld 进行内存泄漏检测

热门文章

  1. 配置一个 MVC 项目时 遇到的
  2. SVN报Previous operation has not finished; run 'cleanup' if it was interrupted错误的解决方法
  3. 【VBA研究】怎样将单元格数据赋给数组
  4. s3c2410开发环境建立
  5. 2021-11-09类作为成员变量类型
  6. linux命令行终端全局反色
  7. 新建虚拟机update时出现不能得到锁问题
  8. JDBC(一)——statement对象、PreparedStatement对象
  9. 各种语言速度之比,实验验证Cgojuliajavapythonoctave
  10. 用tcc编译一个c语言写的简单代码hello world