推荐系统组队学习 Task3 召回模型 DSSM, YoutubeDNN


学习内容:

提示:这里是根据开源学习组织DataWhale提供的torch-rechub组队学习相关资料整理的,再次感谢组织和大佬们。

  1. DSSM模型
  2. YoutubeDNN模型

DSSM:

  • 介绍

    DSSM(Deep Structured Semantic Model)是由微软研究院于CIKM在2013年提出的一篇工作,是一种双塔模型,创建的初衷是解决NLP语义相似度的问题,利用了一个双塔模型,分别 encode 搜索或问答系统中,query 和 doc 的文本,得到高维表征向量之后,利用余弦相似度算法计算两个表征后的高维向量之间的关系,即我们最关心的相似度,模型结果如下图所示:

    在推荐系统中,取而代之的是user 和 item 的向量表征,利用user和item的曝光或点击日期进行训练,最终得到user侧的embedding和item侧的embedding。


DSSM模型代码:

class DSSM(torch.nn.Module):    def __init__(self, user_features, item_features, user_params, item_params, temperature=1.0):super().__init__()self.user_features = user_featuresself.item_features = item_featuresself.temperature = temperatureself.user_dims = sum([fea.embed_dim for fea in user_features])self.item_dims = sum([fea.embed_dim for fea in item_features])self.embedding = EmbeddingLayer(user_features + item_features)self.user_mlp = MLP(self.user_dims, output_layer=False, **user_params)self.item_mlp = MLP(self.item_dims, output_layer=False, **item_params)self.mode = Nonedef forward(self, x):user_embedding = self.user_tower(x)item_embedding = self.item_tower(x)if self.mode == "user":return user_embeddingif self.mode == "item":return item_embedding# 计算余弦相似度y = torch.mul(user_embedding, item_embedding).sum(dim=1)return torch.sigmoid(y)def user_tower(self, x):if self.mode == "item":return Noneinput_user = self.embedding(x, self.user_features, squeeze_dim=True)# user DNNuser_embedding = self.user_mlp(input_user)user_embedding = F.normalize(user_embedding, p=2, dim=1)return user_embeddingdef item_tower(self, x):if self.mode == "user":return Noneinput_item = self.embedding(x, self.item_features, squeeze_dim=True)# item DNNitem_embedding = self.item_mlp(input_item)item_embedding = F.normalize(item_embedding, p=2, dim=1)return item_embedding

YoutubeDNN

  • 介绍

    YoutubeDNN是2016年的一篇论文了,算是比较经典的召回模型,其具体架构如下图所示:

    召回模型结构:

    简单解释一召回模型的计算流程吧,其实输入一般就是我们比较关心的数据,在这里,输入的是一些视频浏览记录,搜索记录,用户信息等,在不同的推荐系统中,业务不同,数据肯定都是不相同的。这些数据经过 embeding 之后(先进行一些数据的预处理,其实就是特征工程,将数据进行归一化等操作,最后再embeding),先进行一个 average 操作,类似于 average pooling, 之后将各个不同的数据进行 concat,将结构送入DNN,其中的激活函数是 relu,最后进行多分类的 softmax 和 损失计算(cross entropy)。其实整个模型结构是比较简单的,其中有很多细节,可以在代码里发现。

YoutubeDNN模型代码:

class YoutubeDNN(torch.nn.Module):def __init__(self, user_features, item_features, neg_item_feature, user_params, temperature=1.0):super().__init__()self.user_features = user_featuresself.item_features = item_featuresself.neg_item_feature = neg_item_featureself.temperature = temperatureself.user_dims = sum([fea.embed_dim for fea in user_features])self.embedding = EmbeddingLayer(user_features + item_features)self.user_mlp = MLP(self.user_dims, output_layer=False, **user_params)self.mode = Nonedef forward(self, x):user_embedding = self.user_tower(x)item_embedding = self.item_tower(x)if self.mode == "user":return user_embeddingif self.mode == "item":return item_embedding# 计算相似度y = torch.mul(user_embedding, item_embedding).sum(dim=2)y = y / self.temperaturereturn ydef user_tower(self, x):# 用于inference_embedding阶段if self.mode == "item":return Noneinput_user = self.embedding(x, self.user_features, squeeze_dim=True)user_embedding = self.user_mlp(input_user).unsqueeze(1)user_embedding = F.normalize(user_embedding, p=2, dim=2)if self.mode == "user":return user_embedding.squeeze(1)return user_embeddingdef item_tower(self, x):if self.mode == "user":return Nonepos_embedding = self.embedding(x, self.item_features, squeeze_dim=False)pos_embedding = F.normalize(pos_embedding, p=2, dim=2)if self.mode == "item":return pos_embedding.squeeze(1)neg_embeddings = self.embedding(x, self.neg_item_feature, squeeze_dim=False).squeeze(1)neg_embeddings = F.normalize(neg_embeddings, p=2, dim=2)return torch.cat((pos_embedding, neg_embeddings), dim=1)

总结

最后总结一下吧,其实很感谢DataWhale这个开源组织的,我确实跟着他们学到不少有用的知识在里面,也帮助我走过了很多方向的入门环节,感恩!!然后就是今天学习到的召回模型,其实这些模型结构并不复杂,但是确很经典,因为他们真的很work!最后其实推荐系统里面,特征工程也是很重要的一点,并不是embeding之后就万事大吉了,对于数据的探索是我们不断进步的关键。

在最后推荐一下 torch-rechub 这个框架,里面复现了很多经典的推荐算法,简单易用,小伙伴们快来试试吧!
链接: torch-rechub

【推荐系统召回模型 DSSM, YoutubeDNN】相关推荐

  1. Task03 召回模型:YoutubeDNN、DSSM

    Task03 召回模型:YoutubeDNN.DSSM 一.DSSM(双塔模型----召回模型) DSSM-Learning Deep Structured Semantic Models for W ...

  2. 推荐系统——召回模型

    YoutubeDNN 内容 YoutubeDNN是Youtube用于做视频推荐的落地模型,可谓推荐系统中的经典,其大体思路为召回阶段使用多个简单模型筛除大量相关度较低的样本,排序阶段使用较为复杂的模型 ...

  3. 推荐系统-模型(一):召回模型【协同过滤类: ItemCF/UserCF】【Embedding类】【Dssm/双塔/word2vec】【图类召回算法 (Deepwalk、EGES)】

    推荐系统-召回模型:[协同过滤类: ItemCF/UserCF][Embedding类][Dssm/双塔/word2vec][图类召回算法 (Deepwalk.EGES)]

  4. 推荐算法之召回模型:DSSM、YoutubeDNN

    1. DSSM 1.1 DSSM模型原理 DSSM(Deep Structured Semantic Model),由微软研究院提出,利用深度神经网络将文本表示为低维度的向量,应用于文本相似度匹配场景 ...

  5. 推荐系统实战4——EasyRec 搭建DSSM召回模型实现CTR点击平台

    推荐系统实战4--EasyRec 搭建DSSM召回模型实现CTR点击平台 学习前言 EasyRec仓库地址 DSSM实现思路 一.DSSM整体结构解析 二.网络结构解析 1.Embedding层的构建 ...

  6. 推荐系统总结之深度召回模型(上)

    作者:一块小蛋糕 地址:https://zhuanlan.zhihu.com/p/267263561 整理:深度传送门 最近读完了李航.何向南的<Deep learning for matchi ...

  7. 推荐系统[二]:召回算法超详细讲解[召回模型演化过程、召回模型主流常见算法(DeepMF/TDM/Airbnb Embedding/Item2vec等)、召回路径简介、多路召回融合]

    搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排精排重排混排).系统架构.常见问题.算法项目实战总结.技术细节以及项目实战(含码源) 专栏详细介绍:搜索推荐系统专栏简介:搜索推荐全流程讲解(召回粗排 ...

  8. 【datawhale202206】pyTorch推荐系统:召回模型 DSSMYoutubeDNN

    小结 本次所涉及的模型用于推荐系统中的召回环节,该环节主要是一个embedding和筛选,本次所涉及的模型主要用于embedding过程. DSSM双塔模型是指,user和item的embedding ...

  9. 召回模型:DSSM双塔模型

    文章目录 DSSM(2013) DNN for Computing Semantic Features Word Hashing Youtube双塔模型(2019) Modeling Framewor ...

最新文章

  1. 题目1024:畅通工程
  2. python交互式编程入门先学什么_为什么 Python 对于编程入门学习来说,是一门很棒的语言...
  3. JSP关于用户安全退出的问题
  4. iOS 支付宝SDK接入详解
  5. Java——类加载机制
  6. java多功能钟_Java 11将包含更多功能
  7. 今年后,再见Excel,你好python
  8. MySQL基本配置命令总结
  9. python自动翻译excel某一列_【python excel实例教程】怎样用Python将excel的某一列生成一个列表?...
  10. 以太网峰会:网络管理员已成濒危职业
  11. OLE-只读性质的EXCEL
  12. kettle将文件路径定义为_Kettle变量和自己定义java代码的实例应用
  13. python培训拾遗
  14. 关于结构体嵌套的字节大小的问题
  15. NPDP产品经理小知识:商业模式画布的9个构成要素
  16. 同名计算机无法加入域,客户端不能加入域解决方法(同名11850)
  17. python复合赋值语句语法_复合结构的赋值语句理解
  18. python中gt是什么意思_Python中的函数参数有冒号 声明后有-gt; 箭头
  19. MSP432的系统时钟和简单系统定时
  20. layui数据表格中包含图片的处理方式

热门文章

  1. c语言createthread函数用法,CreateThread函数(示例代码)
  2. iphone iOS外设器 比对上期电脑软件修改效果及使用反馈 一键模拟位置 机型通用 一起来捉妖模拟 钉钉模拟位置测试
  3. h5播放m3u8格式视频流
  4. 飞机票换开是什么意思_飞机电影中“按内容编辑”是什么意思?
  5. 鼠标滑轮滚动实现换页
  6. 微软服务器vhd,管理 VHD 文件时出错 - Windows Server | Microsoft Docs
  7. Mac 电脑需不需要每天关机?
  8. IQ_Tuning_Overview
  9. Java 打印功能带预览,自定义纸张大小
  10. JavaScript|你不知道的CSS属性-Filter(滤镜)