CTR模型相关论文,大家已经看了很多了,如FNN、DeepFm、XDeepFM等,难免会"审美疲劳",所以这些模型真的充分挖掘了交叉特征了吗?这篇论文《MaskNet: Introducing Feature-Wise Multiplication to CTR Ranking Models by Instance-Guided Mask》提出了MaskBlock更好的挖掘交叉特征,提升点击率模型的效果。

这篇论文的贡献主要如下:

  • 本文提出了一种instance-guided mask方法,该方法在DNN中的特征嵌入层和前馈层同时使用element-wise product。instance-guided mask包含全局上下文信息,动态地融入到特征嵌入层和前馈层,突出重要的特征。
  • 本文提出了MaskBlock结构,该结构由3个部分组成,分别为instance-guided mask,前馈层,normalization层。通过这种结构,把标准的DNN扩展为包含可加可乘的交互特征结构。
  • 本文提出了排序框架MaskNet,充分利用了MaskBlock作为基本单元,提出了串行MaskBlock和并行MaskBlock。
  • 在3个数据集上,MaskNet都表现最好,说明MaskBlock可以显著提升DNN挖掘复杂交互特征的能力。

Embedding Layer:

关于特征,对于稀疏特征,就直接embedding成k维,对于稠密特征,通过乘一个k维的向量转换成特征,最后把所有特征concat在一起,如下所示:

f表示特征数量,每个特征都映射成了k维度,所Embedding Layer输出了f*k维的特征向量。

Instance-Guided Mask:
通过Instance-Guided,充分利用了输入样本得到的全局上下文信息,对特征层和前馈层中重要的包含信息的特征进行强化,在DNN中引入了乘法操作,使得模型更加有效的捕捉到复杂的交互特征。

如上图所示,两个使用了identity function全连接的FC层,可以注意到

第一个FC层是集成层,为了充分捕捉全局上下文特征,它要比下一层更"宽"。该层的参数为Wd1,这里d表示第d个mask层。第二个FC层是投射层,通过Wd2降低维度,如下所示:

这里要注意projection layer的输出维度要等于feature embedding层或者mlp层,所以z > t,令r = t/z表示衰减比率,是一个超参。

该论文提出使用element-wise product来融合全局上下文信息(提取feature embeding层或前馈网络层特征),如下式所示:

instance-guided mask可以被看作为一种特殊的bit-wise attention或者是gate结构。Vmask可以直接看作为每一个bit的权重,可以加强重要的特征,减弱噪声对模型的影响。其实Vmask有点像之前一篇介绍的SENET双塔,只不过SENET是field-wise mask,这里是bit-wise mask。

MaskBlock:

了解了maskblock中最重要的instance-guided mask后,理解maskblock就很简单了,先简单回顾下layerNorm,如下式所示:

在本文用的LN中,把每个特征都当作layer,做LN后concat在一起,如下所示:

前馈层后同样使用了LN:

最后maskblock如下图所示:

这个maskblock以另一个maskblock的输出和feature embedding layer为输入。相当于在maskblock的强特上,通过Vmask继续筛选强特。这种结构定义如下公式:

MaskNet:

所以最后网络结构长啥样?论文给了两种方案,serial masknet和parallel masknet,如下图所示:

看图还是很好理解的,不赘述。最后prediction layer也比较简单,用logloss就好,还可以加上正则化。

从实验我们可以看到serial masknet和parallel masknet在不同数据集上表现各有优劣,但是相较于其他模型都是最好的。

1.MaskNet: Introducing Feature-Wise Multiplication to CTR Ranking Models by Instance-Guided Mask

这个CTR模型,有点意思

十方@炼丹笔记

MaskNet 这个CTR模型,有点意思相关推荐

  1. 谷歌、阿里们的杀手锏:三大领域,十大深度学习CTR模型演化图谱

    作者 | 王喆 来源 | 转载自知乎专栏王喆的机器学习笔记 今天我们一起回顾一下近3年来的所有主流深度学习CTR模型,也是我工作之余的知识总结,希望能帮大家梳理推荐系统.计算广告领域在深度学习方面的前 ...

  2. 谷歌、阿里们的杀手锏:3大领域,10大深度学习CTR模型演化图谱(附论文)

    来源:知乎 作者:王喆 本文约4000字,建议阅读8分钟. 本文为你介绍近3年来的所有主流深度学习CTR模型. 今天我们一起回顾一下近3年来的所有主流深度学习CTR模型,也是我工作之余的知识总结,希望 ...

  3. 深度学习CTR模型最全演化图谱 [王喆观点]

    毕业于清华大学计算机系的王喆学长回顾了近3年来的所有主流深度学习CTR (click through rate) 模型,并梳理推荐系统.计算广告领域在深度学习方面的前沿进展.内容来源:https:// ...

  4. 【CTR预估】CTR模型如何加入稠密连续型和序列型特征?

    " CTR预估任务中除了广泛使用的稀疏离散型特征外,还会用到稠密连续型以及一些序列类型的特征,本文为大家简要梳理几种特征的处理方式-" 稠密连续类型特征的处理 在点击率预估问题中, ...

  5. CTR预估系列:DeepCTR 一个基于深度学习的CTR模型包

    在计算广告和推荐系统中,CTR预估一直是一个核心问题.无论在工业界还是学术界都是一个热点研究问题,近年来也有若干相关的算法竞赛.本文介绍一个基于深度学习的CTR模型包DeepCTR,具有简洁易用.模块 ...

  6. CTR模型越来越深,如何让它变轻?

    DeepLight: Deep Lightweight Feature Interactions for Accelerating CTR Predictions in Ad Serving 十方@炼 ...

  7. 阿里妈妈搜索广告CTR模型的“瘦身”之路

    前言 随着号称"地表最强"的千亿参数规模GPT-3模型在 NLP 领域横扫各大数据榜单,大力出奇迹的暴力美学似乎成为了大数据场景建模的不二法门.搜索.推荐和广告场景的 CTR 模型 ...

  8. 【CTR模型】TensorFlow2.0 的 xDeepFM 实现与实战(附代码+数据)

    CTR 系列文章: 广告点击率(CTR)预测经典模型 GBDT + LR 理解与实践(附数据 + 代码) CTR经典模型串讲:FM / FFM / 双线性 FFM 相关推导与理解 CTR深度学习模型之 ...

  9. 【CTR模型】TensorFlow2.0 的 DeepFM 实现与实战(附代码+数据)

    CTR 系列文章: 广告点击率(CTR)预测经典模型 GBDT + LR 理解与实践(附数据 + 代码) CTR经典模型串讲:FM / FFM / 双线性 FFM 相关推导与理解 CTR深度学习模型之 ...

最新文章

  1. 1.75亿美元!吴恩达第三锤:宣布成立AI基金AIFund
  2. 放弃深圳1.5万月薪,我准备回农村了!
  3. top在html5里什么意思,html中的scrolltop是什么意思
  4. uos连接服务器共享文件夹,使用UOS系统共享文件给其他设备的的办法
  5. select for update
  6. mysql数据库加载太慢_mysql千万级数据库插入速度和读取速度的调整记录
  7. python好多模块和c相识_快速实现python c扩展模块
  8. SAP UI5 应用指定主题 theme 的几种方式和其优先级
  9. openshift4离线部署_OpenShift 4.2 离线安装补充记录
  10. linux下搭建svn版本控制软件
  11. 操作系统 多线程之优先级翻转
  12. [JavaScript]Call和Apply方法
  13. 苹果手机怎么备份所有数据_数据蛙:微信怎么备份手机通讯录,随时备份和恢复手机联系人!...
  14. 使用Nexus添加jar包到私服里
  15. 晕菜~~~竟然出了这样的事情~~
  16. 微软免费服务器申请教程,2019年8月13日最新免费申请微软OneDrive5TB云盘超详细教程!...
  17. windows10 RocketMQ启动 mqbroker 异常
  18. 为什么冠状病毒从湖北出发传播这么快?
  19. Apache Kylin简介
  20. cadlisp框选打印_我有好多CAD图纸要打印,一张一张的选取打印太麻烦了,请教高手有没有什么好的办法帮小弟一下、!..十分感...

热门文章

  1. 除了谷歌,这些互联网公司的办公室设计也十分酷炫
  2. mmclassification使用步骤与心得/ACCV实验记录
  3. layui 加载loding图标
  4. lly的数列询问(最小生成树 + 思维)
  5. Your IP address is spelled incorrectly问题排查
  6. 文字编辑软件的颠峰作品——Word发展历史全析
  7. EPOCH、INTERATION、BATCH_SIZE的区别
  8. JVM内存区域(Java内存区域)、JVM垃圾回收机制(GC)初探
  9. 牛客竞赛:第三届超越杯程序设计团体赛题解
  10. 陀螺仪、加速度计与MPU6050的关系