作者:一元,公众号:炼丹笔记

MiNet: Mixed Interest Network for Cross-Domain Click-Through Rate Prediction(CIKM20)

点击率预测是在线广告系统中的一项重要任务。现有的工作主要针对单域CTR预测问题和模型方面,如特征交互、用户行为历史和上下文信息。然而,广告通常以自然内容显示,这为cross domain的CTR预测提供了机会。本文解决了这个问题,并利用辅助数据,从源领域,以提高CTR预测性能的目标领域。

我们的研究是基于UC Toutiao(一个与UC浏览器应用程序集成的新闻订阅服务,每天为数亿用户提供服务),其中源域是新闻,目标域是广告。为了有效地利用新闻数据预测广告的点击率,我们提出了混合兴趣网络(MiNet),它联合建模了三个领域用户兴趣类型:

  • 跨域的长期兴趣;
  • 源域的短期兴趣;
  • 目标域的短期兴趣。

MiNet包含两个层次的attention,其中item-level的attention可以自适应地从点击的新闻/广告中提取有用信息,interest-level可以自适应地融合不同的兴趣表示。离线实验表明,MiNet的预测性能优于几种最新的CTR预测方法。我们在UC头条部署了MiNet,A/B测试结果表明在线CTR也得到了实质性的改善。

为了有效的利用cross-domain的数据,本文考虑了三类用户兴趣:

  • Long-term interst across domain: 每个用户都有自己的个人资料功能,如用户ID、年龄组、性别和城市。这些配置文件特性反映了用户的长期内在兴趣。基于跨域数据(即用户与之交互的所有新闻和广告),我们能够了解到语义更丰富、统计上更可靠的用户特征嵌入。
  • Short-term interst from the source domain:对于要预测其CTR的每个目标广告,在源域中存在相应的短期用户行为(例如,用户刚刚观看的新闻)。虽然一条新闻的内容可能与目标广告的内容完全不同,但它们之间可能存在一定的相关性。例如,一个用户在观看了一些娱乐星闻之后有很大的概率点击一个游戏广告,基于这样的关系,我们就可以从源域中的有用的信息迁移到目标域中。
  • Short-term interest in the target domain:对于每个目标广告,目标域中也存在相应的短期用户行为。用户最近点击的广告可能对用户在短期内点击的广告有很大的影响。
  1. 并不是所有点击的新闻都表示目标广告的点击率;
  2. 不是所有点击的广告都是关于目标广告点击率的信息;
  3. 模型必须能够将信息从新闻传递到广告;
  4. 这三种用户兴趣的相对重要性在不同的目标广告中可能有所不同;例如,如果目标广告与最近点击的广告相似,那么目标领域的短期利益应该更重要;如果目标广告与最近点击的新闻和广告都无关,那么长期利益应该更重要。
  5. 目标广告和用户感兴趣的三种类型的广告的表示可能具有不同的维度(由于特征的不同数量)。尺寸差异可能会自然地增强或减弱某些表示的影响,这是不希望看到的。

为了应对这些挑战,我们提出了混合兴趣网络(MiNet),其结构下所示。在MiNet中,

  • 用户的长期兴趣通过用户特征嵌入Pu的串联建模,Pu是基于跨领域数据的联合学习,实现了知识的传递;
  • 来自源领域的短期兴趣通过向量as来建模,as聚合了最近点击的新闻信息;
  • 目标域中的短期兴趣是通过向量at来建模的,它聚集了最近点击的广告的信息。

MiNet包含了了两种不同的attention(item-level的和interest-level的),

  • item-level的attention同时用于source-domain以及target-domain,我们希望通过此可以直接从source domain和target domain中点击的新闻和广告中抽取有用的信息;(解决上述的挑战1和2)
  • transfer的矩阵被引入用来从新闻到广告的迁移;(解决上述的挑战3)
  • long-term的用户兴趣是基于cross-domain的数据学习的,也可以进行知识迁移(解决上述的挑战3);
  • 引入interest-level的attention动态调整三类用户兴趣的重要性, 关于不同的目标广告(解决上述的挑战4);
  • 线下和线上的实验结果表明了MiNet的有效性;

在线广告点击率预测的任务是建立一个预测模型来估计用户点击特定广告的概率,每个实例可以用用户信息(“用户ID”、“城市”、“年龄”等)和广告信息(“创意ID”、“活动ID”、“标题”等)以及个字段来描述。字段的实例化是一个特性。例如,“用户ID”字段可以包含诸如“2135147”和“3467291”之类的特征。表1显示了一些示例。

  • 我们定义cross-domain CTR预测任务为从source domain中利用数据来提升目标域的CTR预估。

在新闻提要广告中(如图1所示的UC Toutiao),源域是自然新闻提要,目标域是广告。在这个场景中,源域和目标域共享同一组用户,但是没有重叠项。

给定一个用户,对于在目标域中预测其CTR的每个目标广告,用户通常在源域中查看新闻片段。虽然一条新闻的内容可能与目标广告的内容完全不同,但它们之间可能存在一定的相关性。例如,用户在观看一些娱乐新闻后很有可能点击游戏广告。基于这些关系,我们可以将有用的知识从源领域转移到目标领域。

item-level的Attention

给定一个用户,对于每个要预测其CTR的目标广告,该用户在目标域中也有最近的行为。用户最近点击的广告可能对用户在短期内点击的广告有很大的影响。

1. Effectiveness

  • MiNet不仅考虑了用户的长期兴趣,还考虑了用户对这两个领域的短期兴趣。通过适当地组合这些不同的兴趣信号,MiNet算法的性能明显优于其他方法.

2. Ablation Study: Level of Attention

  • 无论是item-level attention还是interest-level attention都能提高AUC,两种注意水平的使用都能提高AUC。此外,“兴趣-Attention(sigmoid)”的表现比“兴趣-Attention(exp)”差得多。这是因为不恰当的激活函数不能有效地解决维度偏差问题。这些结果证明了所提出的层次注意机制的有效性。

3. Ablation Study: Effect of Modeling Different Types of User Interest

  • 当在MiNet中综合考虑所有这些因素时,我们得到了最高的AUC,表明不同类型的兴趣可以互补,联合建模可以得到最佳和更健壮的性能。

4. Online Deployment

  • 在线A/B测试表明,与DSTN相比,MiNet使在线CTR提高了4.12%。

本文研究了在线广告的跨域CTR预测问题。我们提出了一种新的方法,称为混合兴趣网络(MiNet),它模拟了三种类型的用户兴趣:

  • 跨域的长期兴趣;
  • 源域的短期兴趣;
  • 目标域的短期兴趣。

MiNet包含两个level的注意,其中item-level attention可以动态地从最近点击的新闻/广告中提取有用信息,interest-level attention可以自适应地调整不同用户兴趣信号的重要性。离线实验验证了三种用户兴趣模型的有效性和分层注意的使用。在线A/B测试结果也验证了该模型在实际网络广告CTR预测任务中的有效性。

  1. MiNet: Mixed Interest Network for Cross-Domain Click-Through Rate Prediction:https://arxiv.org/pdf/2008.02974.pdf
更多干货,请关注微信公众号:炼丹笔记

传送门:

跨域CTR预估,带你一飞冲天!

推荐搜索炼丹笔记:MiNet阿里跨域点击率CTR预估相关推荐

  1. 点击率预估模型汇总_CIKM20MiNet:阿里|跨域点击率预估混合兴趣模型

    " 本文介绍了阿里提出的一种利用跨域信息的CTR预估模型,基于UC头条的应用场景,将新闻feed流作为源域,广告作为目标域.跨域点击率预估的最大优势在于通过使用跨域数据,目标域中的数据稀疏和 ...

  2. 【论文解读】CIKM20-MiNet:阿里|跨域点击率预估混合兴趣模型

    " 本文介绍了阿里提出的一种利用跨域信息的CTR预估模型,基于UC头条的应用场景,将新闻feed流作为源域,广告作为目标域.跨域点击率预估的最大优势在于通过使用跨域数据,目标域中的数据稀疏和 ...

  3. 推荐搜索炼丹笔记:双塔模型在Airbnb搜索排名中的应用

    作者:一元,公众号:炼丹笔记 Improving Deep Learning For Airbnb Search(KDD20) 本文是一篇偏实践的文章,不讲太多虚的,什么有效什么无效,您请细品! 将深 ...

  4. 推荐算法炼丹笔记:阿里序列化推荐算法MRIF

    MRIF: Multi-resolution Interest Fusion for Recommendation(SIGIR2020) 作者:一元,公众号:炼丹笔记 背景 本文分享阿里的最新的工作, ...

  5. 推荐算法炼丹笔记:阿里序列化推荐算法ComiRec

    作者:十方 公众号:炼丹笔记 Controllable Multi-Interest Framework for Recommendation 1.ComiRec与众不同之处 该论文是阿里在2020年 ...

  6. 推荐搜索炼丹笔记:SIM 用户行为序列点击率预估模型

    作者:十方,公众号:炼丹笔记 Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click- ...

  7. 推荐搜索炼丹笔记:向量召回 MIND多兴趣双塔模型

    作者:十方,公众号:炼丹笔记 熟悉双塔的人都知道,在用户侧,模型最后往往都生成一个向量去检索,这个向量不足以表达用户的多兴趣,<Multi-Interest Network with Dynam ...

  8. 阿里妈妈广告点击转化率(CTR)预估项目(附github代码)

    赛题与数据:https://tianchi.aliyun.com/competition/entrance/231647/introduction?spm=5176.12281957.1004.3.3 ...

  9. 推荐算法炼丹笔记:序列化推荐系统

    作者:一元 公众号:炼丹笔记 特约审稿:杰少 背景 序列推荐系统(SRS)不同于传统推荐系统(RSs)包括协同过滤和基于内容的过滤,SRSs试图理解和建模用户的连续行为.用户与物品之间的交互作用以及用 ...

最新文章

  1. 网络协议是什么?—Vecloud微云
  2. 闭包引起的onclick不起作用
  3. js 层 分页显示选择用户名
  4. Android中attrs.xml文件的使用详解
  5. C#实现网页加载后将页面截取成长图片
  6. apk图标存放位置_安卓系统下安装完apk程序后,具体的文件夹位置在哪里呢?
  7. struct linger
  8. 手机有一个时钟的标志_STM32F7系统配置控制器(SYSCFG)及复位和时钟控制(RCC)...
  9. ROS rqt、rviz
  10. jaeger client java_Uber工程团队的开源分布式追踪系统Jaeger(java实现)
  11. 数据流中的中位数 c语言,41 数据流中的中位数(时间效率)
  12. asp.net调用前台js调用后台代码分享
  13. LayaAir UI组件 # List 列表、ProgressBar 进度条
  14. apk反编译 Android apktool下载 dex2jar下载 jd-gui下载
  15. git rebase
  16. unity的ngui的字体变形问题
  17. 荧光平均值计算matlab,科学网—使用Image J进行自动荧光定量分析 - 陆绮的博文...
  18. DASCTFNepCTF 部分writeup
  19. matlab如何形成exe,matlab生成exe独立运行包
  20. cad哪个版本最好用?思路提供

热门文章

  1. BZOJ4698: Sdoi2008 Sandy的卡片
  2. (转)虚函数和纯虚函数区别
  3. C++跨平台IDE之CodeBlocks
  4. VS.Net 开发 MSN一样缓慢出来的提示信息的方法
  5. 从蛋白质结构到功能的生物信息学研究 From Protein Structure to Function with Bioinformatics PDF
  6. 第二天学习Java的笔记
  7. Linux(二)——基础入门(2)
  8. JavaSE(一)——HelloWorld
  9. 2.7.3 ecshop php7.1_ECshop 迁移到 PHP7版本时遇到的兼容性问题
  10. Deepin 15.7安装教程