▐ 摘要

电商场景的多目标模型预估，包括加购率，转化率，进店，时长等等。在展示广告领域，多目标体现了广告主对自己真实诉求的表达，因此，多目标模型既是技术项目，也有强烈的业务属性。广告排序系统，从上到下包含产品设计，机制策略，精排，粗排，召回，索引等多个模块。整个系统能否从上游业务承接到下游底层实现，理解和传达广告主的目标诉求是重中之重，多目标模型面临很多与 CTR 预估不同的问题。

样本反馈延迟性： 购买行为发生在点击后，且不确定间隔时间。这一点在大促期间更明显。这导致我们训练模型的时候负样本包含两种不确定情况，即真负样本（用户不购买）和假负样本（用户会在未来的某个时刻购买）。如何既利用这部分负样本，又降低这部分样本带来的不确定性是我们亟待解决的问题。样本延迟建模是多目标模型区别于 CTR 模型的最主要的子方向之一。

购买行为稀疏性： 相比于点击用户行为，加购、购买的用户行为数据准确而稀疏。数据量不充足将直接影响复杂模型的学习效果。那么如何利用稀疏数据设计模型，高效掌握用户兴趣是研究重点。因此，我们有兴趣分层建模研究子方向，专门解决这类问题。

多目标任务关联性： 加购和购买具有较强的相关性，比如先加购后购买。区别于点击行为，一个用户的加购、购买、进店、关注等行为会有明显的目标相关性。业界也有ESMM，MMOE，PLE等模型。这个方向专注于构建统一模型，既利用多任务之间的关联性，又能够避免优化方向上的冲突，同时还能解耦统一建模带来的迭代瓶颈问题。

本文着重介绍样本延迟建模，这个方向解决购买行为晚于点击导致的延迟反馈问题。2020年6月起，我们通过多任务延迟建模结构，使天级 CVR 模型可以识别和利用近期尚未转化的样本；并建立考虑延迟建模问题的实时模型方法（ODL）。该项工作论文已发表在KDD 2021《Real Negatives Matter: Continuous Training with Real Negatives for Delayed Feedback Modeling》 [1]。本文将围绕天级和实时两个角度为大家分享，欢迎交流讨论。

论文下载：https://arxiv.org/abs/2104.14121

▐ 1 精排天级样本延迟建模（Offline Defer）

1.1 背景

在转化数据稀疏的情况下，即使淘系的数据量，也并非所有场景都可以通过实时ODL模型获得收益，甚至效果还会更差。因此，天级转化样本延迟建模方案，是多目标模型优化的重要方向。

场景发生广告点击后，用户7天之内发生购买，都会归因到这条广告。由于购买行为的发生晚于点击很多，因此，天级模型训练的时候，最近几天的 label 很可能不准确。针对这个问题，常用做法是：

第一、以7天前数据进行模型训练，可以得到7天转化模型，但是7天内样本缺失会使模型捕捉不到近7天的数据分布变化。

第二、以1天归因转化 label 进行模型训练，可以保证时效性。但由于 n 天后才转化的样本都被标记成了负样本，这样的模型对转化周期长的样本，比如某些很贵的商品，显然是有偏的。

因此，我们的问题是，如何有效利用近6天样本，去优化7天归因转化的天级模型。我们提出一种天级样本延迟建模方式，通过一个端到端的多任务网络结构，同时建模转化模型和时延模型，隐式的通过时延模型影响实际转化模型的标签分布，达到准确学习7天转化模型的目的。

1.2 解决方案

设计思路： 既然观测到的负样本包含假负样本，一个直观的想法是能否分别建模转化模型和时延模型，然后通过时延模型预估这条样本到模型训练时刻已经发生转化的概率，作为该负样本的不确定性，从而给每条负样本一个合理权重，降低假负样本带来的影响。那么首先一个问题，淘系的商品的转化时延，是可建模的吗？于是我们进行调研，按照分类，统计某场景归因的1天转化/7天转化的比值来看，不同分类的转化周期有明显差异。按照用户购买力统计，也是类似结论。基于上述分析，转化周期（时延模型）在淘系广告产品是可建模的。

2014年 Olivier Chapelle 和 Yuya Yoshikawa 等人 [4] 针对这个问题提出过解决方案，但他们的方案对转化模型和时延模型分开建模，且假设服从指数分布。这个假设并不合理，并且分开建模也损失了两个模型的关联。因此，我们思考，能否通过一个端到端的网络同时建模转化模型和时延模型，更方便的解决样本延迟问题。

数据流程： 天级生成转化样本，每个样本包含7个 label，,,…,。每个 label 表示截止第 n 天，这天样本是否发生转化。7天前的样本都可以按照通常的逻辑生成样本。7天以内的样本，由于尚未到达归因结束的时间，因此这部分负样本随时间推移有可能因为用户的突然转化，而变成正样本。因此，7天以内的样本需要每天更新一次 label。

网络结构： 区别于相关工作的方案，我们直接建立端到端训练的多任务模型。如图所示，网络结构最后一个后端是转化模型，简写为 P(7)，表示7天可以发生转化的概率。类似的简写是 n 天转化模型。网络结构前几个结点是时延模型，表示7天内可以发生转化且在第 n 天已经发生转化的概率，=1,2,..,6。那么，截止第 n 天可以收到正样本的概率最终7天转化的概率前 n 天发生转化的概率。每一个后端通过“样本到第 n 天是否已经发生转化”的信息进行监督。这样，即使部分样本尚未到7天归因时间，模型也可以利用前7天内的样本，通过的反向传播训练7天转化率。具体训练方式：

7天以前的样本，由于 n 个后端的 label 存在，可以同时学习和相关参数；
7天以内化样本，假设时延分布不变，间接学习相关参数。比如4天内的样本，的后端可以拿到完整 label，并参与训练。的后端则不参与梯度回传。

▐ 2 精排实时样本延迟建模（Online Defer）

2.1 背景

我们统计发现，即使大盘加购率/转化率，在1天内也会有超过20%的变化。因此，判断实时多目标模型存在收益空间。由于购买行为的发生晚于点击很多，因此，如果直接复用CTR实时样本流，10分钟的等待窗口会导致数据流拿到的负样本比例明显虚高。因此，观测样本分布与实际样本分布会有明显差异。

所以需要解决的问题是：如何在流式环境下，拿到尽可能正确的多目标观测样本，并通过建模方法求解真实分布下的转化率预估模型。我们提出一种可以从理论上保证观测边缘分布等于真实边缘分布的方法，并利用重要度采样方法求解真实分布下的多目标预估模型。

2.2 解决方案

设计思路： 一个可行的方案是，样本池里的样本先全部作为负样本，发送给模型训练。等正样本回流的时候，再以补偿正样本的方式以样本流形式发送给模型。这样，因为正样本都先作为负样本给模型训练多发了一次，模型训练时，观测到的样本分布和实际样本分布就会出现不一致。假设真实分布是，观测分布是，由于多加了补偿样本，那么。对于模型，我们希望在下求解。这个求解过程，本质是在观测分布下，求取原真实分布期望的问题。这类问题可以用重要度采样方法求解。假设模型是 θ，参数为 θ，是损失函数，那么的模型 θ 的损失在真实分布下的期望L就是：

这里有个很强的假设，边缘分布。因此，我们进一步思考，如何设计可以让这个假设成立。

数据流程： 因为部分用户会“立即加购”或“立即购买”，部分正样本会很快回流。因此，为避免一些不必要的假负样本，我们建立一个数据流等待10分钟窗口，窗口时间到达时向样本流发送正负样本。10分钟外发生正样本再以补偿样本形式进入样本流。具体的如下图。首先，用 Holo 外存保存7天的样本存储作为归因逻辑的样本池。曝光发生10分钟后，未发生加购/转化行为的样本都作为负样本进入样本流。当实时的用户正样本进入到tt数据流之后，与7天存储的样本进行归因，再将归因后的补偿正样本注入样本流。

数据边缘分布： 通过上述数据流构造，如下图，设真实样本的边缘分布是，观测样本分布。那么会比多出一部分重复（Duplicated）的假负样本（Fake Negative）。因此，。因为重要度采样方法有隐含的假设，边缘分布，因此，这个差异会影响模型的精度。

真负样本和真正样本引入： 为了解决上述的分布差异，我们将7天存储池里面，7天都没有发生加购的样本，再作为补偿负样本，注入到样本流。数据流程如下图：

同时，我们给窗口内真正样本2倍的训练权重。于是，如下图，虽然样本流看到2倍数量的样本，但是，通过引入真负样本和真正样本，新的观测分布。观测样本构成如下图：

损失函数： 在边缘数据分布一致的情况下，观测分布下求解 p(y=1|x)。推导后的损失函数为：

其中，[.]表示阻止梯度回传，是独立训练和更新的分类器，用来预估假负样本(Fake Negative)的概率。

真负样本近似： 对于最终未转化的负样本，如果最终等到7天之后再补偿进入样本流，可能会一定的时效性问题，另外真负样本的引入还涉及到线上链路的改造，实现成本过高。综合考虑这些问题，我们采用了一种近似补偿真负样本的方式：我们会设置另一个 RelNeg 窗口，例如90分钟~1天，如果样本未在该窗口内转化，样本会被作为近似补偿真负样本引入到样本流中，我们实验发现，由于时效性的增强，近似真负样本可以取得比真实真负样本更好的效果。样本流程如下图：

▐ 总结

在样本延迟反馈建模这个问题上，我们针对不同场景的特性和业务诉求，提出了天级样本延迟建模和实时样本延迟建模的不同解决方案。针对天级建模样本标签不确定的问题，我们使用一个多任务的结构，同时建模转化模型和时延模型，隐式的通过时延模型影响实际转化模型的标签分布；针对实时样本延迟建模问题，我们在样本流中引入标签确定的补偿样本，通过平衡标签的确定性和模型的实时性，取得了相对天级模型进一步的收益。

目前我们的工作主要集中在样本延迟建模，未来我们会将这部分工作与购买行为稀疏性问题和多目标任务关联性问题结合，实现更加精准的预测，理解和传达广告主的目标诉求，提升广告主的营销能力。

参考文献

[1] Siyu Gu, Xiang-Rong Sheng, Ying Fan, Guorui Zhou, Xiaoqiang Zhu. 2021. Real Negatives Matter: Continuous Training with Real Negatives for Delayed Feedback Modeling. In Proceedings of the 27th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.

[2] Sofia Ira Ktena, Alykhan Tejani, Lucas Theis, Pranay Kumar Myana, Deepak Dilip-kumar, Ferenc Huszár, Steven Yoo, and Wenzhe Shi. 2019. Addressing Delayed Feedback for Continuous Training with Neural Networks in CTR Prediction. In Proceedings of the 13th ACM Conference on Recommender Systems. 187–195.

[3] Jia-Qi Yang, Xiang Li, Shuguang Han, Tao Zhuang, De-Chuan Zhan, Xiaoyi Zeng, and Bin Tong. 2021. Capturing Delayed Feedback in Conversion Rate Prediction via Elapsed-Time Sampling. In Proceedings of the 35th AAAI Conference on Artificial Intelligence. 4582—4589.

[4] Olivier Chapelle. 2014. Modeling delayed feedback in display advertising. In Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 1097–1105.

END

欢迎关注「阿里妈妈技术」

疯狂暗示↓↓↓↓↓↓↓

KDD 2021 | 一种使用真负样本的在线延迟反馈建模相关推荐

MoCo 动量对比学习——一种维护超大负样本训练的框架
MoCo 动量对比学习--一种维护超大负样本训练的框架 FesianXu 20210803 at Baidu Search Team 前言在拥有着海量数据的大型互联网公司中,对比学习变得逐渐流行起来 ...
目标检测误检与负样本问题
在做目标检测算法模型的时候,有时候会遇到模型预测,效果不好,或者误识别的情况(明明人眼都能识别出来的东西, 模型却识别错误,像狗识别成猫都好理解,但会遇到一个衣服会识别成猫的),出现这些误检问题分几种 ...
直播 | KDD 2021论文解读：基于协同对比学习的自监督异质图神经网络
「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...
KDD 2021 | Neural Auction: 电商广告中的端到端机制优化方法
▐ 导读拍卖机制设计一直是计算广告领域的核心问题,在本文中我们将机器学习和机制设计方法深度融合,提出一种基于深度神经网络建模的电商广告拍卖机制,并在满足 Value 最大化广告主激励兼容的机制解空 ...
负样本为王，百篇论文概览负采样方法的前世今生
文|徐澜玲源|RUC AI Box 目录 1. 研究背景 1.1 什么是负采样? 1.2 为什么需要负采样? 1.3 为什么需要高质量的负采样? 2. 负采样方法分类梳理 2.1 静态负采样 2.2 ...
用上GAN的推荐算法成精了，看完视频马上刷出相关文章丨KDD 2021
萧箫整理自 KDD 2021 量子位报道 | 公众号 QbitAI 这年头,推荐算法真是越来越智能了. 举个栗子,当你热衷于东京奥运会并且刷了不少剪辑视频,APP就会根据你的品味为你推荐文章.游戏 ...
对比学习效果差？谷歌提出弱语义负样本，有效学习高级特征！
文 | jxyxiangyu 编 | 小轶对比学习是 2021 年几大研究热点之一了.如果说预训练模型解决了机器学习对大规模标注数据的需求问题,那么,对比学习可以说是将无监督/自监督学习推广到更一般 ...
SIGIR'21「微软」：强化学习过滤负样本噪声提升点击率
title:RLNF: Reinforcement Learning based Noise Filtering for Click-Through Rate Prediction link:http ...
第十二届蓝桥杯 2021年省赛真题 (Java 大学B组) 第一场
蓝桥杯 2021年省赛真题 (Java 大学B组 ) #A ASC #B 卡片朴素解法弯道超车 #C 直线直线方程集合分式消除误差平面几何 #D 货物摆放暴力搜索缩放质因子 #E 路径 ...

KDD 2021 | 一种使用真负样本的在线延迟反馈建模