前言;

工作中时不时就会有需求,新介质需要添加,或者要另起一个新版本。比如信息流推荐里需要添加微博,小视频,结构体,需要做精英版,极速版等等。而且每次新场景新介质和老场景老介质之间特征有很大差异,不仅独有特征存在差异,共有特征也存在分布的巨大差异。导致老模型在新介质新场景上效果比较差。

这常常困扰着我们,因为新介质没有推全,模型没见过所以推荐效果不好,推荐效果导致我们迟迟又上不了线,反过来影响着模型效果提升,这就成了一个死循环。我们怎么才能更好解决这个问题呢?

介绍一些,之前我们遇到这些情况的解法吧,欢迎拍砖。


一 ,样本挖掘,新老场景的样本分布不一致,我们可以通过加权,正则,采样等方式,过滤出一批目标域近似的样本加强。让源域数据更接近目标域。比如精英版,我们就从老场景中过滤出精英人群消费的样本。通过规则我们尽量挖掘一些和新频道更相关的老样本,从而增强新模型的适应能力。

二 ,我们用新场景有少量相关的样本,可以先用老场景样本训练,再用新场景样本进行fintune。

三, 伪样本

有时候新老场景中新介质之间特征有很大差异,不仅独有特征存在差异,共有特征也存在分布的巨大差异。并且可能老场景中也没有或者很少相关的介质,那咋办呢,我们可以利用老模型,对新场景的内容进行打分,产生伪样本,然后用伪样本对新模型进行训练。如google《Meta Pseudo Labels 》在带标签数据集上训练老师模型,老模型在无标签数据集上生产伪标签,让学生模型学习。

伪样本的制作流程如下

伪样本在使用上,我们还要注意,如果模型已经有了数据,或者是小介质在大场景中,我们需要避免伪样本带来的负迁移。比如我们可以在伪样本训练的过程中新建一个对偶的上层模型,或者对上层做梯度阻断,只让伪样本更新特征向量,减少负迁移的产生。

另外在生成的伪样本上,我们也可以尽量挑选一些模型更置信的样本。如《ESAM: Discriminative Domain Adaptation with Non-Displayed Items to Improve Long-Tail Performance》我们可以通过选择两端模型比较明确的样本,而不是中间老模型也还比较模糊的样本。

四,经验式伪样本,基于的假设是,模型里大量的样本会被模型误判为高分,所以我们依据现有的一些比较致信的经验,制定一批伪样本,辅助模型纠正误差,流程如下图

制定依据的标准有三,1不在用户的画像里,或者用户最近的点击行为分类里,2,模型会对这些内容打高分,3,不是高热内容。规则1是经验上我们可以获取到比较致信的信息,规则2是模型要对这些内容做了误判,规则3是剔除高热导致模型打分高的情况。制定这些规则的依据是,我们认为用户对一个内容感兴趣主要是由三块兴趣组成,第一他的长期兴趣(画像表达),短期兴趣(点击序列表达),以及是否最近热点(统计热度),如果这三样都不符合,但是模型又给打了高分,那大概率是模型存在某些推荐偏差需要进行矫正。

得到伪样本后,可以作为一种负样本,也可以增加一个预估tower,作为最终融合。实践中我们采用了添加一个目标使用,好处有两点,一是直接作为负样本容易影响模型的正负样本比例,二是生成的伪样本量如果不是特别多,作为负样本没有添加目标效果直接。

实践上看,我们发现不仅是对新场景,就是成熟的业务场景中,加入经验式的伪样本,也可以明显提升业务指标,并且对生态指标也起到很好的矫正作用。

当然可以制作负样本,也就可以制作正样本,就不累述了。

类似的思路可以参考百度的《MOBIUS: Towards the Next Generation of Query-Ad Matching in Baidu's Sponsored Search》

《伪样本新场景样本挖掘和适应》相关推荐

  1. ComeFuture英伽学院——2020年 全国大学生英语竞赛【C类初赛真题解析】(持续更新)

    视频:ComeFuture英伽学院--2019年 全国大学生英语竞赛[C类初赛真题解析]大小作文--详细解析 课件:[课件]2019年大学生英语竞赛C类初赛.pdf 视频:2020年全国大学生英语竞赛 ...

  2. ComeFuture英伽学院——2019年 全国大学生英语竞赛【C类初赛真题解析】大小作文——详细解析

    视频:ComeFuture英伽学院--2019年 全国大学生英语竞赛[C类初赛真题解析]大小作文--详细解析 课件:[课件]2019年大学生英语竞赛C类初赛.pdf 视频:2020年全国大学生英语竞赛 ...

  3. 信息学奥赛真题解析(玩具谜题)

    玩具谜题(2016年信息学奥赛提高组真题) 题目描述 小南有一套可爱的玩具小人, 它们各有不同的职业.有一天, 这些玩具小人把小南的眼镜藏了起来.小南发现玩具小人们围成了一个圈,它们有的面朝圈内,有的 ...

  4. 信息学奥赛之初赛 第1轮 讲解(01-08课)

    信息学奥赛之初赛讲解 01 计算机概述 系统基本结构 信息学奥赛之初赛讲解 01 计算机概述 系统基本结构_哔哩哔哩_bilibili 信息学奥赛之初赛讲解 02 软件系统 计算机语言 进制转换 信息 ...

  5. 信息学奥赛一本通习题答案(五)

    最近在给小学生做C++的入门培训,用的教程是信息学奥赛一本通,刷题网址 http://ybt.ssoier.cn:8088/index.php 现将部分习题的答案放在博客上,希望能给其他有需要的人带来 ...

  6. 信息学奥赛一本通习题答案(三)

    最近在给小学生做C++的入门培训,用的教程是信息学奥赛一本通,刷题网址 http://ybt.ssoier.cn:8088/index.php 现将部分习题的答案放在博客上,希望能给其他有需要的人带来 ...

  7. 信息学奥赛一本通 提高篇 第六部分 数学基础 相关的真题

    第1章   快速幂 1875:[13NOIP提高组]转圈游戏 信息学奥赛一本通(C++版)在线评测系统 第2 章  素数 第 3 章  约数 第 4 章  同余问题 第 5 章  矩阵乘法 第 6 章 ...

  8. 信息学奥赛一本通题目代码(非题库)

    为了完善自己学c++,很多人都去读相关文献,就比如<信息学奥赛一本通>,可又对题目无从下手,从今天开始,我将把书上的题目一 一的解析下来,可以做参考,如果有错,可以告诉我,将在下次解析里重 ...

  9. 信息学奥赛一本通(C++版) 刷题 记录

    总目录详见:https://blog.csdn.net/mrcrack/article/details/86501716 信息学奥赛一本通(C++版) 刷题 记录 http://ybt.ssoier. ...

  10. 最近公共祖先三种算法详解 + 模板题 建议新手收藏 例题: 信息学奥赛一本通 祖孙询问 距离

    首先什么是最近公共祖先?? 如图:红色节点的祖先为红色的1, 2, 3. 绿色节点的祖先为绿色的1, 2, 3, 4. 他们的最近公共祖先即他们最先相交的地方,如在上图中黄色的点就是他们的最近公共祖先 ...

最新文章

  1. 轻量级持久层V2版本代码与模板
  2. mysql索引底层实现原理_mysql的索引底层之实现原理
  3. 编程语言中的Lambda 函数是如何产生的 它究竟有什么用
  4. [01-01]oracle数据库汉化
  5. Error from server (Forbidden): Forbidden (user=system:anonymous, verb=get, resource=nodes, subresour
  6. 修改mongodb最大查询数_WebFlux系列(十二)MongoDB应用,新增、修改、查询、删除
  7. sqlwarning mysql_mysql提示[Warning] Invalid (old?) table or database name问题的解决方法
  8. java的joptionpane空白_java – JOptionPane无法正确显示?
  9. 自己工资自己算,策略设计模式(Strategy)
  10. AD7124-4/8芯片的模拟通道、基准、顺从电压、测三线制RTD电路等注意事项
  11. 2021年9月再次更新-日立电梯,艾默生变频器维修图纸,原理图
  12. 使用Mapviz、中科图新 进行机器人GPS轨迹卫星地图绘制
  13. 【裸眼3D】 图形图像空洞填充
  14. ngx_http_core_module模块提供的变量
  15. 正弦余弦指引的乌鸦搜索算法-附代码
  16. 笔记本电脑中预装的office产品不小心被删除了解决方案
  17. Iphone保存html网页,在iPhone上保存网页的最优方式
  18. 修改注册表将日文键盘改成中文键盘
  19. matlab删除行向量里面相同的数据
  20. 破壳——小鸟初识linux

热门文章

  1. 2018程序员拜年的奇思妙想,涨姿势了
  2. nginx: [warn] conflicting server name 这里是域名 eg:abc.com on 0.0.0.0:80, ignored解决方法
  3. Flink 最佳实践之使用 Canal 同步 MySQL 数据至 TiDB
  4. Babel学习之基础学习
  5. winForm c#导出Excel
  6. C语言|博客作业10
  7. ⚡️狂神Linux学习笔记
  8. error: cannot lock ref ‘refs/remotes/origin/master‘
  9. 第一句超浪漫,第二句超不浪漫
  10. 计算9+99+999+……+999999999