来源 | 夕小瑶的卖萌屋作者 | 卖萌酱

众所周知,与CV、NLP不同,搜索、广告、推荐领域的学术界paper在很多问题上喜欢各玩各的,缺乏一个统一可比的benchmark。

就推荐/广告中核心的CTR预估问题来讲,从传统的LR、FM到Wide&Deep、DeepFM、DCN、DFN等花里胡哨的模型,看似模型结构越来越fancy,但真实效果来说,我觉得每个CTR从业者往往都心知肚明:

这么nb的模型,放在我的业务场景里怎么就没了效果捏?

关注CTR问题的小伙伴,可能会对2020年华为发表在CIKM'21的一篇论文有印象:

论文标题:
Open Benchmarking for Click-Through Rate Prediction
论文链接:
https://arxiv.org/pdf/2009.05794.pdf

论文对2007-2020年提出的若干CTR模型做了统一的评测。

然而,

一直到几个月前,这个benchmark才刚刚开源。。。尽管开源行为非常低调,但还是被卖萌酱抓到了,贴上repo链接:

https://github.com/huawei-noah/benchmark/tree/main/FuxiCTR

关于这个CTR Benchmark,下面贴上知乎大佬@失落的萨特 对此的评价[1]:

有些实践经验的小伙伴都知道,迭代了几轮之后的搜索推荐排序模型,模型结构的优化空间是非常小的。很多论文提出的idea,也就在toy dataset上面跑跑,拿到大公司的核心业务场景上,基本没什么用。排除作者恶意灌水之类的问题,原因可能是:

  1. 搜索推荐是个工业场景,对比CV NLP,核心的数据和系统相对闭源,public dataset的特征,样本,数据背后对应的问题,对于大公司核心业务场景来说都太简单了。在这样简单的数据/任务上做的提升,可能是没办法迁移到复杂的真实系统中。

  2. 各个公司发的文章有时候也没办法真正相互借鉴,因为大家的数据和系统还是不同的,系统的完善程度,复杂度,数据的规模,特征的复杂度,系统和用户交互的真实情况,仍然存在很大的差异。说白了公司里面一些小场景做的提升,拿到大场景上就未必有效了,更别提放到其他公司,其他系统,其他数据上。每篇paper都号称吊打SOTA,可惜其实没几篇是真正的SOTA。

  3. 大公司的算法工程师忙着处理数据和迭代系统,大家的日常工作就不是在一个相对固定的环境上冥思苦想,刷分打榜。等工作拿到业务效果,要发paper,PR时候才随便找个公开数据集跑跑,跑出来的实验结论可想而知。综上,其实现在搜推广的research community,面临各说各话,关公战秦琼的窘境,真实有效的方法不多。当然可能其他深度学习领域也是类似的。说回这篇FuxiCTR,做了一个CTR模型的benchmark,在Criteo, Avazu两个数据集上,对比了最近几年经常提到的一些模型。因为是benchmark类的文章,实验做的还是比较严谨的,下面是实验结果:

几点个人看法:

  1. 两个数据集上,SOTA对比DNN大概0.3%, 0.4% CTR AUC的提升。提升幅度终于有点和工作中对的上了=。=,现在一些paper,随便改改网络连接就report几个点的AUC提升,嗯,还沉迷在做科幻作家的状态。

  2. 两个数据集对比大公司核心业务场景的数据,还是toy dataset。二三十个特征,几千万的样本,做explicit feature interaction的模型收敛快,可能会占点便宜。但真实的搜推场景往往是数据源源不断,模型越来越大的,在增量训练的情况下,0.3~0.4%相对DNN的优势都不见得保持住。

  3. 对于这么小的数据集,要做0.3%~0.4% CTR AUC的提升其实有很多其他办法,比如做做特征工程,DNN加大加宽,增量训练,ODL,跨场景正样本迁移等等。

  4. 在上面这些都做过几轮优化的情况下,模型的baseline已经很强了,文中提到的0.3%~0.4%的结构优化提升,可能会收敛到0.1%~0.2%,甚至根本不存在。

总结下,还是希望看到更多FuxiCTR这样的工作,让整个RS/IR community能多点共识,论文和工作能少点割裂。

参考资料

[1]读paper--FuxiCTR: https://zhuanlan.zhihu.com/p/404814833

华为开源CTR Benchmark,学术界SOTAs的照妖镜?相关推荐

  1. 华为开源深度学习框架MindSpore背后的商业野心

    最近华为开源了深度学习框架MindSpore,一时成为了热点.我之前也点评了很多微软.Google.腾讯等厂商的框架,有些点评文章还被官方社区收录,今天为大家解析下MindSpore. 首先阐明下我个 ...

  2. 华为开源构建工具_为什么我构建了用于大数据测试和质量控制的开源工具

    华为开源构建工具 I've developed an open-source data testing and a quality tool called data-flare. It aims to ...

  3. 鸿蒙系统发布IT直播,华为开源平台上线:鸿蒙系统、方舟编译器在列

    华为近日官方宣布,方舟编译器将于8月31日正式开源.这一颠覆式的技术堪称安卓系统性能革命,将带来巨大的性能提升,官方称操作流畅度提升可高达60%. 8月31日凌晨,华为开源平台网站(HUAWEI Op ...

  4. 华为开源构建工具_5个开源工具可快速构建地图应用

    华为开源构建工具 近年来,地理信息系统(GIS)引起的所有关注都可能使您认为它们是新事物. 实际上,超过160年前,地理空间数据在确定1854年伦敦霍乱致命爆发的来源方面发挥了重要作用. 当地医生约翰 ...

  5. 【产品评测】华为开源镜像站体验:美好终将不期而遇

    电脑因为前段时间有问题,昨天刚刚重装好系统,之前一大堆运行环境全部要重新弄--T_T 今天碰上华为开源镜像站体验,那就测试和体验一把吧! 先说说测试环境: 网络:广东电信20M企业光纤 系统:Wind ...

  6. 华为鸿蒙os操作系统有pc版,华为开源操作系统 鸿蒙OS 升级版曝光,打通PC等一大批硬件...

    原标题:华为开源操作系统 鸿蒙OS 升级版曝光,打通PC等一大批硬件 据国内媒体报道,华为鸿蒙系统(HarmonyOS)将于今年9月11日举行的华为开发者大会上发布2.0版本.2019年8月,华为推出 ...

  7. 华为开源平台harmonyos,华为开源平台上线 方舟编译器和鸿蒙系统开源

    原标题:华为开源平台上线 方舟编译器和鸿蒙系统开源 8月31日凌晨华为开源平台网站HUAWEI OpenSource(https://code.opensource.huaweicloud.com/e ...

  8. 即兴小探华为开源行业领先大数据虚拟化引擎openLooKeng

    文章目录 概述 定义 背景 特点 架构 关键技术 应用场景 安装 单台部署 集群部署 命令行接口 连接器 MySQL连接器 ClickHouse连接器 概述 定义 openLooKeng 官网地址 h ...

  9. 华为鸿蒙pc系统试用版,华为开源操作系统 鸿蒙OS 升级版曝光,打通PC等一大批硬件...

    原标题:华为开源操作系统 鸿蒙OS 升级版曝光,打通PC等一大批硬件 据国内媒体报道,华为鸿蒙系统(HarmonyOS)将于今年9月11日举行的华为开发者大会上发布2.0版本.2019年8月,华为推出 ...

最新文章

  1. 运维之我的nginx短篇教程
  2. 【攻防世界009】流浪者
  3. java 32位jdk_jdk9 32位下载 jdk9.0(Java SE Development Kit 9) v9.0.4 官方版 32位 下载-脚本之家...
  4. Mabtyis无侵入式编程
  5. FreeBSD基本命令[转]
  6. springAop的底层技术
  7. USB 设备类代码表
  8. 内嵌tomcat启动速度慢
  9. latex表插入的位置不对_VSCode_LaTex_英文amp;中文配置
  10. centos 修改时区及NTP时间同步
  11. 怎么单选_听力三个选项都出的单选怎么破?| 附今日听力S1S2及听力原文
  12. 【POJ1064】Cable master(二分搜索+浮点判断处理)
  13. 关于sybase数据库的连接
  14. 频谱分析仪的作用是什么?TFN FAT811手持式频谱分析仪
  15. 华为防火墙(NGFW)的双机热备
  16. jquery 自动触发 标签的click()方法
  17. slides.com 导出PDF
  18. SCCB协议 verilog状态机定时器
  19. Rotating reference frame
  20. 编译原理学习笔记(七)~LR(0)分析

热门文章

  1. WebX Qamp;A
  2. GIT如何查看本地分支与远程分支的关联配置(git branch --set-upstream)
  3. 老男孩博客获三大搜素引擎搜索自然排名第一位(百度谷歌搜狗)
  4. 去除快捷方式中的“快捷方式”字样
  5. polyrate使用方法_pytorch必须掌握的的4种学习率衰减策略
  6. 如何在html页面循环回显数据,从while循环显示数据到html代码
  7. Linux学习(四)---用户管理
  8. 如何加快Gensim Word2vec模型加载时间?
  9. 省高校计算机等级考试二级,湖南省高校计算机等级考试二级考试0810.ppt
  10. 如果只推荐一本 Python 进阶的书,我要 Pick 它!