IJCAI-18 阿里妈妈搜索广告转化预测 初赛Top2%思路

源码链接

赛题回顾

搜索广告的转化率,作为衡量广告转化效果的指标,从广告创意、商品品质、商店质量等多个角度综合刻画用户对广告商品的购买意向,
即广告商品被用户点击后产生购买行为的概率。

本赛题给出了某月18日到24日的数据作为训练集,并从25日的数据中(按用户?)抽取30%的数据作为A榜测试集,
70%的数据作为B榜测试集,预测某一次点击后产生购买行为的概率。损失函数使用二分类中常用的logloss。

比赛链接

解决方案

本次赛题提供的数据主要包括各种id类特征、用户特征、广告商品特征和店铺特征,基于CTR预估的特点,将特征工程的重心放在用户相关的特征构造上,
并且与其他统计特征相结合,对于得到的特征集合,采用wrapper方式的特征选择方法选出最优的特征子集。最后用不同的特征组训练了两个LightGBM进行模型融合。
代码为初赛方案,复赛数据量太大,跑不动。

数据划分

训练集 测试集
线下 19-23日 24日
线上 19-24日 25日

线下采用24号数据进行简单交叉验证,之所以没使用k折交叉验证,主要是因为用到了和时间相关的特征,k折交叉验证不如简单交叉验证可靠。

是否使用18号的数据一直是我很纠结的一个问题,因为18号的数据无法使用滑窗特征(即对前一天的各种统计),并且对于我构造的一个强特(当前点击距上一次点击的间隔时间),18号的数据也无法很好的利用这个强特;另一方面,由于这次赛题提供的数据量较少(只有七天时间),所以去掉其中一天不可避免的会带来一定的损失,问题就是看你利用滑窗构造的特征和强特的重要程度。

原始特征不到30维,而lgb1中共构造了100多维特征,这时候滑窗特征和强特只占其中的一小部分,所以lgb1中使用了18号的数据;lgb2只在原始特征基础上只增加了滑窗特征和强特等10维左右的特征,因而没有使用18号的效果反而更好。

数据处理

  • id类特征转化为该id对应的平滑后的历史转化率(实际中效果不理想故而舍去)

  • 文本向量特征(广告属性列表等)使用CountVectorize向量化,取词频最高的前几十维作为特征(实际效果提升不大,用
    PCA降维或SVD分解可能更好)

  • 类别特征(用户职业、用户性别等)进行one-hot编码,当然也可以在LightGBM中设置类别特征

  • 时间戳特征转化为时间特征(天,小时)

  • 缺失值默认为-1,因为缺失值较少且LightGBM和XGBOOST都可以自动处理缺失值,所以不需处理

特征工程

特征构造

主要从以下几个方面构造特征,和很多其他队伍一样,其中也用到了一些data leakage,这部分特征实际业务中是无法获取的:

  • 全局统计特征

    • 用户统计特征
    • 商品统计特征
    • 用户和商品组合统计特征
    • 用户和店铺组合统计特征
    • 店铺和商品组合统计特征
  • 滑窗统计特征

    • 前一天同一用户查询次数、购买次数和转化率(平滑后)
    • 前一天同一商品被查询次数、被购买次数和转化率(平滑后)
    • 前一天同一店铺被查询次数、被购买次数和转化率(平滑后)
  • 数值特征两两交叉(四则运算)

  • 线上统计特征

    • 今日用户查询次数
    • 今日当前一小时内用户查询次数
    • 今日用户查询同一商品的次数
    • 今日用户查询同一店铺的次数
  • 构造的几个强特

    • 用户这次查询距上一次查询的时间(秒)
    • 用户这次查询距上一次查询的时间(分钟)
    • 用户这次查询距下一次查询的时间(存在data leakage)
    • 用户这次查询同一商品距上一次的时间
    • 用户这次查询同一商品距下一次的时间(存在data leakage)

特征选择

特征选择借鉴了技术圈战友开源的方案https://github.com/duxuhao/Feature-Selection 。

大体思路是使用wrapper的方式,结合前后向搜索算法筛选特征,然后通过随机策略解决前后向搜索易陷入局部最优解的问题,当然这个代码还包含了构造交叉特征的方法,在实际中我并没有采用,而是事先手动的构造交叉特征再去筛选。

模型融合

模型融合的时候,考虑到用到了一些时间相关特征,所以用stacking的方法不会很理想(因为stacking要使用到k折交叉验证),所以我采用了加权平均融合的方法。最后在融合提交的时候出了一点小问题,导致正确的融合后地结果没有提交成功,如果成功融合的话或许可以再提高一些成绩,算是一点遗憾吧。

IJCAI-18 阿里妈妈搜索广告转化预测 Top2%思路相关推荐

  1. 天池- IJCAI-18 阿里妈妈搜索广告转化预测新手入门经历(一:数据预处理、特征工程)

    第一次正式参加数据挖掘类的比赛,投入了三个星期.结果没有进入复赛,但是学到了许多经验.感谢技术圈和github的大佬们提供的baseline,让我少走了很多弯路. 第一次写博客,其一为了防止以后忘记, ...

  2. 2018年阿里妈妈搜索广告转化预测

    了解数据 提供了user,item,context,shop相关的数据 instance_id不作为特征,但是能看出来,实际上有重复instance_id的数据 item_id 全数据要比train多 ...

  3. 阿里妈妈搜索广告CTR模型的“瘦身”之路

    前言 随着号称"地表最强"的千亿参数规模GPT-3模型在 NLP 领域横扫各大数据榜单,大力出奇迹的暴力美学似乎成为了大数据场景建模的不二法门.搜索.推荐和广告场景的 CTR 模型 ...

  4. 2篇CIKM详解阿里妈妈搜索广告CTR模型如何低碳瘦身

    作为<阿里妈妈搜索广告CTR模型的"瘦身"之路>的姊妹篇,本文将结合团队发表的 CIKM 2021 两篇论文,详解我们在模型瘦身之路上的延续性思考与实践.姊妹篇已经总结 ...

  5. 一口气放出三篇SIGIR论文!详解阿里妈妈搜索广告CTR模型演进

    欢迎关注:阿里妈妈技术公众号 本文作者:石士 阿里妈妈技术团队​ 1 引子 点击率预估(a.k.a. CTR模型)在搜索.推荐和广告等互联网应用中扮演了至关重要的角色.随着深度学习技术的快速发展,CT ...

  6. 竞赛|数据竞赛Top解决方案开源整理-科大讯飞AI营销算法、阿里妈妈搜索广告、腾讯广告算法、搜狗的用户画像

    https://mp.weixin.qq.com/s/_4QG0dWhh784lF0n1wymcw

  7. IJCAI-18 阿里妈妈广告转化预测

    IJCAI-18 阿里妈妈搜索广告转化预测总结(0.13966,53/5204) 赛题内容 本次比赛以阿里电商广告为研究对象,提供了淘宝平台的海量真实交易数据,参赛选手通过人工智能技术构建预测模型预估 ...

  8. 【万字干获】阿里妈妈搜索推荐广告预估模型2021思考与实践

    省时查报告-专业.及时.全面的行研报告库 省时查方案-专业.及时.全面的营销策划方案库 知识图谱在美团推荐场景中的应用实践 搜索场景下的智能实体推荐 机器学习在B站推荐系统中的应用实践 小红书推荐系统 ...

  9. 阿里妈妈展示广告预估校准技术演进之路

    来源:DataFunTalk本文约6500字,建议阅读15分钟 本文将介绍校准算法在阿里妈妈展示广告中的应用和演进,将从背景介绍.校准算法演进.工程实践以及总结展望四个方面展开介绍. 分享嘉宾:黄思光 ...

  10. 代码开源!阿里妈妈展示广告Match底层技术架构最新进展

    作者:卓立.日涉.谨持 一.背景 大规模信息检索一直是搜推广领域的核心问题之一,而基于任意复杂模型的检索方案无疑是业界重要的迭代方向之一.近年来,阿里妈妈展示广告Match团队与预测引擎团队专注于从算 ...

最新文章

  1. 使用 HttpServerUtility.Transfer 方法在同一应用程序的页面间重定向
  2. 爱情,真的那么奢侈吗?
  3. 第八章 路由协议原理
  4. python画五角星-Python第八课 绘制五角星1.0
  5. WebStorm ES6 语法支持设置
  6. python参数_python参数的介绍
  7. ArcGIS利用数据驱动工具条批量出图(python代码)
  8. (1)剑指Offer之斐波那契数列问题和跳台阶问题
  9. Ubuntu 14.10 下安装java反编译工具 jd-gui
  10. 0011-绝对值函数
  11. 用WPF实现屏幕文字提示,徐汇区网站设计
  12. python标准输出sys.stdout_使Python中的函数标准输出静音,而不会破坏sys.stdout并恢复每个函数调用...
  13. 【4K录屏】高清录屏及剪辑软件:Bandicam 和 Captura
  14. 博微写狗.exe和博微电力工程造价深思4写狗
  15. Android强行进阶,自定义控件—LayoutManager,技术协会安卓部面试
  16. 小学生html教程,小学.html
  17. python 标准正态分布函数_Python中的正态分布统计
  18. linux怎么找回普通用户密码,Ubuntu Linux系统密码找回
  19. zbb20170605 Drools java 规则引擎
  20. python12306下单步骤_python编程实现12306的一个小爬虫实例

热门文章

  1. linux ntfs 3g 格式化,linux使用ntfs-3g操作ntfs格式硬盘
  2. Linux系统基础命令详细总结,不定期更新,建议收藏
  3. ubuntu linux目录绿色高亮问题
  4. JAVAapi—数据库连接
  5. 英语句子摘抄——书虫系列
  6. [KM 树同构Hash DP] BZOJ 3197 [Sdoi2013]assassin
  7. Scrum立会报告+燃尽图(十月二十八日总第十九次)
  8. 联通将推自有品牌手机沃Phone 基于Android
  9. Javascript图片裁切
  10. 计算机图书管理系统测试用例,图书管理系统测试用例设计.doc