‍前一阵子,老肥参加了科大讯飞AI开发者大赛的部分比赛,主要包括结构化、音频、文本以及图像这四大类型,总体来看都是较为简单的任务并且解题方案也较为简单,后续会跟大家一一分享。

今天要分享的是结构化的赛题-创意视角下的数字广告CTR预估挑战赛

赛题任务

广告的CTR预估需要强大的数据作为支撑,本次大赛提供了讯飞AI营销云海量的现网流量和创意数据作为训练样本,参赛选手需基于提供的样本构建模型,预测测试集的点击率,点击率的准确性将直接影响评价结果。

数据说明

本次比赛的数据主要包括:标注数据、媒体流量数据、广告创意数据以及其他业务Embedding向量。其中,标注数据为样本的Label信息,媒体流量数据主要是流量媒体APP和广告位来源信息。本次挑战赛首次公开了元素级广告创意数据,包含创意的文字、图片素材等,选手可基于创意进行深度的特征工程挖掘,包含但不限于大小,色系,利益点,元素Embedding等。

总体来说就是包含了多个ID信息、Embedding特征以及文本图像的一个多模态的数据。

评价指标

评价指标采用GAUC,在这其中, 权重取为流量媒体的广告位上的点击数,为媒体广告位上的AUC。

方案概述

首先对文本和图像进行特征提取,确认多模态信息的有效性。文本直接采用TF-IDF再进行SVD降维得到特征表示拼接到主表,图像采用预训练模型VIT直接抽取Embedding向量再拼接到主表,经过线下和线上的验证得出本题多模态信息提取意义不大的结论。于是,最终确定的整体解决方法为基于特征工程的树模型,整体方案如下所示。

对于本方案,首先进行数据处理。

第一步讲初赛的训练集与复赛的训练集进行拼接,

第二步对数据进行去重(包含部分数据所有字段值完全相同的情况),

第三步对数据进行压缩处理,节省内存的使用。

然后是特征工程部分,包含常规的一些统计特征:包括频数统计特征(单类别出现的次数以及类别共现次数)、unique特征(A类别在B类别中的unique,B类别在A类别中的unique),以及类别变量的Label Encoder编码。对于240维的Embedding,我们对低信息量的特征进行删除(unique值较小),对剩余Embedding特征进行mean、std的统计(groupby各个ID特征)。

最后是模型训练的部分,采用常规的分层五折交叉验证,将对测试集的预测概率取均值得到最后的预测结果。该方案在线上排名到第三位的成绩,另外,如果我们不进行重复数据删除,而是对数据重复次数进行统计作为特征输入,再应用上述方案可以排到排行榜第一位,得分为0.68098。完整的代码已开源,可以从下面的阅读原文链接中获取。

为了大家能更好的沟(日)通(常)交(吹)流(水),我创建了一个,感兴趣的可以扫码入群,欢迎大家!!(若码失效了,可后台私信我)

科大讯飞CTR预估挑战赛Top3方案总结相关推荐

  1. 对“科大讯飞2021丨广告点击率预估挑战赛 Top1方案(附完整代码)_Jack_Yang的博客-CSDN博客”的补充。

    这篇文章的初衷是针对科大讯飞2021丨广告点击率预估挑战赛 Top1方案(附完整代码)_Jack_Yang的博客-CSDN博客进行补充. 博客的信息量很少,对任务背景的介绍也不太对,说实话令人费解.我 ...

  2. 创意视角下的数字广告CTR预估挑战赛_catboost_score0.51

    创意视角下的数字广告CTR预估挑战赛baseline_catboost版本_score0.51 1. 赛事任务 2. 数据处理 3. 模型训练与评估 比赛链接 1. 赛事任务 广告的CTR预估需要强大 ...

  3. 2022华为推荐赛事——广告-信息流跨域ctr预估——0.79方案分享

    本文目录如下: 一.赛事背景 二.解决方案 2.1 导入必要的库 2.2 数据读取 2.3 特征工程 自然数编码 目标域(广告域)穿越特征提取 内存压缩 源域特征构建 内存压缩 2.4 划分训练集和测 ...

  4. 极市电大 | 京东AI时尚挑战赛Top3技术方案

    一.京东AI时尚挑战赛Top3﹀ 北京时间2018年9月16日,由京东AI平台与研究部发起的从七月开始的京东AI时尚挑战赛正式在ChinaMM2018大会上圆满落幕! 大会现场 而经过两个多月的角逐, ...

  5. CTR预估中GBDT与LR融合方案

    1. 背景 CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入.CTR预估中用的最多的模型是LR(Logistic R ...

  6. 科大讯飞AI营销大赛 CTR预估总结

    背景介绍: 科大讯飞AI营销云在高速发展的同时,积累了海量的广告数据和用户数据,如何有效利用这些数据去预测用户的广告点击概率,是大数据应用在精准营销中的关键问题,也是所有智能营销平台必须具备的核心技术 ...

  7. TIANCHI天池-OGeek算法挑战赛-完整方案及代码(亚军)

    首先很幸运拿到TIANCHI天池-OGeek算法挑战赛大赛的亚军,同时非常感谢大佬队友的带飞,同时希望我的分享与总结能给大家带来些许帮助,并且一起交流学习.(作者:王贺,知乎:鱼遇雨欲语与余) 赛题链 ...

  8. 【华为AI比赛】广告信息流跨域CTR预估(持续更新)

    学习总结 暂时只是简单提交baseline,提交catboost后的线上成绩为0.71左右,持续更新本贴. 文章目录 学习总结 一.赛题解读 1.1 CTR赛题 1.2 比赛评估指标 1.3 比赛数据 ...

  9. 资深算法专家解读CTR预估业务中的深度学习模型

    内容来源:2018 年 01 月 05 日,资深算法专家张俊林在"2018 移动技术创新大会"进行<深度学习在CTR预估业务中的应用>演讲分享.IT 大咖说(微信id: ...

最新文章

  1. 闪电网络运行过程中存在的一些问题
  2. Python 文件及目录操作
  3. 关于readdir返回值中struct dirent.d_type的取值有关问题(转)
  4. Rotate List
  5. Windows常用命令行命令
  6. .NET5发布了,腾讯招聘点名要求精通MySQL,而不是SQLServer!
  7. 第六章实验报告(函数和宏定义实验)
  8. SpringBoot + Shiro 缓存记住密码
  9. c++ 实现ping
  10. [Ubuntu] 16.04 卸载旧内核并禁止内核更新
  11. 一个专家眼中的Go与Java垃圾回收算法大对比
  12. SQL中CONVERT转化函数的用法(转)
  13. IntelliJ IDEA使用记录:maven projects-compile提示【**类,找不到符号】
  14. 一套图 搞懂“时间复杂度”
  15. 【CVPR2021】OCR文本检测MOST解读
  16. 服务器和桌面操作系统有什么区别,服务器和桌面操作系统的区别
  17. html5制作新年祝福,2018新年祝福贺卡制作
  18. Angular- 响应式表单和模板驱动表单
  19. python中setup什么意思_关于python中的setup.py解读
  20. java开发第一天该做些什么?

热门文章

  1. JAVA线程安全Map解析
  2. 收藏:上海常用投诉电话
  3. vue之 watch 监听数据变化 watch的使用、watch监听数据加载完成后执行、watch不触发、不生效的解决办法及原理
  4. 如何将pdf大小压缩?怎么缩小pdf的文件大小?
  5. 如何将PDF中的黑色字体改成红色
  6. 9个功能十分强大的在线网站,轻松满足你的任何需求
  7. AutoCAD调试模式下文字不显示
  8. [转]读“袁峰的红包”有感
  9. php yaf 模板引擎,yaf-example
  10. 高品质蓝牙耳机排行榜前十名,性价比高的四款蓝牙耳机分享