稳居排行榜前三,成绩高达1.453292的他,究竟是位怎样的神级选手?今天,我们就邀请到这位实力强劲的神秘大咖,为大家揭晓他的上分思路。

实力选手在线指导,火速报名与他PK一下吧!5月31日算法大赛报名截止,别犹豫,赶紧来挑战!

大家好,我是选手明明可以靠实力偏偏要拼颜值,很高兴能够参加今年的腾讯广告算法大赛。

本届赛题提供了用户在90天内的点击行为,从而预测出用户的年龄与性别。对于此次比赛,我将简单地从NLP的角度解析赛题,从而为大家提供解题思路。

01

如何转化成NLP问题

首先,我们来看下如何和NLP问题联系起来。用户在90天内点击了不同的广告,我们可以将每个广告看作一个单词word,然后把这些单词连接起来组成一句话:[creative_id_1,creative_id_2,…,creative_id_n]。

由于每个广告有不同属性,如广告主id,并且每个用户点击广告也有不同属性,如点击次数,这样对于每个用户我们就可以得到8种文本。那么剩下的问题就是如何根据这8种文本预测用户的年龄和性别。在NLP中,预测文本的类别有许多模型,比如lstm, gru, transformer等。对于这8种文本,我们将它们看成正常的文本,然后输入到常见的NLP模型中,在输出端做多分类即可。

02

如何解决OOV问题

OOV的全称是Out of Vocabulary, 在这里是指:测试集的某些广告不在训练集中,导致在训练的过程中,测试集中某些广告的embedding并没有被训练。因此,如果能够很好的解决OOV问题,那么就可以有效的提高成绩,这里主要有两种方法。第一种方法,我们可以截断低频广告,设置成unknown,那么对于测试集新出现的广告也可以直接设置成unknown。第二种方法是通过w2v的方式,预训练全部广告的embedding,然后在做训练时,把embedding的参数固定住。

03

如何解决词表过大而造成的显存溢出问题

但现在有一个问题:广告有300w左右,如果将embedding的维度设置为128,那么显存会溢出。针对这个问题,接下来我会提供一些解决方案。在上文中说过,如果经过w2v的预训练,我们可以把embedding的参数固定住,因此我们没有必要把embedding矩阵放到显存中,我们可以把该矩阵放到cpu上,这样就不会占用显存了。另一种方法大家也有使用,就是用类似keras的generator或者pytorch的dataloader,然后利用gensim模型去寻找广告所对应的embedding。由于generator和dataloader都是多线程处理,所以寻找起来也非常快。

目前,我使用了8种基本广告特征和用户点击特征,然后花了两周时间对模型进行修改和调参,达到了1.453的成绩,由此可以看出这8种文本信息还是非常重要的。接下来,如果需要取得好的成绩,可能需要进行一些特征工程。

祝大家在接下来的比赛中,能够取得好成绩。

收获了神秘大佬的心得分享后,你的解题思路有没有开阔了许多呢?祝各位选手在接下来的比赛中一帆风顺,成绩飙升!

和大咖同台竞技的绝佳机会

赶紧报名来挑战吧!

2020腾讯广告算法大赛报名截止时间:

5月31日

即将截止,欲报从速!

有意向者可点击下方链接前往大赛官网报名参加!

2020腾讯广告算法大赛

TI-ONE系列教程

如何注册与开通腾讯云TI平台服务?

如何使用 TI-ONE 平台内置算子玩转算法大赛

如何使用 TI-ONE 平台内置框架玩转算法大赛

如何使用 TI-ONE Notebook 玩转算法大赛

如何使用 TI-ONE SDK 玩转算法大赛

扫码加入大赛官方QQ群

或搜索群号:1094257162

和小伙伴一起解锁更多内容

高分选手讲解:如何突破思维圈限,从NLP角度挖掘新的解题思路相关推荐

  1. 立竿见影的思维利器——“黄金思维圈”

    好好学习,好好说话.生活中我们总是在这么说着.但是貌似做起来好难,最近一直被朋友说关于成甲的<好好学习>.今天用RIA拆书法,分享给大家立竿见影的思维利器--"黄金思维圈&quo ...

  2. 黄金思维圈,养成透过现象看本质的能力

    loonggg 读完需要 3 分钟 速读仅需 1 分钟 大家好,我是你们的校长. 今天我想给大家聊一聊关于思考,关于黄金思维圈的问题.如果你有了黄金思维圈的思维,带着目的去做一件事情,不仅仅会养成透过 ...

  3. 黄金思维圈,看透问题本质的利器,成功者必备工具

    成功者多是解决问题的高手,因为成功就是克服困难和解决问题的过程. 那么如何成为解决问题的高手呢,很重要的一步要看透问题的本质. 看西游记时,很多人都羡慕孙悟空的火眼金睛,能够一眼看出妖怪,这就是一种看 ...

  4. 灵遁者:突破思维局限去思考时间和维度

    导读:如果这是第五维度,那么肯定会有朋友问:那你说第六维度应该是怎么样?还别说,我真的思考了.很有趣,简单来说就是再往上就是重构空间的能力了,想到这里你就能想到为什么有一些顶级科学家会陷入神学论了.不 ...

  5. 思维定势的例子,天才也需要突破思维的障碍

    思维定势例子一:拿破仑滑铁卢兵败后 拿破仑被流放到圣赫勒拿岛后,他的一位善于谋略的密友通过秘密方式给他捎来一副用象牙和软玉制成的国际象棋.拿破仑爱不释手,从此一个人默默下起了象棋,打发着寂寞痛苦的时光 ...

  6. 星起航跨境—突破思维做跨境电商营销,实现企业转型

    跨境电商行业一直流传着中国跨境电商看华南,华南跨境电商看深圳的说法.也就是说,中国跨境电商在华南一带,特别是深圳地区发展良好.深圳作为我国第一个开放的经济特区,本就有着经济优势,在对外开放程度上和一些 ...

  7. 大神干货:冠军选手分享解题思路,助你轻松突围初赛

    2020年腾讯广告算法大赛的初赛的帷幕已然拉开,新老选手们正面临着全新数据集的挑战.在大家努力刷分的紧张时刻,我们为大家邀请到2019年腾讯广告算法大赛冠军.数据竞赛爱好者,也是本次大赛的参赛选手-- ...

  8. 2022年华数杯C题插层熔喷完整解题思路(附代码+详细讲解视频)

    1.题目背景 C 题 插层熔喷非织造材料的性能控制研究 熔喷非织造材料是口罩生产的重要原材料,具有很好的过滤性能,其生产工艺简单.成本低.质量轻等特点,受到国内外企业的广泛关注. 熔喷非织造材料是口罩 ...

  9. 【科创人上海行】扶墙老师王福强:架构师创业要突破思维局限,技术人创业的三种模式,健康第一...

    与上千位科技创业者共同关注科创人的成长心路. 那些曾经在圈内小有名气.被称为"老师"的技术前辈们,他们如何跨越人生转型的鸿沟?经历了多少曲折?如今过得如何? 左耳朵耗子.高春辉.王 ...

最新文章

  1. mysql sql 事务写作_mysql中的事务
  2. Typora添加右键新建Markdown文件
  3. 博弈论经典算法(一)——对抗搜索与Alpha-Beta剪枝
  4. 【Paper】2015_Active fault-tolerant control system design with trajectory re-planning against actuator
  5. Ubuntu下git使用教程
  6. 4 次版本迭代,我们将项目性能提升了 360 倍!
  7. Qt+VS2013编译报错:'cl' 不是内部或外部命令,也不是可运行的程序
  8. HDU1247 字典树 Hat’s Words(Tire Tree)
  9. Java变量名的命名方式
  10. HDFS高级功能(防止用户的错误操作 备份 试验/测试 灾难恢复 配额 数据迁移)
  11. 在ROS使用usb深度相机跑ORBSLAM3
  12. 计算机图形学之机器人
  13. UC-Android逆向工程师面试第2题分析
  14. springboot启动 lombok 找不到符号
  15. 每周一品 · 永磁电机中的磁性材料
  16. 网管的自我修养-电脑维护
  17. Linux系统设置命令别名
  18. 【git版本控制】| git版本控制操作命令(全)
  19. bat(batch)
  20. Python实现网络聊天室(支持多人聊天与私聊)

热门文章

  1. Boolan第一周笔记(二)对于第一周作业的一点总结
  2. 基础知识学习-数据结构篇
  3. 两个大整数相乘 C++ 版本 源码
  4. 取ifrme里的div的代码
  5. [Ariticle]番禺绿地和我小时候的故事
  6. 高效算法之时间复杂度介绍
  7. 笔记-JavaWeb学习之旅4
  8. 【Flask】下载多个文件
  9. SpringMVC Hello(IDEA)
  10. java数组初始化的三种方式