• 项目介绍

项目介绍

KDD CUP 2012 Track2

1、给定查询和用户信息后预测广告点击率
搜索广告是近年来互联网的主流营收来源之一。在搜索广告背后,一个关键技术就是点击率预测—–pCTR(predict the click-through rate),由于搜索广告背后的经济模型(economic model )需要pCTR的值来对广告排名及对点击定价。本次作业提供的训练实例源于腾讯搜索引擎的会话日志(sessions logs), soso.com,要求学员们精准预测测试实例中的广告点击率。
训练数据文件TRAINING DATA FILE
训练数据文件是一个文本文件,里面的每一行都是一个训练实例(源于搜索会话日志消息)。 为了理解训练数据,下面先来看看搜索会话的描述。搜索会话是用户和搜索引擎间的交互,它由这几部分构成: 用户,用户发起的查询,一些搜索引擎返回并展示给用户的广告,用户点击过的0条或多条广告。为了更清楚地理解搜索会话,这里先介绍下术语:在一个会话中展示的广告数量被称为深度(depth), 广告在展示列表中的序号称为广告的位置(position)。广告在展示时,会展示为一条短的文本,称之为标题(title),标题后跟着一条略长些的文本和一个URL,分别叫做描述(description)和展示链接(display URL)。
2、我们将每个会话划分为多个实例。每个实例描述在一种特定设置(比如:具有一定深度及位置值)下展示的一条广告。为了减少数据集的大小,我们利用一致的user id, ad id, query来整理实例。因此,每个实例至少包含如下信息:

UserID
AdID
Query
Depth
Position
Impression
搜索会话的数量,在搜索会话中广告(AdID)展示给了发起查询(query)的用户(UserID)。
Click
在上述展示中,用户(UserID)点击广告(AdID)的次数。
此外, 训练数据,验证数据及测试数据包含了更多的信息。原因是每条广告及每个用户拥有一些额外的属性。我们将一部分额外的属性包含进了训练实例,验证实例及测试实例中,并将其他属性放到了单独的数据文件中, 这些数据文件可以利用实例中的ids来编排索引。如果想对这类数据文件了解更多,请参考ADDITIONAL DATA FILES部分。
最后,在包括了额外特征之后,每个训练实例是一行数据(如下),这行数据中的字段由TAB字符分割:
1. Click: 前文已描述。
2. DisplayURL:广告的一个属性。
该URL与广告的title(标题)及description(描述)一起展示,通常是广告落地页的短链(shortened url)。 在数据文件中存放了该URL的hash值。
3. AdID: 前文已描述。
4. AdvertiserID : 广告的属性。
一些广告商会持续优化其广告,因此相比其他的广告商,他们的广告标题和描述会更具魅力。
5. Depth:会话的属性,前文已描述。
6. Position: 会话中广告的属性,前文已描述。
7. QueryID: 查询的id。
该id是从0开始的整数。它是数据文件’queryid_tokensid.txt’的key。
8.KeywordID : 广告的属性。
这是 ‘purchasedkeyword_tokensid.txt’的key。
9.TitleID: 广告的属性。
这是 ‘titleid_tokensid.txt’的key。
10.DescriptionID:广告的属性。
这是’descriptionid_tokensid.txt’的key。
11. UserID
这是 ‘userid_profile.txt’的key。当我们无法确定一个用户时,UserID为0。
附加的数据文件ADDITIONAL DATA FILES
这里还有前面提到过的5个附加的数据文件:
1. queryid_tokensid.txt
2. purchasedkeywordid_tokensid.txt
3. titleid_tokensid.txt
4. descriptionid_tokensid.txt
5. userid_profile.txt
前4个文件每一行将id映射为一个记号列表,在query(查询), keyword(关键字), ad title(广告标题)及ad description(广告描述)中都是如此。 在每一行中,TAB字符将id及其他记号集分隔开。一个记号最基本可以是自然语言中的一个词。为了匿名,每个记号以hash后的值来表示。 字段以 ‘|’分割。
‘userid_profile.txt’ 文件的每一行由UserID, Gender, 和 Age组成,用TAB字符来分隔。注意,并非训练集和测试集中的每个UserID都会出现在‘userid_profile.txt’文件中。每个字段描述如下:
1. Gender:
‘1’ for male(男), ‘2’ for female(女), and ‘0’ for unknown(未知).
2. Age:
‘1’ for (0, 12], ‘2’ for (12, 18], ‘3’ for (18, 24], ‘4’ for (24, 30], ‘5’
for (30, 40], and ‘6’ for greater than 40(6代表大于40).
TESTING DATASET(测试数据集)
除了广告展示及广告点击的数量不同外,测试数据集与训练数据集的格式一致。 广告展示及广告点击次数用于计算先验的点击率(empirical CTR)。 训练集的子集用于在leaderboard上对提交或更新的结果进行排名。测试集用于选举最终冠军。用于生成训练集的日志与之前生成训练集的日志相同。

广告点击率预测-项目介绍相关推荐

  1. 广告点击率预测 [离线部分]

    广告点击率预测 [离线部分] 2014-05-08 23:08:45|  分类: 计算广告学 |  标签:计算广告学  rtb  dsp  |举报|字号 订阅 下载LOFTER我的照片书  | 广告点 ...

  2. 广告点击率预测问题初探

    广告点击率预测问题初探 国庆7天参加了一个广告点击率预测的小竞赛,作为只看过机器学习实战的小白,纯粹抱着学习的心态去开眼,果然被大神按在地上虐呢,不过也学到了很多知识.感谢很多大佬都开源并分享了他们的 ...

  3. python广告点击率预测_推荐系统中的点击率预估 – Advertising Recommendation

    推荐系统的框架模式大致是:多种召回策略(触发层),一种融合排序策略(排序层),也可认为两阶段排序模型[33]: 召回策略方法繁多(例如常见的协同过滤中的item-based,user-based,以及 ...

  4. 广告点击率预测_精品案例|在线广告点击率预测

    目录 数据说明 数据查看 数据预处理   3.1 处理非数值特征 初步建立模型查看效果 探索性分析和特征工程   5.1 特征分布可视化   5.2 处理取值不均匀特征   5.3 特征相关性 模型训 ...

  5. 广告点击率预测(kaggle)

    一.项目背景 数据来源:使用的是kaggle的一个竞赛数据,具体官网地址为https://www.kaggle.com/c/avazu-ctr-prediction . 训练和测试数据分别为train ...

  6. 广告点击率预测_用于广告点击率预测的逻辑回归你会了吗?

    随着计算能力的大幅提升,AI的热潮只涨不跌,监督学习.无监督学习耳熟能详,一时间很多人都投身ML.DL,形形色色.我之前也是学过一点相关算法,蓝皮书和Ng大佬的课程也假装刷过,回归.分类.神经网络也都 ...

  7. spark mllib实现 广告点击率预测

    本文尝试使用Spark提供的机器学习算法 Gradient-Boosted Trees来预测一个用户是否会点击广告. 训练和测试数据使用Kaggle Avazu CTR 比赛的样例数据,下载地址:ht ...

  8. 分享Spark MLlib训练的广告点击率预测模型

    2015年,全球互联网广告营收接近600亿美元,比2014年增长了近20%.多家互联网巨头都依赖于广告营收,如谷歌,百度,Facebook,互联网新贵们也都开始试水广告业,如Snapchat, Pin ...

  9. 广告点击率(CTR)预测经典模型 GBDT + LR 理解与实践(附数据 + 代码)

    CTR 系列文章: 广告点击率(CTR)预测经典模型 GBDT + LR 理解与实践(附数据 + 代码) CTR经典模型串讲:FM / FFM / 双线性 FFM 相关推导与理解 CTR深度学习模型之 ...

最新文章

  1. exp导oracle数据库,使用exp/imp 在oracle数据库间导数据
  2. 所有顶点对最短路径问题(图的应用)
  3. == ===区别,利用!= !==判空。
  4. linux 之 rpm 网站
  5. tp5 iis7 404 解决方案
  6. log日志java web_Javaweb项目中使用Log4j记录日志
  7. 从0移植uboot (二) _启动流程分析
  8. 腾讯云数据库三大产品线统一升级为TDSQL,这是要集中力量干大事! ​
  9. 数据库:MySQL(单表的表记录的操作)(二)
  10. 解决 min-width 在 IE6 中无效的方法
  11. 【软考系统架构设计师】2014年下系统架构师案例分析历年真题
  12. 常用的音频处理库介绍
  13. RPA手把手—— RPA 数据库篇 6 - MySQL 篇 2 - 增删改查 1
  14. uniapp 连接ibeacon beacon
  15. 突破HR的职业发展瓶颈:放弃“优秀”!
  16. 制作简单时钟logo
  17. nginx之30分钟搞定nginx反向代理和负载均衡
  18. Fabric - chaincode开发模式
  19. 接到阿里HR面试通过电话的那天我哭了,奋战6个月终进阿里定级P6+
  20. 转转二手手机创专业质检服务,引领市场规范发展

热门文章

  1. 什么是数字化存在?数字化转型要先从数字化存在开始
  2. 程序人生 - 华为云 - 云享专家(Huawei Cloud Experts)
  3. 副词记忆(I):ly后缀的常用词
  4. 2018-2019-2 网络对抗技 20165328 Exp7: 网络欺诈防范
  5. 【ASE+python】实现将poscar格式文件批量转换为xsd格式文件
  6. 计算机软件专业入门,类图入门_计算机软件及应用_IT计算机_专业资料
  7. 20190829王老师发的面试题1、有一个日志文件access.log,内容如下
  8. 前端入门最全学习笔记--html
  9. 惠普墨盒用错墨水的补救经历
  10. 微金所项目-响应式开发文档