ctr 平滑_广告计算——平滑CTR
一、广告计算的基本概念
1、广告的形式
在互联网发展的过程中,广告成为了互联网企业盈利的一个很重要的部分,根据不同的广告形式,互联网广告可以分为:
展示广告(display ads)
赞助商搜索广告(sponsored search)
上下文广告(contextual advertising)
2、竞价模型
对于在线广告,主要有如下的几种竞价模型:
按展示付费(pay-per-impression):直观来讲,按展示付费是指广告商按照广告被展示的次数付费,这是一种最普遍的竞价模型;
按行为付费(pay-per-action):按行为付费是指只有在广告产生了销售或者类似的一些转化时,广告商才付费;
当然,对于以上的两种竞价模型各有其局限性:在按展示付费模型中,压根没有考虑到广告的效果,只是按照广告流量进行售卖的模式;对于按行为付费模型,虽然其考虑到了广告效果,但其的条件是产生了某种转化,这种转化有时很难追踪和记录。此时,为了解决这两种模型的局限性,通常可以按照一个用户是否会点击广告作为最终的度量标准,即按点击付费模型(pay-per-click)。
按点击付费(pay-per-click):根据用户是否会点击广告来付费。
这里便出现了一个重要的概念,便是广告点击率(the click-through rate, CTR)。
3、广告点击率(CTR)
广告点击率CTR是度量一个用户对于一个广告的行为的最好的度量方法,广告点击率可以定义为:对于一个广告的被点击(click)的次数于被展示(impression)的次数的比值。
CTR=#click#impression
广告点击率对于在线广告有着重要的作用,在网络中,对于有限的流量,通常要选择出最优质的广告进行投放,此时,CTR可以作为选择广告和确定广告顺序的一个重要的标准。
但是在计算CTR时,由于数据的稀疏性,利用上述的计算方法得到的CTR通常具有较大的偏差,这样的偏差主要表现在如下的两种情况:
1、例如展示impression的次数很小,如1次,其中,点击的次数也很小(这里的很小是指数值很小),如1,按照上述的CTR的计算方法,其CTR为1,此时的点击率就被我们估计高了;
2、例如展示的次数很大,但是点击的次数很小,此时,利用上述的方法求得的CTR就会比实际的CTR要小得多。
出现上述两种现象的主要原因是我们对分子impression和分母click的估计不准确引起的,部分原因可能是曝光不足等等,对于这样的问题,我们可以通过相关的一些广告的展示和点击数据对CTR的公式进行平滑处理。
二、CTR的平滑方法
1、数据的层次结构——贝叶斯平滑
假设有N个相同的账号(a1,a2,⋯,aN),对于网页p,对于这样的网页和账号组(p,ai)。假设(C1,C2,⋯,CN)为观测到点击数据,(r1,r2,⋯,rN)为隐含的CTR的值,为点击率,点击率在此是一个隐含的参数,广告是否被点击满足二项分布,即Binomial(Ii,ri),其中,Ii表示广告被展示的次数。
贝叶斯思想认为,隐含的参数不是一个具体的值,而是满足某个分布,我们知道贝叶斯参数估计的基本过程为:
先验分布+数据的知识=后验分布
已知二项分布的共轭分布为Beta分布,对此,有以下的两点假设:
1、对于一个广告,其点击Ci符合二项分布Binomial(Ii,ri),其中,Ii表示的是展示的次数,ri表示的是广告被点击的概率;
2、对于所有的广告,有其自身的CTR,其CTR满足参数是α和β的贝塔分布Beta(α,β)。
假设有N个广告,广告被展示的次数为(I1,I2,⋯,IN),广告被点击的次数为(C1,C2,⋯,CN),上述的两个假设可以表示为如下的形式:
其对应的概率图模型为:
点击率ri不仅与(Ii,Ci)相关,而且与参数α和参数β相关,我们可以通过计算得到参数α和参数β的估计α̂ 和β̂ ,一旦α̂ 和β̂ 被确定后,则ri的估计为:
ri=Ci+α̂ Ii+α̂ +β̂
所以,现在,我们需要求解参数α和参数β的估计α̂ 和β̂ 。
点击C的似然函数为:ℙ(C1,C2,⋯,CN∣I1,I2,⋯,IN,α,β),由于点击的次数以及展示的次数之间都是相互独立的,因此上式可以表示为:
ℙ(C1,C2,⋯,CN∣I1,I2,⋯,IN,α,β)=∏i=1Nℙ(Ci∣Ii,α,β)=∏i=1N∫riℙ(Ci,ri∣Ii,α,β)dri=∏i=1N∫riℙ(Ci,∣ri,Ii)ℙ(ri∣α,β)dri
已知
ℙ(Ci,∣ri,Ii)=rCii(1−ri)Ii−Ci
ℙ(ri∣α,β)=Γ(α+β)Γ(α)Γ(β)rα−1i(1−ri)β−1
则上式可以写成:
=∏i=1N∫riℙ(Ci,∣ri,Ii)ℙ(ri∣α,β)dri=∏i=1N∫rirCii(1−ri)Ii−CiΓ(α+β)Γ(α)+Γ(β)rα−1i(1−ri)β−1dri=∏i=1N∫riΓ(α+β)Γ(α)Γ(β)rCi+α−1i(1−ri)Ii−CI+β−1dri=∏i=1NΓ(α+β)Γ(Ii+α+β)Γ(Ci+α)Γ(α)Γ(Ii−Ci+β)Γ(β)
此时,我们需要求得该似然函数的最大值,首先,我们对上述的似然函数取对数,即为:
logℙ(C1,C2,⋯,CN∣I1,I2,⋯,IN,α,β)=∑i=1NlnΓ(α+β)−lnΓ(Ii+α+β)+lnΓ(Ci+α)−lnΓ(α)+lnΓ(Ii−Ci+β)−lnΓ(β)
将上述的log似然函数分别对α和β求导数,即为:
dlogℙ(C1,C2,⋯,CN∣I1,I2,⋯,IN,α,β)dα=∑i=1NΨ(α+β)−Ψ(Ii+α+β)+Ψ(Ci+α)−Ψ(α)
dlogℙ(C1,C2,⋯,CN∣I1,I2,⋯,IN,α,β)dβ=∑i=1NΨ(α+β)−Ψ(Ii+α+β)+Ψ(Ii−Ci+β)−Ψ(β)
其中,Ψ(x)=ddxlnΓ(x)。通过 the fixed-point iteration方法,可以得到如下的结果:
αnew=α∑Ni=1[Ψ(Ci+α)−Ψ(α)]∑Ni=1[Ψ(Ii+α+β)−Ψ(α+β)]
βnew=β∑Ni=1[Ψ(Ii−Ci+β)−Ψ(β)]∑Ni=1[Ψ(Ii+α+β)−Ψ(α+β)]
上述的求解过程是一个迭代的过程,一旦求出了参数α和参数β的估计α̂ 和β̂ ,便可以求出点击率的估计:
ri=Ci+α̂ Ii+α̂ +β̂
2、数据在时间上的一致性——指数平滑
相比上述的贝叶斯平滑,指数平滑相对要简单点,对于CTR中的点击,这是个与时间相关的量,假设对于一个广告,有M天的点击和展示数据(I1,I2,⋯,IM),(C1,C2,⋯,CM)。若要估计第M天的CTR的值,我们需要对分别对I和C进行平滑,得到平滑后的Î 和Ĉ 。其计算方法如下:
{Ĉ j=CjĈ j=γCj+(1−γ)Ĉ j−1 if j=1 if j=2,⋯,M
{Î j=IjÎ j=γIj+(1−γ)Î j−1 if j=1 if j=2,⋯,M
其中,γ称为平滑因子,且0
Ĉ M=γCM+(1−γ)Ĉ M−1=γCM+(1−γ)(γCM−1+(1−γ)Ĉ M−2)=γCM+γ(1−γ)CM−1+⋯+γ(1−γ)jCM−j+⋯+γ(1−γ)M−1C1
参考文献
Click-Through Rate Estimation for Rare Events in Online Advertising.Xuerui Wang, Wei Li, Ying Cui, Ruofei (Bruce) Zhang, Jianchang Mao Yahoo! Labs, Silicon Valley United States
作者:google19890102 发表于2016/1/11 18:19:15 原文链接
阅读:224 评论:0 查看评论
ctr 平滑_广告计算——平滑CTR相关推荐
- 广告计算——平滑CTR
广告计算--平滑CTR flamen 发表于 5月前 (2016-01-12 10:15:27) | 评论(0) | 阅读次数(150)| 0 人收藏此文章, 我要收藏 一.广 ...
- python 二次平滑_时序分析 指数平滑
该帖主要介绍了一次指数平滑法.二次指数平滑法以及三次指数平滑法. 1 简介 指数平滑法是对单变量数据进行时间序列预测的一种方法,它可以推广到具有系统趋势或季节成分的数据. 建模类似Box-Jenkin ...
- python等高线图平滑_用Matplotlib平滑等高线图中的数据
平滑数据的一个简单方法是使用moving average算法.移动平均的一种简单形式是计算某一位置相邻测量值的平均值.例如,在一维测量序列a[1:N]中,a[N]处的移动平均值可以计算为a[N]=(a ...
- java三次指数平滑_时间序列挖掘-预测算法-三次指数平滑法(Holt-Winters)
所有移动平均法都存在很多问题. 它们都太难计算了.每个点的计算都让你绞尽脑汁.而且也不能通过之前的计算结果推算出加权移动平均值. 移动平均值永远不可能应用于现有的数据集边缘的数据,因为它们的窗口宽度是 ...
- 【广告系列一】广告相关名词 CTR/CVR/eCPM...
广告相关名词 推广/广告指标 广告基础名词 电商类 网红类 网盟类 其他 Referecne 推广/广告指标 Verb EN CN impression 展示量/曝光 点击数 / CTR CPM co ...
- python 时间序列预测 指数平滑_时间序列分析之指数平滑法(holt-winters及代码)...
在做时序预测时,一个显然的思路是:认为离着预测点越近的点,作用越大.比如我这个月体重100斤,去年某个月120斤,显然对于预测下个月体重而言,这个月的数据影响力更大些.假设随着时间变化权重以指数方式下 ...
- python 时间序列预测 指数平滑_转载: 时间序列分析--指数平滑法
参考文献: http://blog.csdn.net/u013527419/article/details/52822622?locationNum=7&fps=1 一. 基础知识: 1. 概 ...
- spss三次指数平滑_选取SPSS中较优指数平滑预测模型的研究.doc
选取SPSS中较优指数平滑预测模型的研究.doc 选取SPSS中较优指数平滑预测模型的研究 作者简介:张博文(1989-),男,汉族,山东日照人, 安徽理工大学经济与管理学院硕士研究生在读,专业:物流 ...
- 广告计算学 刘鹏 听课笔记
1.1 广告的目的 三个主体:advertiser medium audience 广告是非人员的.低成本的用户接触(reach) 品牌(brank)广告 vs 效果(direct)广告:离线转化率 ...
最新文章
- win7设置开机后自动锁定计算机,Win7系统锁定计算机怎么设置 win7系统自动锁定...
- matlab 仿照案例-目标检测
- Django中间件与python日志模块 介绍
- 数据结构排序1-冒泡,选择,插入排序
- spring4.0基于Java配置_Spring MVC学习笔记之Controller查找(基于Spring4.0.3)
- fpga供电电压偏低会怎样_正点原子【FPGA-开拓者】第三章 硬件资源详解
- 力扣题目——350. 两个数组的交集 II
- MacBook取消自启动程序
- Java 设计模式 之 单例模式(Singleton)
- 电子工程师必须知道的12个知识
- 解决phpmyadmin加载慢问题
- 中大计算机学院不及格,大学要求越来越严格 | 学渣可能无法从中大毕业了
- java 实现点击率_redis实现点击量/浏览量
- uniapp开发FFmpeg安卓原生短视频插件支持裁剪、添加背景音乐、压缩视频、视频播放器、拍照、录屏
- Win10系统无法识别USB设备的处理方法
- 你知道路由器,但是你知道交换机吗?
- 华为IPsec实现支部与支部间借助总部进行隧道中转
- 关于开发微信公众号获取手机用户运动数据的功能实现思路
- React 前端日历组件
- 图解Redis缓存穿透、击穿、雪崩(必须知道)
热门文章
- 南京地铁交通部署工程竣工时那些我们不知道的数字,你知道吗?
- python汉语词典_Python 字典(Dictionary)
- CDMA2000简介
- 基于Python运动场地预约系统设计与实现 开题报告
- 使用poi将数据导出到excel
- 个人计算机中的防毒软件无法防御,win10系统中无法启动defender防御软件的处理办法...
- des加密算法(des加密算法的密文分组长度)
- 【继上篇】云计算架构概念和技术基础
- GarageBand for mac(音乐制作工具)
- LNMP架构搭建(源码编译)