1.1 广告的目的
三个主体:advertiser medium audience
广告是非人员的、低成本的用户接触(reach)
品牌(brank)广告 vs 效果(direct)广告:离线转化率 vs 即时转化
1.2 广告有效性模型
三个阶段
选择:曝光-广告位属性;关注-减少干扰、推荐解释、符合需求;
解释:理解-用户能看懂;信息接受-认同(广告位不能只看流量,要高大上);
态度:保持-艺术性带来的记忆效果;购买-价格可接受(价格敏感vs不敏感);
广告创意
传统广告:幽默(+关注,-理解)、性感(+关注、-认同)、艺术(+保持,-理解)、折扣(+关注,+购买)
在线广告:仿背景、大标识、简单
1.3 广告与销售的区别
从偏广告到偏销售
硬广(banner)
SEM(搜索广告)
导航网站
淘宝直通车
返利网(跟广告主签销售协议:CPS)
只看ROI(return on investment)没意义:接近supply(媒体)的渠道(关注潜在用户),ROI低,但对广告主越有价值;接近demand(广告主)的渠道(短期交易)相反
1.4 在线广告的特点
对比
在线广告:技术和产品驱动(精准定向、计算是核心问题、效果可衡量)
离线广告:创业和客户关系驱动
关键点和行业协会
展示广告的标准化:iab
代理商的角色和代理费:4A
广告主的利益:ANA
1.5 在线广告市场
media->ad network;ad exchange; SSP(Supply Side Platform)->DSP;agency;advertiser
各方是博弈关系;有数据的一方占优势
1.6 核心问题和挑战
Max ROI(users;contexts;ads)
特征提取;ctr预测;竞价市场机制;受限优化(量与质:保证受众规模);reinforcement learning(强化学习:explore&exploit);推荐技术
实时索引;nosql存储;离线计算(hadoop);在线学习(流计算);实时竞价
large scale;动态性(用户兴趣);丰富的查询信息(context+user)
1.7 搜索、广告、推荐的比较

搜索 广告 推荐
首要任务 相关性 ROI 用户兴趣
其它需求 垂直领域相互独立 质量;安全性 多样性;新鲜度
索引规模 十亿级 百万级 亿级
个性化 展示和效果ad不同

推荐领域的downstream:把这一次点击跟后续的行为结合起来优化

1.8 投资回报(ROI)分析

eCPM=CTR(a,u,c)*value(a,u)

市场形态
CPM市场:固定eCPM
CPC市场:动态CTR,固定click value
CPS、CPA市场:动态CTR,动态click value
1.9 在线广告系统结构
高并发投送系统
受众定向系统
流式计算平台(日志收集、反馈、反作弊、计价)
信息高速公路(内部、外部数据收集处理)
模块:
ad serving; ad retrieval; ad ranking; billing; anti-spam;session log generation;data warehouse;customized audience segmentation; audience targeting; ad management

2.1 常用广告开源工具
Hadoop: HDFS, MapReduce
ZooKeeper(Yahoo)
Hive(Facebook)
Hbase
Storm(Twitter)
Mahout
Spark
Thrift(Facebook), ProtoBuf(Google)
Scribe(Facebook), Flume: 日志收集工具

2.2 合约广告

Guaranteed Delivery
CTR预测
流量预测(forecasting)
受众定向(audience targeting)
Ad server
Ad retrieval;
Ad ranking; 
Allocation
代表公司
yahoo
sina

2.3 在线分配问题

三方博弈:媒体、广告主、用户;或四方博弈:加上代理商

二部图匹配
ad_list<->(context, user)_list
数学基础:拉格朗日方法、KKT条件、对偶问题
High Water Mark算法:利用历史数据求解serving rate
受众定向:地域、人口属性、行为分类

品牌广告主的曝光有独占性

2.4 Hadoop介绍

Hadoop vs Strom
Hadoop:调度计算而不是调度数据
Strom:调度数据
Hadoop vs MPI
Hadoop:用户级别的计算
MPI:文档级别的计算
Hadoop streaming: 类似UNIX的管道

常用统计模型
指数族分布:最大似然估计可以通过充分统计量链接到数据;mapper统计,reducer求解参数
指数族混合分布:一次迭代求解不了参数,使用EM多次迭代
非指数族分布(梯度分布):mapper收集梯度,reducer更新参数;多次迭代
Oozie工作流引擎:job调度,用XML定义依赖;有向无环图;(vs Azkaban:batch scheduler)

3.1 受众定向

Ad User Context的标签体系
上下文标签是一种即时标签
ad:category, advertiser, campaign, solution, creative
user:gender, age, location, category
context:domain, channel, topic, url
标签体系主要作用
作用1:建立面向广告主的流量售卖体系
作用2:为CTR预估等模块提供原始特征
受众定向方法
重定向:效果好
地域和人口属性:效果差,但广告主容易接受
上下文定向和行为定向:效果中等
网站和频道定向:中等
hyper-local:精确到小区级别,效果好,但要在mobile上做
look-alike:提供种子用户,找相似的。效果中上
代表公司
AudienceScience:第三方数据标签服务+自营ad network

3.2 行为定向

重要行为
Transaction:交易记录,价值最高
Pre-transaction:商品浏览、比价等
Paid search click;ad click
search click; search
share
page view:只代表兴趣,对广告效果影响不大
ad view:负系数,看得越多越疲劳
系统结构

日志  tagger 用户标签 
PV=*Search=*Ad click=*  pv taggersearch taggerad tagger  p(u, t1)=*p(u, t2)=*p(u, t3)=* 

long-term行为定向
滑动窗口方式:对不同类型的标签,窗长或衰减系数不一样
时间衰减方式
Reach/CTR 曲线:reach=100%时,ctr=无定向的ctr;只用supply的标签,曲线肯定不够好

建立标签体系的方法
分类vs聚类:聚类的标签广告主不易接受
demand端标签 vs supply端:supply端量大,但效果不好

3.3 上下文定向
page attributes cache
url
keywords
topics
page fetcher & analysis
3.4 Topic Model
有向图模型
箭头:条件概率
灰的node:可观测的
空心node:需要计算的变量
框:可重复的
pLSI; LDA; Gamma-Poisson
求解:VB EM; Collapsed Gibbs-sampling(MCMC, Markov-chain Monte-Carlo)
并行化:mapper上sampling;reducer上全局update;MPI或者Spark效率胜过hadoop
Supervised and hierarchy: 
Supervised LDA;
Hierarchically supervised LDA
No free lunch thesis
对问题需要先验的假设,否则任何方法平均性能都一样
3.5 数据加工和交易

可以类比石油行业
油田-数据源:搜索、电商、门户、线下数据(例如银联)
原油-用户行为:
炼油厂-定向系统
成品油-用户标签
加油站-广告投放
有价值的数据
用户标识:cookie-mapping
用户行为:去除热点事件的影响;越主动的、机会成本越高的、越靠近demand的价值越大
demand数据:用户retargeting,look-alike
用户属性和地理位置:
社交网络数据:好友关系;实名网络的人口属性数据
Data Management Platform
数据收集和加工-data highway
对外交易能力-data exchange
跨媒体的用户标签-tagging
定制化的用户划分-user segment
统一对外数据接口-tag management
代表公司
Bluekai:
接入中小网站的数据
产生收益跟网站主分成
不运营广告业务
细分类别标签+开放体系的标签
规避风险:用户可看到自己的信息被谁用

4.1 位置拍卖理论

搜索广告:多个位置联合拍卖,可以一个不出
展示广告:单个位置,通常一定要出
对称纳什均衡:广告系统的设计目标

定价机制
VCG机制:收费应等于对别人带来的价值损害;truth-telling
Generalized Second Price:广义第二高价,不是truth-telling
第一高价
4.2 Ad Network
淡化广告位概念
计价方式为CPC
不支持定制化用户划分
4.3 广告检索

布尔表达式
DNF格式;conjunction;assignment
index:2层索引
长query,每个term都是should
有效剪枝算法:需要相关性函数是线性
WAND(weighted and)算法
4.4 流量预测

query为ad,对(u, c)联合空间做retrieval
SUM impression(c) * p(price_a - eCPM_c)
4.5 ZooKeeper介绍

分布式环境下解决一致性:消息传递机制

Paxos算法
Proposer(n, value): 
Acceptor:一次任务只批准一个value
Learner:只获得被批准的提案
两段式提交
4.6 点击率预测

Regression vs Ranking

Cold start问题

Online learning

4.7 逻辑回归

Logistic Regression
Generalized Linear Model 在Binomial error时的特例
Maximum Entropy Model在class=2时的特例。ME=Logistic Disriminate Analysis? 
优化方法
IIS
BFGS:Quasi-Newton的一种,模拟一个Hession矩阵
L-BFGS :limited memory, 对Hession矩阵的逆矩阵降维
ADMM分布式解法
4.8 动态特征

在组合维度上的历史统计值

5.1 探索与利用

Multi-arm Bandit(老虎机)
epsilion-greedy: 使用小流量做探索
UCB(upper confidence bound)策略
linUCB: contextual bandit,使用特征适量代替bound
5.2 搜索广告

特性
用户标签不重要,因为query太强
用户短时搜索行为比较重要
问题
Query expansion:
搜索日志,做cf
文档集合,做topic model
广告日志,按eCPM排序
搜索广告个性化
搜索结果不宜做深度个性化
广告内容个性化效果有限,但广告条数可以做个性化
短时用户行为
同一个session内的行为
需要分钟级别,甚至秒级别,需要流式计算平台
5.3 流式计算平台

S4 vs Strom
S4:全内存,吞吐量大,编程麻烦,可能丢数据
Strom:可能调度磁盘,编程接口类似hadoop,保证不遗漏
Strom
spout、bolt
类似map/reduce架构
调度数据,而不是调度计算
只适用处理实时数据,数据规模不能太大。(适合online learning?)
5.4 广告购买平台(Trading desk)
universal marketplace
非RTB流量的ROI优化
关键问题
例如SEM选词
展示广告的关键词组合
合理的出价
代表公司
EfficientFrontier
核心技术是Portfolio Optimization,和数据积累
被Adobe Omniture收购,改为Adobe Adlens
国外4A公司从广告商收取17.6%费用,国内只有从百度拿6%返点

6.1 广告交易市场

实时竞价通常按照CPM收费

Ad exchange代表公司
RightMedia, Google Adx, AdECN, OpenX
6.2 实时竞价
cookie mapping
ad call
对demand更有利,CTR的估计和点击的价值都交给deman来做

DMP的作用是提高精准性和市场流动性

6.3 Cookie Mapping

beacon(smart pixel):1x1或0x0的不可见像素

三个问题:谁发起?在哪儿发起?谁存储mapping表?
DSP-Demand site-Adx,存在DSP
DMP-Supply site,存在Supply
6.4 SSP

以优化媒体收益为目标
灵活接入和管理多种变现方式
Yield Optimizer:收入优化
代表公司:
Google AdMeld
6.5 DSP
支持定制化用户划分
跨媒体流量采购
代表公司
InviteMedia,MediaMath
6.6 DSP流量预测

难点:dsp只能拿到赢得的流量,不能获取全部流量

6.7 DSP点击价值估计

挑战
极为稀疏的训练数据
转化是与广告主类型密切相关
原则
用较大的bias换取较小的variance,达到稳健估计
利用广告商类型的层级结构特征,以及转化流程的特征
6.8 DSP重定向
site retargeting
search retargeting
personalized retargeting: off-site recommendation
推荐算法:SVD++的思想

代表公司
Magnetic:search retargeting
Criteo:站外推荐的个性化重定向
动态创意;广告主商品库的准实时feed接口;
采购媒体的优选CPM
不使用cross-site的数据:广告主的 数据安全 很重要,不能倒卖客户
Look-alike(新客推荐):利用种子用户;利用客户自定义标签

6.9 demand端推荐方法
站内推荐
站外个性化重定向
新客推荐
6.10 广告流量交易方式
优先销售Premium Sale:品牌溢价
CPT
GD:Ad Server
程序交易Programmatic Trade:偏向Demand的方向
Network optimization:Ad Network
Preferred(优选)
RTB:Ad Exchange

广告计算学 刘鹏 听课笔记相关推荐

  1. MySQL数据库性能优化(享学课堂听课笔记)

    1.场景: 2张表A表 200W条数据,关联表B表3W条数据,AB有主外键关系. 案例1. 35S 使用关联子查询,查询时间35S 案例2. 19S 使用连表查询 (Left  join ,Inner ...

  2. 百度计算广告学沙龙学习笔记 - 内容匹配广告

    百度计算广告学沙龙学习笔记 - 内容匹配广告 时间 2014-02-05 18:53:55 CSDN博客 原文  http://blog.csdn.net/three_body/article/det ...

  3. 元计算:《元计算破解生命密码》听课笔记

    元计算:<元计算破解生命密码>听课笔记 目录 元计算背景 元计算技术 元计算系统 <元计算破解生命密码>听课笔记 问题提出 元计算理论引入 元计算意义 元计算背景 元计算技术 ...

  4. Li‘s 影像组学视频学习笔记(28)-ROI/病灶体积的计算、Li‘s have a solution and plan.

    本笔记来源于B站Up主: 有Li 的影像组学的系列教学视频 本节(28)主要讲解: 用SimpleITK包进行ROI/病灶体积的计算 1.加载包 import SimpleITK as sitk im ...

  5. AI:《人工智能+制造(智能制造)产业发展的现状、影响、+互联网、未来展望》演讲听课笔记

    AI:<人工智能+制造(智能制造)产业发展的现状.影响.+互联网.未来展望>演讲听课笔记 目录 人工智能+制造"产业发展研究报告 1.人工智能+制造的现状 1.1.为什么要研究& ...

  6. Flink在美团的应用与实践听课笔记

    本文系<Flink在美团的应用与实践>的听课笔记 原始视频视频资源已经在优酷公开:2018.8.11 Flink China Meetup·北京站-Flink在美团的应用与实践 作者:刘迪 ...

  7. 影像组学视频学习笔记(43)-标准差、标准误及95%置信区间CI、Li‘s have a solution and plan.

    作者:北欧森林 链接:https://www.jianshu.com/p/f09d0f97592f 来源:简书,已获授权转载 本笔记来源于B站Up主: 有Li 的影像组学系列教学视频 本节(43)主要 ...

  8. 影像组学视频学习笔记(42)-影像组学特征提取问题解决过程复现、Li‘s have a solution and plan.

    作者:北欧森林 链接:https://www.jianshu.com/p/c3e6de2f79b3 来源:简书,已获转载授权 本笔记来源于B站Up主: 有Li 的影像组学系列教学视频 本节(42)主要 ...

  9. 影像组学视频学习笔记(41)-如何使用软件提取组学特征、Li‘s have a solution and plan.

    作者:北欧森林 链接:https://www.jianshu.com/p/72186eb3e395 来源:简书,已获授权转载 本笔记来源于B站Up主: 有Li 的影像组学系列教学视频 本节(41)主要 ...

最新文章

  1. 1.随机函数,计算机运行的基石
  2. PIL 学习笔记(1)
  3. matlab幂法的瑞利商加速,瑞利商加速定理14.PPT
  4. pkuseg-python的postag.zip在不能联网的服务器上的解决办法
  5. 开学季|计算机专业的你看过来!
  6. insert exec 语句不能嵌套_MySQL ------ 插入数据(INSERT和insert select)(二十)
  7. python中threading模块中的Join类
  8. 串口通讯(DMA模式)
  9. 最新游戏帐号交易平台源码+支持游戏币交易
  10. Unity安卓开发环境搭建
  11. 《6色荧光笔学习法》——从如何做笔记到高效学习和“战略性思考”
  12. Http405错误,方法类型也没有错,解决办法
  13. 八丶傻妞新版教程+对接微信对接公众号对接TG(飞机)教程
  14. 【Unity】如何优雅地实现任何线性效果?
  15. 用C语言程序算交税,用C语言编写函数InComeTax计算七级累进税率的税后收入
  16. 茶与健康不得不说的话题
  17. 文本分类和聚类有什么区别
  18. Java Native 方法
  19. 2.OrientDB连接操作
  20. 实用小工具 -- 在线查看别人网站流量

热门文章

  1. Windows10 -64 安装tensorflow遇到的:cuda安装后找不到安装文件目录
  2. 【Cheatsheet】收录英文邮件的写作技巧(比较系统、为后续邮件写作提供参考)
  3. 不存在放之四海皆准的解决方案
  4. 开发SpringBoot+Jwt+Vue的前后端分离后台管理系统VueAdmin - 前端笔记
  5. 多元统计分析最短距离法_(完整word版)多元统计分析模拟试题
  6. 对付“网络特工”软件的无可奈何的方法
  7. 成双成对的数,怎么找到落单的那个
  8. 请用函数实现一个判断用户输入的年份是否是闰年的程序
  9. 虚拟环境mkvirtualenv指令
  10. 浅谈电气防火限流式保护器在火灾预防中的应用