百度计算广告学沙龙学习笔记 - 内容匹配广告

第三期百度计算广告学沙龙(  http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d ) 介绍了内容匹配广告和展示广告相关技术。本博客记录观看内容匹配广告部分的一些笔记, 绝大多数为原slide内容,只做简单的整理。

背景

涉及四方:网民(Users) + 网站主 (Publishers) + 广告主(Advertisers) + 网盟 (AdNetwork/Matcher)

广告计费

计费方式

CPC 按点击收费

CPM 按展示收费

CPC+CPM 混合收费

广义二阶价格拍卖 (Generalized second price)

网盟广告检索系统

广告系统整体架构

广告系统相关技术

应用技术 - 分层实验框架

AB-Test

用户实验/页面实验/随机实验

通过分层流量复用提高实验并发率

Reference: Overlapping Experiment Infrastructure: More, Better, Faster Experimentation (Google KDD 2010)

应用技术 - 用户识别

浏览器插件/客户端软件/HTTP Cookie/Flash Cookie/本地用户数据(如everCookie)/IP+UA/登陆帐号

用户识别技术新动向 - CookieMatching

应用技术 - 高性能检索

计算模型

触发策略->过滤策略->初选策略->精选策略 (广告量减少, 计算量增加)

网络模型

同步模型, 半异步模型, 全异步模型

慢Query对系统吞吐量影响

产生原因: 攻击行为, 实验引入, 服务bug, 网络抖动, 机器异常

监控处理: 比例波动检测以确定原因;自我保护,超过阈值则终端; Cache结果; 简化算法牺牲效果, 直接丢弃

索引模型

广告库的逻辑结构

帐户->计划->推广组->广告

技术要求

实时性更新: 1s内生效, 高并发读写

高查询性能: 查询qps达到每秒100万 - 1000万

技术方案需要

无锁的并发模型

全内存的数据模型

无锁的并发模型

COW(Copy on Write) 读写分离

延迟销毁

索引扩展

划分: 数据均匀, 计算均匀, 计算重复, 数据重复,带宽增长

整体索引系统框架

系统要求

高时效性;  高容错性 (实时检索服务, 特征存储服务, 数据推送服务);  高实验性;  高一致性;  高扩展性;  高可用性

网盟广告匹配算法

广告投放

按广告主表达方式分类

1. 关键词 (输入)

2. 标签(选择)

3. 规则(输入/选择)

按建模对象分类

1. 用户维度 - 以Cookie为建模对象

2. 流量维度 - 以当前URL为建模对象

其他分类维度

1. 时空维度:当前/历史,长期/短期,地域

2. 优化目标:品牌,展现,点击,转化

3. 数据来源:搜索、浏览

广告特点

1. 低点击率

2. 低margin

3. ROI难量化

4.用户体验难量化

广告检索

广告检索漏斗模型

1. 片段触发;  2. 相关性排序;  3. 业务过滤;  4. CPM排序; 5. 机制调整

效果与性能的折中

片段触发

片段来源: 1.  当前网页; 2.  用户历史行为

片段类型: 1.  关键词;   2. 用户/流量标签;  3. 规则模板

相关性排序

衡量匹配度:  1. Term Match;  2. Topic Match;  3. Category Match

相关性排序

综合考虑各个匹配度的回归模型

1. 人工语料标注

2. 模型训练

3. 随着语料规模的增加, 更多离散特征

4. 人工辅助规则(行业矩阵)

业务过滤

地域过滤,时间过滤,预算过滤,IP过滤,站点过滤,创意优选

CPM排序

eCPM排序

eCPM = bid * Q

price_i = (bid_(i+1) * Q_(i+1)) / Q_i

机制调整

过展现控制

Hidden Cost

广告对用户/站点体验的伤害

对排名CPM调整 CPM = (Bid - HC) * Q

对计费进行调整 Price = CPM(next) / Q + HC

页面特征提取

基础特征提取

页面结构特征

Refer Query提词

站点频道提词

流量质量划分

页面主题分类

Term赋权

统计维度:基本的TF*IDF赋权方式

结构维度:网页结构角度,主要是Term的位置

语义维度:从语义角度理解网页,利用篇章主题校验

广告库维度:关键词的购买信息

用户特征提取

历史Query特征

拍卖词包含匹配算法

切词/专名边界校验

语义相关性校验

Query分类

历史浏览特征

网页关键词提取

网页分类特征

历史广告点击

历史浏览页面模板

用户分类特征

特征提取

Query关键词

Query分类

站点

页面标题,目录,主要区域

页面分类

广告点击,广告分类

频次,组合,时间衰减

规则模型

特征挖掘

人工评估

决策树

机器学习模型

语料净化(先验语料,广告点击语料)

特征选择

模型构建(分类模型,lookalike,推荐模型)

效果评估

时效性

用户体验

用户体验

单调性(连续展现)

醒目度(多媒体多广告位)

敏感性(涉及敏感行业关键词)

用户反馈

兴趣

广告

Session特征分析 (连续用户行为)

关键词提取修正:如:魔兽宝宝->宝宝

意图识别: 购买/维修/查询

语义扩展

广告特征提取

拍卖词特征

结构分析

Term赋权

创意特征

文本创意 - 飘红, 关键词,长度

多媒体创意 - 颜色,形状,大小,语义

到达页特征

网页分析

页面主题

转化页/咨询页

广告特征应用

广告分类 - 行业,敏感,欺诈

不相关提词挖掘

相关性匹配

广告CTR 预估问题

CTR预估要解决的问题

CTR预估问题的挑战

挑战1 - 数据

海量数据

训练样本:每天上亿级别的访问量

特征类型复杂:广告,用户,流量,季节,节假日等

点击率偏低

噪音数据多

问题:海量 数据,高维特征,类别极端不平衡,噪音大

挑战2 - 时效性

CTR随时间改变 - 季节,兴趣

bad case快速下线  新广告, 新网站迭代调优

方法

在线算法

移动时间窗口的Batch算法

挑战3 - Exploration

CTR预估决定未来训练样本中的广告

Exploration/Exploitation trade-off

长期收益 vs 短期收益

从机器学习角度看CTR预估问题

CTR预估问题的训练流程

CTR预估问题的机器学习算法

特征

1. 主要特征

用户,流量广告

2. 特征类型

类别型特征 categorical features

连续值特征

3. 特征表示

使用one-hot编码

使用特征外积表示特征组合

特征维数表示类别个数和,特征个数海量

特征选择

1. Filter类

单特征AUC, 单特征AUC上界, gini指数,信息熵,点击直方图

2. Wrapper类

AUC, AUC上界,MAE, WMAE, 似然Loss, 预估CTR均值,预估CTR方差

3. embedding类

L1正则化 Grafting分 Foba分

数据

数据来源

展现日志,点击日志, 用户搜索日志等

数据处理

日志拼接,不全日志删除

数据净化

异常数据过滤 (去除噪音, 比如作弊数据)

不可见日志删除

模型

线性逻辑回归模型

参数估计

最大似然

基于拟牛顿迭代计算

模型训练

分布式并行计算

MPI (Message Passing Interface) 基于进程通信的计算模型, 适合模型训练

Hadoop: 基于Map-Reduce超大数据量并发计算, 适合数据预处理

模型更新

每过一定周期,重新训练模型

模型在线实时更新

评估系统

线上评估

通过流量对比,观察收入各项指标的影响,包括CTR, CPM, ACP, 到达, 二跳

线下评估

类别不平衡

模型排序能力: AUC

模型拟合能力: 对数拟然

大规模分布式机器学习算法

特征编码及选择

数据净化

大规模分布式训练

线上线下效果评估



百度计算广告学沙龙学习笔记 - 内容匹配广告相关推荐

  1. 百度计算广告学沙龙学习笔记 - 品牌展示广告

    第三期百度计算广告学沙龙( http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d ) 介绍了内容匹配广告和展示广告相关技术. 本博客记 ...

  2. [转]内容匹配广告投放技术

    ps: 本文是百度文库课程<计算广告学之内容匹配广告&展示广告原理.技术和实践>的课程笔记,感谢百度! 内容匹配广告投放技术1:网盟概述&工程架构 课程地址http://w ...

  3. Li‘s 影像组学视频学习笔记(28)-ROI/病灶体积的计算、Li‘s have a solution and plan.

    本笔记来源于B站Up主: 有Li 的影像组学的系列教学视频 本节(28)主要讲解: 用SimpleITK包进行ROI/病灶体积的计算 1.加载包 import SimpleITK as sitk im ...

  4. 百度网盟内容匹配广告和展示广告相关技术

    第三期百度计算广告学沙龙( http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d ) 介绍了内容匹配广告和展示广告相关技术.本博客记录 ...

  5. 内容匹配广告投放技术5:品牌展示广告(一)(百度文库课程)

    该文是百度文库课程<计算广告学之内容匹配广告&展示广告原理.技术和实践>的课程笔记,感谢百度! 课程地址http://wenku.baidu.com/course/view/148 ...

  6. 内容匹配广告投放技术2:网盟广告匹配(一)(百度文库课程)

    该文是百度文库课程<计算广告学之内容匹配广告&展示广告原理.技术和实践>的课程笔记,感谢百度! 课程地址http://wenku.baidu.com/course/view/148 ...

  7. 影像组学视频学习笔记(43)-标准差、标准误及95%置信区间CI、Li‘s have a solution and plan.

    作者:北欧森林 链接:https://www.jianshu.com/p/f09d0f97592f 来源:简书,已获授权转载 本笔记来源于B站Up主: 有Li 的影像组学系列教学视频 本节(43)主要 ...

  8. 影像组学视频学习笔记(42)-影像组学特征提取问题解决过程复现、Li‘s have a solution and plan.

    作者:北欧森林 链接:https://www.jianshu.com/p/c3e6de2f79b3 来源:简书,已获转载授权 本笔记来源于B站Up主: 有Li 的影像组学系列教学视频 本节(42)主要 ...

  9. 影像组学视频学习笔记(41)-如何使用软件提取组学特征、Li‘s have a solution and plan.

    作者:北欧森林 链接:https://www.jianshu.com/p/72186eb3e395 来源:简书,已获授权转载 本笔记来源于B站Up主: 有Li 的影像组学系列教学视频 本节(41)主要 ...

最新文章

  1. php-echo原理
  2. C/C++ 语言中表达式的求值
  3. 静态链接中的那点事儿(1)
  4. java中的topicFont_Fontmin 快速指南
  5. C++中用new和不用new定义类的对象的区别解答
  6. InnoDB undo tablespace使用及原理
  7. ioctl 详细说明
  8. Android结束进程方法
  9. 推荐一个免费内网穿透穿软件(附带一个git下载加速地址)
  10. 基于CNN的人脸相似度检测
  11. 【android】网络定位服务NetworkLocationProvider
  12. 如何借助OpManager解决存储监控问题?
  13. SSM框架原理,作用及使用方法,详细解释
  14. 惠普笔记本电脑驱动BIOS下载中心,战66驱动下载
  15. PowerPoint 消除所有动画VBA指令
  16. 三星note10安装linux,三星Note10/Note10+新款Dex已支持Win10/macOS
  17. 计算机网络白龙飞,成电等你来 | 你的辅导员已上线,男神辅导员闪亮登场(一)...
  18. aardio - 【库】libxl库,一个dll操作excel
  19. matlab英文字母对应数字,MATLAB编程:大写英文字母转换成数值(0-25)两种代码
  20. lda 可以处理中文_自然语言处理——使用词向量(腾讯词向量)

热门文章

  1. android studio socket 失败,Android应用开发Android Studio建立Socket连接失败解决方法
  2. mysql jdbc路径,mysql转存数据库后,如何修改jdbc:mysql的路径
  3. emq插件开发mysql_EMQ的Mysql插件
  4. Oralce的图形化界面----plsql developer涉及到的知识点总结
  5. 中法计算机专业,计算机专业中法对照词汇
  6. myisam为什么比innodb查询快_InnoDB 和 MyISAM的数据分布是什么样的?
  7. python主线程执行_python 并发执行之多线程
  8. Leetcode - 230. Kth Smallest Element in a BST (BST)
  9. 重温强化学习之OpenAI经典场景
  10. 线性代数笔记: Cholesky分解