第三期百度计算广告学沙龙( http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d ) 介绍了内容匹配广告和展示广告相关技术。本博客记录观看内容匹配广告部分的一些笔记, 绝大多数为原slide内容,只做简单的整理。

背景

 涉及四方:网民(Users) + 网站主 (Publishers) + 广告主(Advertisers) + 网盟 (AdNetwork/Matcher)广告计费计费方式CPC 按点击收费CPM 按展示收费CPC+CPM 混合收费广义二阶价格拍卖 (Generalized second price)

网盟广告检索系统
广告系统整体架构

广告系统相关技术

应用技术 - 分层实验框架

 AB-Test用户实验/页面实验/随机实验通过分层流量复用提高实验并发率Reference: Overlapping Experiment Infrastructure: More, Better, Faster Experimentation (Google KDD 2010)

应用技术 - 用户识别

 浏览器插件/客户端软件/HTTP Cookie/Flash Cookie/本地用户数据(如everCookie)/IP+UA/登陆帐号用户识别技术新动向 - CookieMatching

应用技术 - 高性能检索

计算模型

 触发策略->过滤策略->初选策略->精选策略 (广告量减少, 计算量增加)

网络模型

 同步模型, 半异步模型, 全异步模型慢Query对系统吞吐量影响产生原因: 攻击行为, 实验引入, 服务bug, 网络抖动, 机器异常监控处理: 比例波动检测以确定原因;自我保护,超过阈值则终端; Cache结果; 简化算法牺牲效果, 直接丢弃

索引模型
广告库的逻辑结构
帐户->计划->推广组->广告
技术要求
实时性更新: 1s内生效, 高并发读写
高查询性能: 查询qps达到每秒100万 - 1000万
技术方案需要
无锁的并发模型
全内存的数据模型
无锁的并发模型
COW(Copy on Write) 读写分离
延迟销毁

索引扩展

 划分: 数据均匀, 计算均匀, 计算重复, 数据重复,带宽增长


整体索引系统框架

系统要求

 高时效性; 高容错性 (实时检索服务, 特征存储服务, 数据推送服务); 高实验性; 高一致性; 高扩展性; 高可用性

网盟广告匹配算法

广告投放

 按广告主表达方式分类1. 关键词 (输入)2. 标签(选择)3. 规则(输入/选择)按建模对象分类1. 用户维度 - 以Cookie为建模对象2. 流量维度 - 以当前URL为建模对象其他分类维度1. 时空维度:当前/历史,长期/短期,地域2. 优化目标:品牌,展现,点击,转化3. 数据来源:搜索、浏览

广告特点

 1. 低点击率2. 低margin3. ROI难量化4.用户体验难量化

广告检索

广告检索漏斗模型

 1. 片段触发; 2. 相关性排序; 3. 业务过滤; 4. CPM排序;5. 机制调整效果与性能的折中

片段触发

 片段来源: 1. 当前网页; 2. 用户历史行为片段类型: 1. 关键词;  2. 用户/流量标签; 3. 规则模板

相关性排序

 衡量匹配度: 1. Term Match; 2. Topic Match; 3. Category Match相关性排序综合考虑各个匹配度的回归模型1. 人工语料标注2. 模型训练3. 随着语料规模的增加, 更多离散特征4. 人工辅助规则(行业矩阵)

业务过滤

 地域过滤,时间过滤,预算过滤,IP过滤,站点过滤,创意优选

CPM排序

 eCPM排序eCPM = bid * Qprice_i = (bid_(i+1) * Q_(i+1)) / Q_i

机制调整

 过展现控制Hidden Cost广告对用户/站点体验的伤害对排名CPM调整 CPM = (Bid - HC) * Q对计费进行调整 Price = CPM(next) / Q + HC

页面特征提取

 基础特征提取页面结构特征Refer Query提词站点频道提词流量质量划分页面主题分类Term赋权统计维度:基本的TF*IDF赋权方式结构维度:网页结构角度,主要是Term的位置语义维度:从语义角度理解网页,利用篇章主题校验广告库维度:关键词的购买信息

用户特征提取

 历史Query特征拍卖词包含匹配算法切词/专名边界校验语义相关性校验Query分类历史浏览特征网页关键词提取网页分类特征历史广告点击历史浏览页面模板用户分类特征特征提取Query关键词Query分类站点页面标题,目录,主要区域页面分类广告点击,广告分类频次,组合,时间衰减规则模型特征挖掘人工评估决策树机器学习模型语料净化(先验语料,广告点击语料)特征选择模型构建(分类模型,lookalike,推荐模型)效果评估时效性用户体验用户体验单调性(连续展现)醒目度(多媒体多广告位)敏感性(涉及敏感行业关键词)用户反馈兴趣广告Session特征分析 (连续用户行为)关键词提取修正:如:魔兽宝宝->宝宝意图识别: 购买/维修/查询语义扩展

广告特征提取

 拍卖词特征结构分析Term赋权创意特征文本创意 - 飘红, 关键词,长度多媒体创意 - 颜色,形状,大小,语义到达页特征网页分析页面主题转化页/咨询页广告特征应用广告分类 - 行业,敏感,欺诈不相关提词挖掘相关性匹配

广告CTR预估问题

CTR预估要解决的问题

CTR预估问题的挑战

 挑战1 - 数据海量数据训练样本:每天上亿级别的访问量特征类型复杂:广告,用户,流量,季节,节假日等点击率偏低噪音数据多问题:海量数据,高维特征,类别极端不平衡,噪音大挑战2 - 时效性CTR随时间改变 - 季节,兴趣bad case快速下线  新广告, 新网站迭代调优方法在线算法移动时间窗口的Batch算法挑战3 - ExplorationCTR预估决定未来训练样本中的广告Exploration/Exploitation trade-off长期收益 vs 短期收益

从机器学习角度看CTR预估问题

CTR预估问题的训练流程


CTR预估问题的机器学习算法

特征

 1. 主要特征用户,流量广告2. 特征类型类别型特征 categorical features连续值特征3. 特征表示使用one-hot编码使用特征外积表示特征组合特征维数表示类别个数和,特征个数海量

特征选择

 1. Filter类单特征AUC, 单特征AUC上界, gini指数,信息熵,点击直方图2. Wrapper类AUC, AUC上界,MAE, WMAE, 似然Loss, 预估CTR均值,预估CTR方差3. embedding类L1正则化 Grafting分 Foba分

数据

 数据来源展现日志,点击日志, 用户搜索日志等数据处理日志拼接,不全日志删除数据净化异常数据过滤 (去除噪音, 比如作弊数据)不可见日志删除

模型

 线性逻辑回归模型

 参数估计最大似然基于拟牛顿迭代计算

模型训练

 分布式并行计算MPI (Message Passing Interface) 基于进程通信的计算模型, 适合模型训练Hadoop: 基于Map-Reduce超大数据量并发计算, 适合数据预处理模型更新每过一定周期,重新训练模型模型在线实时更新

评估系统

 线上评估通过流量对比,观察收入各项指标的影响,包括CTR, CPM, ACP, 到达, 二跳线下评估类别不平衡模型排序能力: AUC模型拟合能力: 对数拟然

大规模分布式机器学习算法

 特征编码及选择数据净化大规模分布式训练线上线下效果评估

百度网盟内容匹配广告和展示广告相关技术相关推荐

  1. 怎么去除百度网盟推广广告

    1.浏览器"工具"-"Internet选项" 2."安全"-"受限制的站点"-"站点" 3.把&qu ...

  2. 百度网盟推广合作主题悬浮于今日正式上线

    国站长站(chinaz.com)讯 来自百度网盟官方的消息,百度网盟推广合作主题悬浮于今日正式上线.侧栏.按钮.视窗三大悬浮形式助您提升收益! 侧栏悬浮样例(三大悬浮形式之一) 百度网盟推广合作主题悬 ...

  3. 华为:海思坚持研发尖端半导体,不会进行任何重组或裁员;百度网盘下线SVIP会员免第三方广告特权;一加宣布与OPPO合并...

    EA周报 2021年6月18日 每个星期7分钟,元宝带你喝一杯IT人的浓缩咖啡,了解天下事.掌握IT核心技术. 周报看点 1.阿里云盘 PC 版上线:开放 30G 大文件传输 2.谷歌宣布将使用 AM ...

  4. 2016太原网络营销师讲百度竞价(SEM)如何设计百度网盟账户?

    2016太原网络营销师郭文军讲百度竞价(SEM)如何设计百度网盟账户? 谈一谈如何设计百度网盟账户? 1.账户结构 定向方式+定向特点+物料展现方式 2.广告内容 3.其他考虑

  5. 科学设置百度网盟到访定向,提升竞价转化率!

    到访定向,一直是竞价网盟提升广告投放效果和转化率的核心武器,对于长期实战在竞价一线的工作人员来说,效果巨大! 百度网盟在2015年来又进行了一系列的升级,广告投放更加精准,对于技术的要求也更加高.本文 ...

  6. 百度网盟怎样投放来辅助百度竞价推广

    百度网盟怎样投放来辅助百度竞价推广 做百度竞价推广久了发现一个奇怪的规律,有的人会抱怨说百度竞价搜索推广恶意点击多,有的人会抱怨说百度网盟恶点多没效果.不同行业之间,有这样的说法还正 常.但是相同行业 ...

  7. 栖与谁邻解析:百度网盟操作要筛选哪种无效投放网站, 哪些网站要屏蔽

    百度网盟是百度推广的其中一个核心产品,相对搜索推广来说没那么精准,但是其超高的曝光量,而其不用很高的费用,对于品牌的宣传可以起到非常好的作用.而如果计划设置得好,投放媒体准确的话,其效果也不亚于百度竞 ...

  8. 2016太原网络营销师揭秘面试题百度竞价(SEM)中百度网盟推广的理解?

    2016太原网络营销师郭文军揭秘面试题百度竞价(SEM)中百度网盟推广的理解? 谈一谈你对百度网盟推广的理解? 1.一种重要的营销手段 2.跟竞价比较的特点 3.和竞价的关系.自身的价值

  9. 【百度网盟教程】如何登陆百度网盟(1)

    Hello,大家好,很久没上来更新博客了.因为忙着自己的事情,所以都忘记上来更新博客了.很多朋友问我为什么最近都没什么干货了呢?呵呵,今天开始给大家连载一下网盟的教程吧!这次连载都是一些基本的操作,但 ...

最新文章

  1. SQL基础学习总结:2(表的创建、删除、更新和名称修改)
  2. 一次SQL查询优化原理分析(900W+数据,从17s到300ms)
  3. 教你几个写出原创文章的小方法
  4. centos7杀掉进程_Linux下强制杀死进程的方法详解
  5. 连接hadoop java.io.IOException:Could not locate executable null\bin\winutils.exe in the Hadoop binarie
  6. [密码学基础][信息安全][每个信息安全博士生应该知道的52件事][Bristol Cryptography][第11篇]DLP、CDH和DDH问题是什么?
  7. esp32的GPIO操作
  8. Redis简介与安装
  9. 瑞幸咖啡恢复交易 股价大跌35.76%
  10. oracle subset-superset pairs,Oracle 字符集
  11. java如何把汉字转换成机内码_如何用java随机生成一个汉字?
  12. 超体故事:写作,我想少一些功利多一点真诚
  13. ERP与MES集成技术在服装行业中的应用
  14. 世界通用闹铃(闹钟铃声)铃声 世界通用闹铃(闹钟铃声)手机铃声...
  15. SeetaFace开源人脸识别引擎
  16. HTML5实现的树叶飘落动画特效
  17. oracle实例的内存(SGA和PGA)调整,优化数据库性能
  18. 关于向数据库中插入数据时报“An explicit value for the identity column in table can only be specified when ...“的错误
  19. 【Java】从Java代码到网络编程,三次握手又该如何理解
  20. 坑蒙拐骗微服务,掌灯填坑架构人

热门文章

  1. 网络入侵检测--Snort软件运行模式及参数详解
  2. 微信小程序手机授权注册号接口TP6
  3. MH370被劫持新证据 飞机高度突降或暗示有搏斗
  4. 视频会议系统介绍,视频会议系统发展
  5. 自动驾驶/智能网联在通勤客车示范应用情况
  6. 数字签名和数字证书的原理解读(图文)
  7. 除了要学的 什么都好看
  8. SNMP4J 处理中文信息时的问题
  9. Linux、Python第一次月考总结反思
  10. My first baby