ps: 本文是百度文库课程《计算广告学之内容匹配广告&展示广告原理、技术和实践》的课程笔记,感谢百度!

内容匹配广告投放技术1:网盟概述&工程架构

课程地址http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d

第一章:内容匹配广告投放技术:网盟概述&工程架构
这章讲述内容匹配广告投放技术的概要,包括基本概念,系统框架,以及应用技术。
四大角色——互联网广告涉及的四大角色,其中网盟是用户看不到的。
网盟广告检索系统——这是一个从子系统角度看的网盟广告检索系统,主要包括页面特征子系统,用户特征子系统,广告特征子系统,检索子系统,CTR预估子系统
网盟广告检索系统所需要用到的技术,从底向上是从基础到高级应用。
应用技术——分层实验框架
广告系统优化是数据驱动,需要实验证明结论。
应用技术——用户识别
以下是应用技术层面的用户识别可以使用的技术,其中广告行业用到的最多的是HTTP COOKIE和FLASH COOKIE
用户识别技术新动向——CookieMatching
应用技术——高性能检索
细分为计算模型,网络模型,索引模型
触发策略将会通过query向量得到一批广告,然后通过交并进行归并(使用归并算法),过滤策略将会过滤一些网站主不允许投放的一些广告,初选策略会选出一些相关性从高到低的已排序广告(一般使用堆排序算法),精选策略将会精选出收益最高的广告。
********************************************************************************************************************
********************************************************************************************************************
********************************************************************************************************************
********************************************************************************************************************
********************************************************************************************************************
********************************************************************************************************************
索引的实现一般使用两种结构:树形结构和hash结构。
使用内存池的好处:1)分配内存的时候不用从用户态切换到系统态而消耗大量时间(操作系统用malloc申请内存的时候需要从用户态切换到系统态);2)内存碎片更少,使管理更加高效。
广告主操作广告的系统会在独立的服务上面,广告检索系统也在独立的服务上面,两者在物理上是隔离的,要将数据从广告主操作广告的系统传输到广告检索系统中,如果保证实时高效?一般采用如下基准加增量的形式,可能每天两次传一个100G的基准过来,然后后面广告主对广告的操作都会通过patch的形式增量的传输过来,最后进行合并形成最新的库。
无锁读写分离:采用COW,如果读的时候又有写操作,那么读的时候是读的旧版本,写的时候会将之前的版本复制出来进行修改变成新版本,这样就是读写分离,写完之后进行版本切换,版本切换就是一个指针的切换,是一个原子操作。延迟销毁:因为在多线程中,老版本的数据不能立即销毁,因此切换后可能使用老版本的线程并未结束,还需要访问这些老版本的数据,所以等待1到2秒等待线程结束后对老版本进行销毁。
需要使用普通的服务器承载大容量的广告库,当一台服务器内存不够用时,加一台机器进来就可以,但此时内存中的索引如何扩展呢?划分partition索引系统,既可以横向划分索引(将词划分成组,不同机器存储不同的组),也可以纵向划分索引(将拉链切开成组,可能一开始有20长度的链,划分成只有5个长度的链)。
partition划分,数据和计算的可扩展是基础,如果数据和计算不是可扩展的,那将不可能能进行划分。拿宽带增长为例,比如在一台机器上做top100的计算,如果数据划分到4台机器上做top100计算,那么每台机器上都要返回top100,将一共要返回400条数据,然后在400中做top100,此时宽带增长为4倍了。
下图是索引扩展的逻辑结构,用户请求过来之后做流量控制,将一个请求拆解成多个请求,分到不同的Cluster里面,每个cluster里面都会有很多的query节点去处理这个请求,每个cluster里面的数据和程序是一模一样的(完全同构),每个cluster里有一个索引节点Index Node,索引节点会定期的把广告的索引下载一个基准出来,当query节点要重启的时候,就可以用这个最新的基准加上最新的增量进行快速的启动。下部分的广告数据传输采用的是分布式的消息队列。整个集群的逻辑分布,哪个集群部署了哪些数据是通过资源定位服务来记录的,通过此服务就知道哪个请求该发到哪个集群里去才是正确的。

内容匹配广告投放技术2:网盟广告匹配(一)

课程地址http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d
第二章:网盟广告匹配
这章包括网盟广告投放,广告匹配算法,页面特征提取,用户特征提取,广告特征提取这五个小节。
第一节:网盟广告投放
网盟生态圈,ROI:投资回报率
网盟广告投放
**************************************************************************************************************
**************************************************************************************************************
联合总结起来如下:
第二节:广告匹配算法
低margin的概念:网盟的收入跟他的投入之间的gap很小。比如10w次的展现使用一台机器能赚到100块,这100块比一台机器的价值高不了多少。
广告检索系统为漏斗模型的原因主要还是在算法效果和性能之间寻求一个折中。漏斗模型从上到下,上层的算法是比较简单的,能够处理大批量的广告,越到下层,算法越精细,它将计算一些topK的广告。
片段触发:广告索引中,索引的key是片段(用户或者页面会提供一些片段,比如说代表这个用户或者网页的关键词或者分类,这是用户特征挖掘子系统和网页特征挖掘子系统所做的事),然后倒排拉链中是一些广告(平均一个拉链大概是几千),通过把用户跟网页转化成片段就能够触发一批广告;
相关性排序:由片段触发拿到一批广告候选集,这些广告要和这个用户上下文和页面上下文做一个匹配,低相关性的广告将会被去掉;
业务过滤:比如说广告主没有预算了,地域限制等,过滤剩下的广告大概为100个;
CPM排序:CPM即基于广告显示次数,每千人成本(网盟和网站主的利益最大化),CPM越高的广告会越排在前面;
机制调整:由于用户体验和广告主的一些收益问题而进行机制的调整。
**************************************************************************************************************
匹配度一般包括三类,词项的匹配度,潜在语义的匹配度 ,分类信息的匹配度 。
最后的相关性可能是以上三类匹配度再加上其他的各种各样的因素最后得到的一个模型,这个模型很可能就是一个简单的回归模型,这个回归模型则需要人工标注语料,进行模型训练。另外还有一些行业规则,比如某一类的流量只能出某一类的广告。
**************************************************************************************************************
**************************************************************************************************************
过展现控制:控制某个广告对某个用户的重现率,使用户体验更好。
内容匹配广告投放技术3:网盟广告匹配(二)
课程地址http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d
第二章:网盟广告匹配
这章包括网盟广告投放,广告匹配算法,页面特征提取,用户特征提取,广告特征提取这五个小节。

第三节:页面特征提取
三类特征,用户特征来自用户的历史行为,页面特征来自用户当前浏览的页面。
**************************************************************************************************************
第四节:用户特征提取
用户特征提取包括以下5个方面,接下来分别从这5个方面进行阐述
拍卖词要被包含在Query中,切词/专名边界校验,比如词是“满城尽带黄金甲”这是一个电影名,一个完整的词,不能把它切割成包含“黄金”的词。
历史浏览页面的特征提取有些与页面特征提取类似。
***********************************************************
***********************************************************
时效性因素:时效性在广告点击中的作用。横轴是某搜索词发生的时间跟当前广告检索请求发生的时间之间的间隔,单位为分钟,纵轴是点击率,当搜索请求与广告检索请求在相近时间发生时,此广告点击率非常高。
***************************************************************************************
通过对用户session的分析,可以知道用户正在做什么,比如用户搜索魔兽宝宝,如果此时进行关键词提取,那么我们没有足够的信息来判断到底是游戏还是育儿,通过分析用户下来所做的行为session,比如接下来又搜索了游戏的道具等,这样就可以修正关键词的提取,将魔兽宝宝定为一个游戏关键词,而不是宝宝。
第四节:广告特征提取
拍卖词特征是指广告主所指定的有关受众的词语。创意特征是指网页上展现的是什么内容,图片的,文字的或者flash的。到达页特征是指广告主所提供的用户点击广告后跳转的页面特征。
拍卖词特征提取可能涉及自然语言处理的一些东西,比如要确定“空调维修”中主体是空调,维修是意图。
************************************************************************************************
************************************************************************************************
广告特征提取后的应用

内容匹配广告投放技术4:网盟CTR预估

课程地址http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d
第三章:网盟CTR预估
第三章主要包括三小节:CTR预估背景,CTR预估特点,CTR预估模型
CTR即广告点击率
第一节:CTR预估背景
在点击计费时,用得最多的是广义二阶价格拍卖体系。
b是广告主愿意出价的价格,p是预估CTR概率(即点击的可能性有多少)。那么b*p表示展现一次广告最有可能获得的收益是多少。
最后实际收费是按照折算后的计费方式,广告主自己的广告支出费为后一名的收益比上自己的CTR,意思是价格不能再比这个值低了,再低就不能获得这样的排名了。比如 b1<b2p2/p1 的话,那么则左右同乘以p1,得 b1p1<p2p2,那么1就不是winner了。这样的话,可以鼓励广告主,如果你想每点一次少付钱,那么可以优化分母CTR,p,将CTR,p优化成最大。
第二节:CTR预估特点
本节主要讲述CTR预估在机器学习中有什么特点。
广告请求query(i)表示用户访问某个网站时,网站会对网盟发出一个广告请求,同时这个请求还会传送一些该用户特征,该网站特征等,然后网盟(CTR预估系统)会在很短时间内选出一个广告来填充这个网站的广告位。从这个过程中可以看到CTR预估系统的特点:1)响应快;2)库量大;3)持续学习能力(即如果之前出了一些不好的广告,预估系统能否学习,为后面作出更好的选择)
以下是整个点击率预估-机器学习模型的概要。训练数据就是通过展现日志得到了,一个网站的请求q(i)下展示ad1,ad2...adn个广告,后面的0,1表示是否点击了。得到庞大的广告-检索对集合训练数据后,就可以进行模型训练得到预估模型f(q,ad,w),然后测试数据(adi,?)表示该广告adi在q,w的条件(参数)下的预估模型是多少。
************************************************************************************
Online在线算法:每一个新广告到来的时候模型都更新一次。Batch算法:每一批新广告到来的时候模型都更新一次。一般Batch算法的数据量大较稳定,在线算法的时效性更强,但数据较少稳定性较差。
如果老投放精准的老广告,这些老广告能拿到的收益最大,但新广告也要需要投放,也需要投放后进行精准投放的学习,这就涉及到短期收益和长期收益的问题。
第三节:CTR预估模型

流程概要,然后分细讲解
特征进行数值化表示。
one-host编码:比如站点表示,10w个站点用长度为10w的01串表示,表示某站点时某位为1。
由于特征数巨大,数据稀疏,因此要进行特征选择。
Filter类:只考虑单个特征;
Wrapper类:克服单特征缺点,考虑特征之间的交叉组合关系。缺点是计算量大;
Embedding类:综合Filter类和Wrapper类。
AUC的英文全称为 Area Under Curve,AUC的意思是曲线下面积,AUC经常用于统计ROC曲线的面积,用来量化评估广告的CTR质量。
**************************************************************************************************************
回归模型和参数(β)学习方法。
MPI模型训练的特点是内存都很大,数据和计算是分离的。MPI主要是在计算的角度进行设计,Hadoop主要是在可扩展性的角度进行设计。
线上评估一般会将流量平均分到线上系统和线上评估系统,然后进行比较各个指标。
*************************************************************************************************************

内容匹配广告投放技术5:品牌展示广告(一)

课程地址http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d
第四章:品牌展示广告
第四章主要讲品牌展示广告,包括品牌展示广告基本概念,售卖,基础技术,精准投放技术以及效果测评。
第一节:品牌展示广告基本概念
展示广告的分类,展示广告不属于搜索广告。
品牌广告和直效广告的区别在于,品牌广告是向大众传递一种消息,给大众留下正面印象,注重长期营销。而直效广告是要直接做出营销。基于中间状态的一种广告叫着互动广告,这些广告的衡量成功与否有很大不同。
**************************************************************************************************************
*******************************************************************************************************************
***************************************************************************************************************
***************************************************************************************************************
******************************************************************************************************************
*************************************************************************
第二节:品牌展示广告卖售
广告代理商就是帮助广告主去做广告的人,他们熟悉广告投放方式,手里有一些合作网站主媒体。
售卖平台把广告代理商或者广告主和媒体联系起来的平台,比如Ad exchange,DSP/SSP。
*************************************************************************
**********************************************************************************************************
独立售卖是左边的图,此时售卖方和媒体是同一个机构。右边图中间N是network,广告联盟的方式。
CPD:cost per day,包段
CPM:每一千次多少钱。GD:guarantee display 确保展现。比如广告主充X元,那么售卖方需要在这段时间内确保展现多少次以确保这些钱消耗完。
***********************************************************************************************************
************************************************************************************************************
***********************************************************************************************************
目前市面上有两类广告平台,一类拥有自身媒体的广告平台,像雅虎自身媒体的广告平台,或者国内的新浪,优酷等,一类比如double click,adsence谷歌网盟。拥有自身媒体的广告平台,有一部分广告来源是由于公司自身有一个良好的网络媒体,他们希望广告在自己的媒体上售卖,卖得好而且有这样的技术;另一类就是网盟形式,由于自己没有好的网络媒体,但有技术,这样的话广告主和网络主都来找网盟。这是两套不同的形式,有不同的渊源和运作逻辑,前者一般是品牌和效果。但是前者这种拥有自身媒体的公司,由于技术的共通性,自身的流量肯定会有一些剩余卖不掉的,要么可能是淡季,要么是销售的原因,要么也可能由于技术的原因等,那么这些剩余的卖不掉的流量就可以以NGD的形式把它放在网盟里或者Ad exchange里卖掉。

内容匹配广告投放技术6:品牌展示广告(二)

课程地址http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d
第四章:品牌展示广告
第四章主要讲品牌展示广告,包括品牌展示广告基本概念,售卖,基础技术,精准投放技术以及效果测评。

第三节:品牌展示广告的精准投放技术
*************************************************************************************************************
***********************************************************************************************************
户籍信息,地理信息,生活方式心理感受,目标重定位
户籍基本信息,比如职业和收入决定了这个人的购买力,是否有高端产品的购买力。
数据采集,能从什么地方采集到用户的这些信息,我们知道广告平台有两种形式,一种是拥有自己媒体的广告平台,一个是网盟,其实,要采集的这些信息某些网站上不一定有,他们可能通过自己的注册信息或者通过数据整合等得到,其中,DMP数据管理平台一般拥有收集整理这些信息的能力,那么广告平台或者广告商可以通过与DMP合作的方式得到这些信息,或者通过已有的注册信息和特征运用机器学习技术来预测某些属性。
******************************************************************************
*****************************************************************************

*****************************************************************************
*********************************************************************************
其中有一个重要的问题是用户隐私,第一,有关广告平台所用到的用户信息不能包括用户敏感信息,广告呈现给你这么一个人,但与你是哪个人,叫什么名字并不知道,并没有对号入座,使用的这些信息是用来改进自己的产品;第二,所给出的广告需要对用户有好处而不是产生不好的影响。

内容匹配广告投放技术7:品牌展示广告(三)

课程地址http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d
第四章:品牌展示广告
第四章主要讲品牌展示广告,包括品牌展示广告基本概念,售卖,基础技术,精准投放技术以及效果测评。

第四节:品牌展示广告的基础技术
媒体都可以预测自己的媒体流量。Admission Control:在已有订单的展现情况下,还有没有资源能够接受此订单,或者拿进来后没资源了,但考虑拿进来后是收益更大还是罚款更大等等,具体过程如下图
具体决策如下:
库存分配问题:
具体决策如下,这是一个有限制条件的明确的规划问题。
价格体系:
第五节:品牌展示广告的效果评测
著名的效果评测CTR点击率,但品牌广告对点击率并不感冒,那么怎么衡量呢?
问卷调查:
互动指数(Engagement Index):
*************************************************************************************************************

文章来源:http://blog.csdn.net/suqier1314520

[转]内容匹配广告投放技术相关推荐

  1. 内容匹配广告投放技术5:品牌展示广告(一)(百度文库课程)

    该文是百度文库课程<计算广告学之内容匹配广告&展示广告原理.技术和实践>的课程笔记,感谢百度! 课程地址http://wenku.baidu.com/course/view/148 ...

  2. 内容匹配广告投放技术2:网盟广告匹配(一)(百度文库课程)

    该文是百度文库课程<计算广告学之内容匹配广告&展示广告原理.技术和实践>的课程笔记,感谢百度! 课程地址http://wenku.baidu.com/course/view/148 ...

  3. 百度网盟内容匹配广告和展示广告相关技术

    第三期百度计算广告学沙龙( http://wenku.baidu.com/course/view/1488bfd5b9f3f90f76c61b8d ) 介绍了内容匹配广告和展示广告相关技术.本博客记录 ...

  4. 百度计算广告学沙龙学习笔记 - 内容匹配广告

    百度计算广告学沙龙学习笔记 - 内容匹配广告 时间 2014-02-05 18:53:55 CSDN博客 原文  http://blog.csdn.net/three_body/article/det ...

  5. 用AI实现智能化广告投放:探讨智能广告投放技术和实时广告投放

    作者:禅与计算机程序设计艺术 在互联网技术飞速发展的今天,每天都有成千上万的人在网上进行各种各样的活动,例如购物.阅读.观看视频等.为了让用户更加高效地获取信息,广告也逐渐成为互联网领域中重要的收入来 ...

  6. 网络营销广告投放策略

    网络营销广告投放策略 网络营销第一桶金:10年微博热火,粉丝1毛一个,我看到了这个机会.开发了注册微博账户的软件 可以卖粉丝了 怎么推广呢 微博账户头像上加广告,去关注活人,被关住的人,就能看到广告, ...

  7. 2022业界广告推荐技术最新进展与趋势:阿里、腾讯、字节、微软

    猜你喜欢 0.淘宝首页猜你喜欢推荐建模实践 1.[免费下载]2022年8月份热门报告 2.[实践]小红书推荐中台实践 3.微信视频号实时推荐技术架构分享 4.对比学习在宽狩推荐系统中的应用实践 5.微 ...

  8. Google Play广告投放的资源格式

    下载转化率好的Google应用广告,在符合广告指南的同时,还要提供高质量的创意内容,那具体该怎么做呢? 内容与应用的品牌风格保持一致,确保广告的投放内容能够反应品牌的形象和风格. 内容与广告投放的目标 ...

  9. 【广告技术】用张量分解预测广告库存,广告投放更可靠!

    [Wiztalk腾讯广告专场]系列分享来袭,第二期由中国科学技术大学计算机学院.特任教授张兰老师为大家深度介绍 <基于大规模数据张量分解的广告库存预估>. "下个月会有多少用户看 ...

最新文章

  1. 使用Crypto++ ecdsa 进行签名和认证
  2. Python函数之计算规则图形的面积
  3. AI:2020年6月21日北京智源大会演讲分享之14:00-14:25 张铭教授《基于知识图谱的机器学习》
  4. 从零开始入门 K8s | 应用编排与管理
  5. leetcode 130. Surrounded Regions | 130. 被围绕的区域(DFS递归“感染“思路)
  6. 线程间操作无效: 从不是创建控件“Control Name'”的线程访问它问题的解决方案及原理分析...
  7. 一文看懂边缘云在广电行业的应用
  8. wrong ELF class: ELFCLASS64
  9. 昨晚我把900W+数据,从17s优化到300ms
  10. CS231n李飞飞计算机视觉 神经网络训练细节part2上
  11. maven+Tomcat热部署
  12. html515vb,APx515 音频分析仪
  13. html中的特殊符号表示法
  14. 对往届软件工程的思考——写在软件工程开课之际 by 姜健
  15. 让华为小米抱团 统一推送联盟究竟是何方神圣?
  16. 解决 canvas隐藏后出现滚动条的问题
  17. 计算机横向查找,Excel查找引用函数:HLOOKUP查找首行并显示指定的值-excel技巧-电脑技巧收藏家...
  18. 十六款优秀任务管理软件,哪款适合您呢?
  19. (一)权限管理系统介绍
  20. 资料搜集-JAVA系统的梳理知识

热门文章

  1. 王者荣耀8月15日服务器维护,王者荣耀8月15日更新维护公告 马超五虎上将新版本上线...
  2. FPGA设计中,跨时钟域问题的处理
  3. 【BZOJ3993】 星际战争
  4. CAD 正在重生成模型然后卡住不动
  5. 支付宝统一下单接口的接入(1)
  6. 机械革命z2g 搭建tensorflow_gpu-1.12.0 (1660ti-6g显卡+ i7-9752h cpu)
  7. cts游戏手机版_cts游戏手机版ios
  8. mate9解除root,华为mate9怎么解锁
  9. TwinCAT3 常见问题4——Delta伺服使能问题
  10. java调用手机麦克风录音以及保存音频文件到服务器