Interpreting Advertiser Intent in Sponsored Search
主要内容是搜索广告的相关性预估模型,使用learning to rank的方法。亮点在于使用了用户query和广告关键词的自然搜索结果特征来训练相关性
预估模型。
背景:
相关性预估 -> 用户体验 + 收入,好的相关性有助于搜索引擎好的用户体验和长期持续的收入。
传统做法: 特征来源主要来自 query + 搜索广告,通过理解用户query和广告,来判断相关性。
本文研究表明挖掘客户意图可以显著提升相关性
利用客户购买词的搜索结果,特征来源扩展为:query + 搜索广告 + 客户购买词 + 购买词搜索结果
线下 auc+43.2%  线上2.7%
搜索广告背景:
搜索引擎背景:
精准匹配 + 模糊匹配(同义词,扩展词,rewrite)
点击计费cpc
不相关广告,伤害用户体验:
用户搜索 天气, 出广告“羽绒服“ ,用户意图为天气查询
用户搜索京东,出苏宁广告
量化用户相关性可以从以下几方面着手:
  • 用户搜索query,用户意图,短文本,意图难以准确识别(辅助信息:session,点击信息,query校正等)
  • 广告创意 , 信息较准确反映客户意图,广告title信息也不足,落地页质量较差
  • 落地页
  • 广告关键词
四要素
本文致力理解广告关键词
基本假设:
1, 客户购买词反映客户的基本意图和流量需求
2,搜索引擎query理解能力较强
用户相关 : 用户query + 用户query自然结果
广告相关 : 广告关键词 + 广告关键词自然结果 + 广告创意 + 广告落地页
双刃剑:
?? 客户的购买词真是表达了客户想要reach的用户以及想要获得的那部分流量,创意和url相对固定
带来的问题是:
  • 客户乱买词肯定引起相关性下降,比如,苏宁客户购买“京东关键词”
  • 客户买词会潜在提高相关性,啤酒和尿布的故事
  • 问题在于如何评价是否相关,主观因素太强!!!
做法:
  1. 用户query和广告关键词取前40个自然结果
  2. 去自然结果页的title,snippet,描述,ODP分类,url
  3. 去停用词,进行porter stemmer主干提取【1】
  4. 将以上的词干连接,形成bow
  5. 使用LambdaMART进行训练【2】
baseline 特征,共1+3*6=19个 : 
  • query长度
  • query 和 titile 的 单词重合度,单词的bigram重合度,字符重合度,字符bigram重合度,排序单词bigram重合度,cosine距离
  • query 和 desc的 单词重合度,单词的bigram重合度,字符重合度,字符bigram重合度,排序单词bigram重合度,cosine距离
  • query 和 url的 单词重合度,单词的bigram重合度,字符重合度,字符bigram重合度,排序单词bigram重合度,cosine距离
重合度计算公式:
新增特征,共6*9=54个:
  • 创意标题与广告kwd搜索结果title,创意描述与广告kwd搜索结果描述,创意描述与广告kwd搜索结果snipet
  • Landing Page title与广告kwd搜索结果title,Landing Page正文与广告kwd搜索结果描述,Landing Page正文与广告kwd搜索结果snipet
  • Query与广告kwd搜索结果title,Query与广告kwd搜索结果描述,Query与广告kwd搜索结果snipet
使用query的自然结果辅助理解用户意图,query自然结果与广告关键词的重合特征
自然结果会返回网页分类,因此query的自然结果和广告kwd的自然结果会返回两个分类列表,可以计算分类相关性:
这样可以捕捉语义升相关性,比如 鞋子和靴子,按照这种分类相关性,可以得到较好的结果
广告的domain在用户query的自然结果中出现,表明结果较相关
广告的domian在广告关键词的自然结果中出现,表明广告主意图与客户购买词较相关
新增特征2,18 + 1 + 2= 21:
  • query自然结果title和kwd自然结果title,query自然结果desc和kwd自然结果desc,query自然结果snip和kwd自然结果snip
  • 自然结果类别相关性
  • domain 重合个数
训练集:
128万人工标注(query, ad) pairs,打分1-5,5表示最相关,32万hold-out
实验结果:
模糊匹配下准确率提升比精准匹配大,因为模糊匹配下,使用更多的信息,有助于提升相关性判断信息
增加query search特征,效果好很多,说明query seach特征作为连接信息,更多的连接了广告和query的信息
对于本来就高相关性的广告,预估效果更好,原因是高相关性的广告的自然结果交叉特征中存在更多的重合项
线上真实结果:
精准匹配下基本上无效果,说明精准匹配下,工业产品已经处理很好了
模糊匹配下QS提升明显
LambdaMART可以看出各个特征的重要性,最重要的三个特征,都是QS特征:
i) ad domain count in query organic results, 广告域名在query自然结果出现次数
ii) ordered bigram overlap between snippets of organic results for
query and ad keyword , snippet重合度
iii) ad domain count in ad keyword organic results. 广告域名与广告关键词搜索结果匹配度
query特征中最重要的是:
i) word unigram overlap between query and snippets in organic results for ad keyword 
ii) order word bigrams between query and titles of the organic results for ad keyword.
【1】 http://qinxuye.me/article/porter-stemmer/
【2】http://blog.csdn.net/huagong_adu/article/details/40710305

[paper share]KDD15 - Interpreting Advertiser Intent in Sponsored Search相关推荐

  1. 【论文阅读 CIKM‘2021】Learning Multiple Intent Representations for Search Queries

    文章目录 Original Paper Motivation Method Task Description and Problem Formulation NMIR Framework: A Hig ...

  2. Private Data Manipulation in Optimal Sponsored Search Auction

    引言 搜索广告拍卖(sponsored search auction)是搜索引擎向广告主销售搜索结果页上的广告位的一种拍卖活动.用户每搜索一个关键词,网页的顶部和侧面就可以显示一些广告.广告每被点击一 ...

  3. Deteming the User Intent of Web Search Engine

    论文心得. 把搜索分为三种类型:informational, navigational, transactional The classifications of informational, nav ...

  4. KDD2015,Accepted Papers

    Accepted Papers by Session Research Session RT01: Social and Graphs 1 Tuesday 10:20 am–12:00 pm | Le ...

  5. 《推荐系统实践》附上Reference 中的干货 (Paper,Blog等资料的链接)

    <推荐系统实践>这只是一本197页的书,但作者附上了诸多好资料,无论是paper, blog文章,wikipedia词条,数据集还是开源项目等 附上资料链接,格式基本按照'URL+资料名称 ...

  6. Reading Comprehension必读paper汇总

    文章目录 Must-read papers on Machine Reading Comprehension. Model Architecture Utilizing Extenal Knolwed ...

  7. 【Paper】Word2Vec:词嵌入的一枚银弹

    Introduction Word2Vec是Google在2013 年开源的一个词向量(Word Embedding)计算工具,其用来解决单词的分布编码问题,因其简单高效引起了工业界和学术界极大的关注 ...

  8. ### Paper about Event Detection

    Paper about Event Detection. #@author: gr #@date: 2014-03-15 #@email: forgerui@gmail.com 看一些相关的论文. 1 ...

  9. AAAI2020录用论文汇总(三)

    本文汇总了截至2月23日arxiv上上传的所有AAAI2020录用论文,共计629篇,因篇幅过长,分为三部分,分享给大家.    AAAI2020论文汇总(part 3) [401] Justific ...

最新文章

  1. 使用CEfSharp之旅(7)CEFSharp 拦截 http 请求 websocket 内容
  2. android 高德地图纠偏,高德地图纠偏算法(android ,ios)
  3. android与PC,C#与Java 利用protobuf 进行无障碍通讯【Socket】
  4. linux java 替换jre_Linux系统 无需JRE配置Java
  5. Form表单中的button导致页面刷新而无法进入Ajax请求回调函数
  6. Groovy的本地安装和Eclipse插件的配置
  7. SAP ABAP Netweaver和Hybris Commerce的开发license
  8. spring data jpa和mybatis的不同
  9. MarkDown/Html在线转换(支持代码高亮,可复制到微信公众号、今日头条)
  10. android逆向分析有什么用,如何开始对Android应用的逆向分析?
  11. 多个apple苹果设备(iphone,mac,pad,icloud)之间同步数据
  12. 2015百度之星资格赛.1004放盘子(数学推导)
  13. java adt真机调试_Unity Android 真机调试
  14. linux可上网limbo镜像,limbo模拟器win10镜像
  15. Hadoop高频面试题
  16. JavaScript中阻止事件冒泡的浏览器兼容
  17. 英皇考级——听力测试的训练方法
  18. 北京app开发公司排行榜-开发app的公司有哪些呢
  19. 华中农业计算机硕士就业,华中农业大学好就业吗?附华中农业大学就业率最高的专业名单...
  20. MIUI11Android系统耗电,小米MIUI系统升级11,网友表示很费电,学习这个省电方法够你用三天!...

热门文章

  1. python随身笔记
  2. 对话Wetez卡咩:项目方才是Staking经济中最大的赢家 | 陀螺非正式会谈
  3. C语言实现JSON字符串解码与编码(三)源代码
  4. mysql导出数据到csv的方式
  5. Oracle的客户端工具
  6. LDA: 从头到尾彻底理解LDA (Latent Dirichlet Allocation)
  7. matlab脚本命令汇总
  8. Berkeley DB介绍
  9. java参考中文站(在原有1094个中文示例)下的近期更新!
  10. 如何实现分库分表?怎么配置?