再看同义变换在百度搜索广告中的应用总结
一、概述
原文:同义变换在百度搜索广告中的应用,https://mp.weixin.qq.com/s/ybkbU8p_3jgKuCGdNWeG8w
二、 关键词匹配问题定义
2.1 定义
- 输入:query、匹配模式、关键词库
- 输出:满足匹配的全部关键词
- 限制:匹配模式
2.2 例子:
- ○ query:双眼皮手术多少钱?
- ○ Match type:精确匹配
- ○ 一些典型的目标召回关键词:
- ■ 双眼皮手术的价格?
- ■ 双眼皮手术多少钱?
- ■ 割一个双眼皮花多少钱?
三、 问题挑战
Semantic Gap:用户和广告主表达不一样?
3.1 对于医疗:同一个tab可能能代表多个意思。
- 例如:实体:糖尿病: tab:治疗
a. 1. 糖尿病的治疗方法
b. 2. 得了糖尿病该如何治疗?
c. 3. 糖尿病有哪些治疗方法?
d. 4. 患者得了糖尿病一般有哪些治疗方法?:https://wap.sogou.com/web/searchList.jsp?from=index&pid=sogou-waps-7880d7226e872b77&t=1639982337252&s_t=1639982338943&s_from=index&pg=webSearchList&inter_index=&keyword=%E6%82%A3%E8%80%85%E5%BE%97%E4%BA%86%E7%B3%96%E5%B0%BF%E7%97%85%E4%B8%80%E8%88%AC%E6%9C%89%E5%93%AA%E4%BA%9B%E6%B2%BB%E7%96%97%E6%96%B9%E6%B3%95&suguuid=c9f2b141-8d02-40c7-b628-508733d9a961&sugsuv=AAEdW%2FhZOgAAAAqgMiUbAwEAAAA&sugtime=1639982338943
e. 5. 患者得了2型糖尿病一般有哪些治疗方法? https://wap.sogou.com/web/searchList.jsp?dp=1&pid=sogou-waps-7880d7226e872b77&t=1639982385377&s_t=1639982391067&s_from=result_up&n_s_from=up_input&htprequery=%E6%82%A3%E8%80%85%E5%BE%97%E4%BA%86%E4%B8%80%E5%9E%8B%E7%B3%96%E5%B0%BF%E7%97%85%E4%B8%80%E8%88%AC%E6%9C%89%E5%93%AA%E4%BA%9B%E6%B2%BB%E7%96%97%E6%96%B9%E6%B3%95&keyword=%E6%82%A3%E8%80%85%E5%BE%97%E4%BA%862%E5%9E%8B%E7%B3%96%E5%B0%BF%E7%97%85%E4%B8%80%E8%88%AC%E6%9C%89%E5%93%AA%E4%BA%9B%E6%B2%BB%E7%96%97%E6%96%B9%E6%B3%95&pg=webSearchList&rcer=QNz_aJ4iY4Gcw-M3&s=%E6%90%9C%E7%B4%A2&suguuid=367c32b0-5190-4684-9540-d263b28ecc2e&sugsuv=AAEdW%2FhZOgAAAAqgMiUbAwEAAAA&sugtime=1639982391066
f. 6. 小孩子患者得了2型糖尿病一般有哪些治疗方法?https://wap.sogou.com/web/searchList.jsp?dp=1&pid=sogou-waps-7880d7226e872b77&t=1639982450524&s_t=1639982453334&s_from=result_up&n_s_from=up_input&htprequery=%E5%AE%9D%E5%AE%9D%E6%82%A3%E8%80%85%E5%BE%97%E4%BA%862%E5%9E%8B%E7%B3%96%E5%B0%BF%E7%97%85%E4%B8%80%E8%88%AC%E6%9C%89%E5%93%AA%E4%BA%9B%E6%B2%BB%E7%96%97%E6%96%B9%E6%B3%95&keyword=%E5%B0%8F%E5%AD%A9%E5%AD%90%E6%82%A3%E8%80%85%E5%BE%97%E4%BA%862%E5%9E%8B%E7%B3%96%E5%B0%BF%E7%97%85%E4%B8%80%E8%88%AC%E6%9C%89%E5%93%AA%E4%BA%9B%E6%B2%BB%E7%96%97%E6%96%B9%E6%B3%95&pg=webSearchList&rcer=QNz_aJ4iY4Gcw-M3&s=%E6%90%9C%E7%B4%A2&suguuid=3d4343e5-703f-431e-b1ff-a5dd61e70a52&sugsuv=AAEdW%2FhZOgAAAAqgMiUbAwEAAAA&sugtime=1639982453334
g. 7. 患者眼睛得了白内障该如何治疗? https://wap.sogou.com/web/searchList.jsp?dp=1&pid=sogou-waps-7880d7226e872b77&t=1639982454129&s_t=1639982494605&s_from=result_up&n_s_from=up_input&htprequery=%E5%B0%8F%E5%AD%A9%E5%AD%90%E6%82%A3%E8%80%85%E5%BE%97%E4%BA%862%E5%9E%8B%E7%B3%96%E5%B0%BF%E7%97%85%E4%B8%80%E8%88%AC%E6%9C%89%E5%93%AA%E4%BA%9B%E6%B2%BB%E7%96%97%E6%96%B9%E6%B3%95&keyword=%E6%82%A3%E8%80%85%E7%9C%BC%E7%9D%9B%E5%BE%97%E4%BA%86%E7%99%BD%E5%86%85%E9%9A%9C%E8%AF%A5%E5%A6%82%E4%BD%95%E6%B2%BB%E7%96%97&pg=webSearchList&rcer=QNz_aJ4iY4Gcw-M3&s=%E6%90%9C%E7%B4%A2&suguuid=a4732cac-a3f1-4a63-ad21-07172bac6202&sugsuv=AAEdW%2FhZOgAAAAqgMiUbAwEAAAA&sugtime=1639982494605
h. 8. 患者鼻子得了白内障该如何治疗? https://wap.sogou.com/web/searchList.jsp?dp=1&pid=sogou-waps-7880d7226e872b77&t=1639982495345&s_t=1639982630036&s_from=result_up&n_s_from=up_input&htprequery=%E6%82%A3%E8%80%85%E7%9C%BC%E7%9D%9B%E5%BE%97%E4%BA%86%E7%99%BD%E5%86%85%E9%9A%9C%E8%AF%A5%E5%A6%82%E4%BD%95%E6%B2%BB%E7%96%97&keyword=%E6%82%A3%E8%80%85%E9%BC%BB%E5%AD%90%E5%BE%97%E4%BA%86%E7%99%BD%E5%86%85%E9%9A%9C%E8%AF%A5%E5%A6%82%E4%BD%95%E6%B2%BB%E7%96%97&pg=webSearchList&rcer=QNz_aJ4iY4Gcw-M3&s=%E6%90%9C%E7%B4%A2&suguuid=3ac2cab6-d0e9-4062-9b2c-d3069ff0c641&sugsuv=AAEdW%2FhZOgAAAAqgMiUbAwEAAAA&sugtime=1639982630036
总结:一个tab下的内容比较泛,并且句子和句子间存在gap
3.2. 工程性能:关键词量级比较大,无论在线还是离线,计算资源都非常有限。
- 队列压缩:在keyword端,关键词匹配中,一个query通常会触发得到大量的候选关键词,基于同一关系,压缩关键词,减少计算量。
- 基于代表元来触发:原始keyword词库->压缩->代表元库->触发线上query
四、方案
- 从规则触发,短语粒度同义词替换,句子级别同义pair挖掘
- 数据驱动的模型泛化,数据,模型,泛化
4.1 数据源:
- ● 系统外部
- ○ 搜索点击日志 query-title
- ○ Session日志,query-query,共点query
- ○ 协同过滤
- ■ query-query相似度计算,基于用户点击url
- ■ keyword-keyword相似度计算
- ○ 规则替换
- ● 系统内部
- ○ 商业点击日志query-keyword
4.2 模型:
● 三种模型思路:seq2seq生成模型,双塔模型(语义的度量模型),或者图模型
4.2.1 基于seq2seq模型来泛化召回
Q1原来有3个召回结果A、B、C,基于模型,定向再关键词库中做召回,有可能把A1,B1也召回出来。
- ● 优点:
- ○ end2end建模
- ○ 语料ok的情况下,质量很好
- ○ 简单,正例驱动
- ● 缺点:
- ○ 效率低
- ■ decode阶段比较慢
- ■ 冗余翻译
- ○ 定向翻译
- ■ 不能保证decode出来的结果都是keyword
- ○ 训练和预测不一致,训练是一对一,目标是一对多
- ○ 效率低
4.2.2 效率问题改进一之规范化
- 翻译->冗余度高->在query和keyword端,都先进行归一化,然后再规范化的空间中来做匹配。
规范化步骤:冗余词去除,副词,标点符号处理
统一模型来校验
4.2.2 泛化能力提高之基于概念来泛化
- ● 数据驱动的硬伤
- ○ 没有数据就驱动不了
- ○ 往往只学到了数据上的共线,缺乏概念抽象推理功能
- ■ 样本:眼睛得了白内障该如何治疗 = 白内障治疗方法
- ● https://wap.sogou.com/web/searchList.jsp?dp=1&pid=sogou-waps-7880d7226e872b77&t=1639985538116&s_t=1639985556479&s_from=result_up&n_s_from=up_input&htprequery=%E5%98%B4%E5%B7%B4%E5%BE%97%E4%BA%86%E5%8F%A3%E8%85%94%E6%BA%83%E7%96%A1%E8%AF%A5%E5%A6%82%E4%BD%95%E6%B2%BB%E7%96%97%EF%BC%9F&keyword=%E7%9C%BC%E7%9D%9B%E5%BE%97%E4%BA%86%E7%99%BD%E5%86%85%E9%9A%9C%E8%AF%A5%E5%A6%82%E4%BD%95%E6%B2%BB%E7%96%97&pg=webSearchList&rcer=hNz_aRIBWIwCGa7H&s=%E6%90%9C%E7%B4%A2&suguuid=53352eda-e172-4537-b305-7249783b9fd5&sugsuv=AAEdW%2FhZOgAAAAqgMiUbAwEAAAA&sugtime=1639985556479
- ■ 概念推理?:嘴巴得了口腔溃疡该如何治疗?口腔溃疡治疗方法
- ● https://wap.sogou.com/web/searchList.jsp?dp=1&pid=sogou-waps-7880d7226e872b77&t=1639983300865&s_t=1639985537209&s_from=result_up&n_s_from=up_input&htprequery=%E9%BC%BB%E7%82%8E%E4%BC%9A%E5%BC%95%E8%B5%B7%E5%A4%B4%E7%97%9B%E5%90%97&keyword=%E5%98%B4%E5%B7%B4%E5%BE%97%E4%BA%86%E5%8F%A3%E8%85%94%E6%BA%83%E7%96%A1%E8%AF%A5%E5%A6%82%E4%BD%95%E6%B2%BB%E7%96%97%EF%BC%9F&pg=webSearchList&rcer=hNz_aRIBWIwCGa7H&s=%E6%90%9C%E7%B4%A2&suguuid=a26ea590-2863-4d2d-bd24-c6669f22a461&sugsuv=AAEdW%2FhZOgAAAAqgMiUbAwEAAAA&sugtime=1639985537209
- ■ 样本:眼睛得了白内障该如何治疗 = 白内障治疗方法
- ● 解决办法
- ○ UNK问题:copyNet,pointerNet
- ○ 概念实体识别
- ■ 眼睛得了白内障该如何治疗
- ■ 【body】【disease】治疗方法 -> disease治疗方法
- ■ 嘴巴得了口腔溃疡该如何治疗?=> 口腔溃疡治疗方法
4.2.3 基于语义度量来做同义泛化
翻译模型改成:=>语义向量模型,在语义向量空间寻找k近邻
- ● 思路:
- ○ 投影到共同的语义度量空间中
- ○ 同义的query-keyword在度量空间中近邻
- ● 分两步
- ○ 投影
- ○ 寻找k近邻
获得投影算子
- ● 投影算子
- ○ BOW/CNN/RNN/Transformer
- ● 度量
- ○ Euclidean distance / cosine
- ● 数据
- ○ 整理:base data
- ○ 负例:Random negative,other match type data
基于度量空间=>层次kmeans构建树形索引=>log(n)时间定为到分桶
4.2.4 基于图模型来做同义泛化
- ● 思路:
- ○ query和keyword都看成node
- ○ 是否同义看成是边
- ○ 优点:
- ■ 引入更多图的数据,融入异构数据
- ● session日志
- ● 用户点击日志
- ■ 引入更多图的数据,融入异构数据
- ● 通过预测query-keyword是否存在边来做吗?
步骤
- 构造图
- 计算每个节点的低纬表达
- 为每个节点寻找k近邻
4.2.5 总结
● 基于高质量的种子数据=>抽象出模型=>泛化得到delta数据
4.3 badcase修复方法
4.3.1 定义:定义成一个同义判定的问题
- ● F(query, keyword) = 0 or 1
4.3.2 方法1. Feature-driven: 人工特征+少量标记数据+浅层模型
- ○ 词粒度的匹配度计算
- ■ 最大匹配长度,miss/match,bm25
- ■ 命名实体的相似度、句法依存、文档分类
- ■ 语义相似性
- ● DSSm搜索点击数据
- ■ 搜索检索结果的相似度
- ■ 数据
- ● 少量人工标记数据
- ■ 模型
- ● 浅层DNN,GBDT
4.3.3 方法2. Data-driven:transformer+弱监督预训练+domain finetuning
- ○ 多阶段预训练+finetuning
- ■ ERNIE Large -> 弱监督数据 -> 人工标记数据
- ○ 数据
- ■ 海量弱监督数据
- ● 用户侧query-query,商业侧keyword-keyword,query-keyword,负反馈数据
- ■ 少量人工标记数据
- ● 主动学习、概念增强
- ■ 训练
- ● 多阶段预训练 + finetuning + 对抗训练
- ■ 效果
- ● 远超特征驱动的模型
- ○ 大模型容量+海量的数据预训练=>更多同义知识
- ○ Transformer中多头注意力起到了软对齐的作用
- ● 远超特征驱动的模型
- ■ 海量弱监督数据
4.3.4 数据增强,为标记样本做最充分的数据增强
- ○ 人工标记样本太少
- ○ 基于同义变换来增强
- ○ 基于概念标注来增强
3.3.5. 开放性问题,盲区数据补充 - ○ 其他盲区 => 弱监督数据起到了盲区补充的作用
再看同义变换在百度搜索广告中的应用总结相关推荐
- 10搜索文件内容搜不出_百度搜索广告太多?内容太杂?可能你们缺少这10个神器网站...
百度搜索广告太多,搜索结果内容太杂,有很多虚假无用的信息. 用过百度的应该都有这些体会. 众所周知,百度搜索早已成为互联网基础设施,人人皆知人人都用,给百度贴上"必不可少"的标签都 ...
- 油猴插件(隐藏知乎标题,屏蔽百度搜索广告)
1.隐藏知乎标题 先下载安装一个浏览器插件"油猴插件"(Tampermonkey): https://www.aliyundrive.com/s/4rTXeq7R8bx 提取码: ...
- 百度模糊搜索怎么实现_百度搜索广告是什么?百度搜索竞价广告投放推广效果怎么样?...
一.百度搜索广告是什么? 百度搜索广告已成为互联网最主流的广告方式之一,广告主可根据小伙伴们的搜索习惯,制定符合小伙伴们的关键词来覆盖,然后推广自己的产品或提升品牌知名度. 另外,百度搜索广告是按照点 ...
- 百度搜索广告投放的展现位置!百度推广广告是如何扣费的?
什么是百度搜索广告,是一种按照效果付费的网络推广方式,可以用比较少的的投入就可以给企业带来大量的潜在客户,可以有效地帮助提升企业的营销量,搜索广告展示在什么位置,百度搜索广告出现在搜索结果页的第一页左 ...
- 百度搜索URL中的参数都是什么
最近,点石排名更新了一个新功能--站内搜索.其实理解起来也很简单,就是通过URL限定搜索结果为某个网站,从而参与点击(例如:https://www.baidu.com/s?wd=SEO&si= ...
- 百度搜索结果中的网站描述
博友Jarry 给我发了一封邮件,问我为什么Sino Blog 在Google 搜索结果中的网站描述是:"蓝兔的个人博客,是一个以学习和交流为目的的原创写作博客." 而在百度搜索结 ...
- html百度收录缩略图,百度搜索结果中的缩略图如何替换?
如何在搜索结果中替换百度网站标题下的小图片(缩略图)是很多站长关心的问题.一个更加直观和醒目的缩略图无疑会给他们的网站带来更多流量.为什么有些网站有图片,有些网站没有图片? 我怎样才能匹配这张图片?前 ...
- 法律服务如何在百度投放广告?百度搜索广告是什么
法律服务类广告想在百度上投放广告首先需要提供营业执照副本,只可公司类客户推广,从事法律咨询行业的客户无需提交律师事务所执业证书,需要提交营业执照,核定其经营范围,需要包含的社会法律咨询,法律文书代理, ...
- 预训练技术在美团到店搜索广告中的应用
猜你喜欢 0.2021年轻人性生活调研报告1.如何搭建一套个性化推荐系统?2.从零开始搭建创业公司后台技术栈3.2021年10月份热门报告免费下载4.微博推荐算法实践与机器学习平台演进5.腾讯PCG推 ...
最新文章
- 550种Blender风格化笔刷素材
- oj上c语言编译错误,名字的漂亮度(华为OJ)C语言版本(提示格式错误,但是编译器没有报错,知道的网友提个意见)...
- oracle access manager token,Laravel 自带的 API 守卫驱动 token 使用详解
- 简单的openssh自动升级脚本
- jQuery-1.9.1源码分析系列(五) 回调对象
- js 取html自定义属性,JS操作html中的自定义属性
- setState同步异步场景
- H5 js 处理localstorage方法封装
- curl: (7) Failed connect to localhost:9200; Connection refused
- 25 The Go image/draw package go图片/描绘包:图片/描绘包的基本原理
- c语言录屏软件wps,WPS制作录屏视频
- iOS前后台切换和监听
- 用 regedit 命令把注册表 .reg 文件导入注册表- -
- JavaScript 各种事件、方法、参数详解示例及常见问题等(全)
- pc端微信聊天记录备份
- vivo一面翻车,整理完这份Java面经分类汇总,我突然悟了
- pythonfillcolor填充不了颜色_如何在matplotlib 2.0中仅使用图案填充(无背景色)填充区域...
- OpenCV-Python投影透视变换函数getPerspectiveTransform及warpPerspective详解
- 婉约情怀 作者:马步升
- VCS中VPD的使用简单教程
热门文章
- Python学习.第六天.字典
- html分辨率与放大倍数,放大镜倍数 你怎样知道放大镜的放大倍数
- Oracle学习笔记:使用replace、regexp_replace实现字符替换、姓名脱敏
- 大数据告诉你:学历真的能改变命运
- c语言反三角函数值域,反三角函数值域
- Wireshark搜索关键字内容
- matlab edittext 回车,安卓中的虚拟键盘实现,KeyEvent的事件分发、处理机制。EditText是如何将KeyEvent事件转为字符输入的?...
- 图片 滚动 放大缩小 旋转
- 通过PHP实现PNG转JPG
- python 反卷积(DeConv) tensorflow反卷积(DeConv)(实现原理+手写)