一、概述

原文:同义变换在百度搜索广告中的应用,https://mp.weixin.qq.com/s/ybkbU8p_3jgKuCGdNWeG8w

二、 关键词匹配问题定义

2.1 定义

  1. 输入:query、匹配模式、关键词库
  2. 输出:满足匹配的全部关键词
  3. 限制:匹配模式

2.2 例子:

  • ○ query:双眼皮手术多少钱?
  • ○ Match type:精确匹配
  • ○ 一些典型的目标召回关键词:
    • ■ 双眼皮手术的价格?
    • ■ 双眼皮手术多少钱?
    • ■ 割一个双眼皮花多少钱?

三、 问题挑战

Semantic Gap:用户和广告主表达不一样?

3.1 对于医疗:同一个tab可能能代表多个意思。

  1. 例如:实体:糖尿病: tab:治疗
    a. 1. 糖尿病的治疗方法
    b. 2. 得了糖尿病该如何治疗?
    c. 3. 糖尿病有哪些治疗方法?
    d. 4. 患者得了糖尿病一般有哪些治疗方法?:https://wap.sogou.com/web/searchList.jsp?from=index&pid=sogou-waps-7880d7226e872b77&t=1639982337252&s_t=1639982338943&s_from=index&pg=webSearchList&inter_index=&keyword=%E6%82%A3%E8%80%85%E5%BE%97%E4%BA%86%E7%B3%96%E5%B0%BF%E7%97%85%E4%B8%80%E8%88%AC%E6%9C%89%E5%93%AA%E4%BA%9B%E6%B2%BB%E7%96%97%E6%96%B9%E6%B3%95&suguuid=c9f2b141-8d02-40c7-b628-508733d9a961&sugsuv=AAEdW%2FhZOgAAAAqgMiUbAwEAAAA&sugtime=1639982338943
    e. 5. 患者得了2型糖尿病一般有哪些治疗方法? https://wap.sogou.com/web/searchList.jsp?dp=1&pid=sogou-waps-7880d7226e872b77&t=1639982385377&s_t=1639982391067&s_from=result_up&n_s_from=up_input&htprequery=%E6%82%A3%E8%80%85%E5%BE%97%E4%BA%86%E4%B8%80%E5%9E%8B%E7%B3%96%E5%B0%BF%E7%97%85%E4%B8%80%E8%88%AC%E6%9C%89%E5%93%AA%E4%BA%9B%E6%B2%BB%E7%96%97%E6%96%B9%E6%B3%95&keyword=%E6%82%A3%E8%80%85%E5%BE%97%E4%BA%862%E5%9E%8B%E7%B3%96%E5%B0%BF%E7%97%85%E4%B8%80%E8%88%AC%E6%9C%89%E5%93%AA%E4%BA%9B%E6%B2%BB%E7%96%97%E6%96%B9%E6%B3%95&pg=webSearchList&rcer=QNz_aJ4iY4Gcw-M3&s=%E6%90%9C%E7%B4%A2&suguuid=367c32b0-5190-4684-9540-d263b28ecc2e&sugsuv=AAEdW%2FhZOgAAAAqgMiUbAwEAAAA&sugtime=1639982391066
    f. 6. 小孩子患者得了2型糖尿病一般有哪些治疗方法?https://wap.sogou.com/web/searchList.jsp?dp=1&pid=sogou-waps-7880d7226e872b77&t=1639982450524&s_t=1639982453334&s_from=result_up&n_s_from=up_input&htprequery=%E5%AE%9D%E5%AE%9D%E6%82%A3%E8%80%85%E5%BE%97%E4%BA%862%E5%9E%8B%E7%B3%96%E5%B0%BF%E7%97%85%E4%B8%80%E8%88%AC%E6%9C%89%E5%93%AA%E4%BA%9B%E6%B2%BB%E7%96%97%E6%96%B9%E6%B3%95&keyword=%E5%B0%8F%E5%AD%A9%E5%AD%90%E6%82%A3%E8%80%85%E5%BE%97%E4%BA%862%E5%9E%8B%E7%B3%96%E5%B0%BF%E7%97%85%E4%B8%80%E8%88%AC%E6%9C%89%E5%93%AA%E4%BA%9B%E6%B2%BB%E7%96%97%E6%96%B9%E6%B3%95&pg=webSearchList&rcer=QNz_aJ4iY4Gcw-M3&s=%E6%90%9C%E7%B4%A2&suguuid=3d4343e5-703f-431e-b1ff-a5dd61e70a52&sugsuv=AAEdW%2FhZOgAAAAqgMiUbAwEAAAA&sugtime=1639982453334
    g. 7. 患者眼睛得了白内障该如何治疗? https://wap.sogou.com/web/searchList.jsp?dp=1&pid=sogou-waps-7880d7226e872b77&t=1639982454129&s_t=1639982494605&s_from=result_up&n_s_from=up_input&htprequery=%E5%B0%8F%E5%AD%A9%E5%AD%90%E6%82%A3%E8%80%85%E5%BE%97%E4%BA%862%E5%9E%8B%E7%B3%96%E5%B0%BF%E7%97%85%E4%B8%80%E8%88%AC%E6%9C%89%E5%93%AA%E4%BA%9B%E6%B2%BB%E7%96%97%E6%96%B9%E6%B3%95&keyword=%E6%82%A3%E8%80%85%E7%9C%BC%E7%9D%9B%E5%BE%97%E4%BA%86%E7%99%BD%E5%86%85%E9%9A%9C%E8%AF%A5%E5%A6%82%E4%BD%95%E6%B2%BB%E7%96%97&pg=webSearchList&rcer=QNz_aJ4iY4Gcw-M3&s=%E6%90%9C%E7%B4%A2&suguuid=a4732cac-a3f1-4a63-ad21-07172bac6202&sugsuv=AAEdW%2FhZOgAAAAqgMiUbAwEAAAA&sugtime=1639982494605
    h. 8. 患者鼻子得了白内障该如何治疗? https://wap.sogou.com/web/searchList.jsp?dp=1&pid=sogou-waps-7880d7226e872b77&t=1639982495345&s_t=1639982630036&s_from=result_up&n_s_from=up_input&htprequery=%E6%82%A3%E8%80%85%E7%9C%BC%E7%9D%9B%E5%BE%97%E4%BA%86%E7%99%BD%E5%86%85%E9%9A%9C%E8%AF%A5%E5%A6%82%E4%BD%95%E6%B2%BB%E7%96%97&keyword=%E6%82%A3%E8%80%85%E9%BC%BB%E5%AD%90%E5%BE%97%E4%BA%86%E7%99%BD%E5%86%85%E9%9A%9C%E8%AF%A5%E5%A6%82%E4%BD%95%E6%B2%BB%E7%96%97&pg=webSearchList&rcer=QNz_aJ4iY4Gcw-M3&s=%E6%90%9C%E7%B4%A2&suguuid=3ac2cab6-d0e9-4062-9b2c-d3069ff0c641&sugsuv=AAEdW%2FhZOgAAAAqgMiUbAwEAAAA&sugtime=1639982630036

总结:一个tab下的内容比较泛,并且句子和句子间存在gap

3.2. 工程性能:关键词量级比较大,无论在线还是离线,计算资源都非常有限。

  1. 队列压缩:在keyword端,关键词匹配中,一个query通常会触发得到大量的候选关键词,基于同一关系,压缩关键词,减少计算量。
  2. 基于代表元来触发:原始keyword词库->压缩->代表元库->触发线上query

四、方案

  1. 从规则触发,短语粒度同义词替换,句子级别同义pair挖掘
  2. 数据驱动的模型泛化,数据,模型,泛化

4.1 数据源:

  • ● 系统外部

    • ○ 搜索点击日志 query-title
    • ○ Session日志,query-query,共点query
    • ○ 协同过滤
      • ■ query-query相似度计算,基于用户点击url
      • ■ keyword-keyword相似度计算
    • ○ 规则替换
  • ● 系统内部
    • ○ 商业点击日志query-keyword

4.2 模型:

● 三种模型思路:seq2seq生成模型,双塔模型(语义的度量模型),或者图模型

4.2.1 基于seq2seq模型来泛化召回

Q1原来有3个召回结果A、B、C,基于模型,定向再关键词库中做召回,有可能把A1,B1也召回出来。

  • ● 优点:

    • ○ end2end建模
    • ○ 语料ok的情况下,质量很好
    • ○ 简单,正例驱动
  • ● 缺点:
    • ○ 效率低

      • ■ decode阶段比较慢
      • ■ 冗余翻译
    • ○ 定向翻译
      • ■ 不能保证decode出来的结果都是keyword
    • ○ 训练和预测不一致,训练是一对一,目标是一对多
4.2.2 效率问题改进一之规范化
  1. 翻译->冗余度高->在query和keyword端,都先进行归一化,然后再规范化的空间中来做匹配。

规范化步骤:冗余词去除,副词,标点符号处理
统一模型来校验

4.2.2 泛化能力提高之基于概念来泛化
  • ● 数据驱动的硬伤

    • ○ 没有数据就驱动不了
    • ○ 往往只学到了数据上的共线,缺乏概念抽象推理功能
      • ■ 样本:眼睛得了白内障该如何治疗 = 白内障治疗方法

        • ● https://wap.sogou.com/web/searchList.jsp?dp=1&pid=sogou-waps-7880d7226e872b77&t=1639985538116&s_t=1639985556479&s_from=result_up&n_s_from=up_input&htprequery=%E5%98%B4%E5%B7%B4%E5%BE%97%E4%BA%86%E5%8F%A3%E8%85%94%E6%BA%83%E7%96%A1%E8%AF%A5%E5%A6%82%E4%BD%95%E6%B2%BB%E7%96%97%EF%BC%9F&keyword=%E7%9C%BC%E7%9D%9B%E5%BE%97%E4%BA%86%E7%99%BD%E5%86%85%E9%9A%9C%E8%AF%A5%E5%A6%82%E4%BD%95%E6%B2%BB%E7%96%97&pg=webSearchList&rcer=hNz_aRIBWIwCGa7H&s=%E6%90%9C%E7%B4%A2&suguuid=53352eda-e172-4537-b305-7249783b9fd5&sugsuv=AAEdW%2FhZOgAAAAqgMiUbAwEAAAA&sugtime=1639985556479
      • ■ 概念推理?:嘴巴得了口腔溃疡该如何治疗?口腔溃疡治疗方法
        • ● https://wap.sogou.com/web/searchList.jsp?dp=1&pid=sogou-waps-7880d7226e872b77&t=1639983300865&s_t=1639985537209&s_from=result_up&n_s_from=up_input&htprequery=%E9%BC%BB%E7%82%8E%E4%BC%9A%E5%BC%95%E8%B5%B7%E5%A4%B4%E7%97%9B%E5%90%97&keyword=%E5%98%B4%E5%B7%B4%E5%BE%97%E4%BA%86%E5%8F%A3%E8%85%94%E6%BA%83%E7%96%A1%E8%AF%A5%E5%A6%82%E4%BD%95%E6%B2%BB%E7%96%97%EF%BC%9F&pg=webSearchList&rcer=hNz_aRIBWIwCGa7H&s=%E6%90%9C%E7%B4%A2&suguuid=a26ea590-2863-4d2d-bd24-c6669f22a461&sugsuv=AAEdW%2FhZOgAAAAqgMiUbAwEAAAA&sugtime=1639985537209
  • ● 解决办法
    • ○ UNK问题:copyNet,pointerNet
    • ○ 概念实体识别
      • ■ 眼睛得了白内障该如何治疗
      • ■ 【body】【disease】治疗方法 -> disease治疗方法
      • ■ 嘴巴得了口腔溃疡该如何治疗?=> 口腔溃疡治疗方法
4.2.3 基于语义度量来做同义泛化

翻译模型改成:=>语义向量模型,在语义向量空间寻找k近邻

  • ● 思路:

    • ○ 投影到共同的语义度量空间中
    • ○ 同义的query-keyword在度量空间中近邻
  • ● 分两步
    • ○ 投影
    • ○ 寻找k近邻

获得投影算子

  • ● 投影算子

    • ○ BOW/CNN/RNN/Transformer
  • ● 度量
    • ○ Euclidean distance / cosine
  • ● 数据
    • ○ 整理:base data
    • ○ 负例:Random negative,other match type data

基于度量空间=>层次kmeans构建树形索引=>log(n)时间定为到分桶

4.2.4 基于图模型来做同义泛化
  • ● 思路:

    • ○ query和keyword都看成node
    • ○ 是否同义看成是边
    • ○ 优点:
      • ■ 引入更多图的数据,融入异构数据

        • ● session日志
        • ● 用户点击日志
  • ● 通过预测query-keyword是否存在边来做吗?

步骤

  1. 构造图
  2. 计算每个节点的低纬表达
  3. 为每个节点寻找k近邻
4.2.5 总结

● 基于高质量的种子数据=>抽象出模型=>泛化得到delta数据

4.3 badcase修复方法

4.3.1 定义:定义成一个同义判定的问题
  • ● F(query, keyword) = 0 or 1
4.3.2 方法1. Feature-driven: 人工特征+少量标记数据+浅层模型
  • ○ 词粒度的匹配度计算

    • ■ 最大匹配长度,miss/match,bm25
    • ■ 命名实体的相似度、句法依存、文档分类
    • ■ 语义相似性
      • ● DSSm搜索点击数据
    • ■ 搜索检索结果的相似度
    • ■ 数据
      • ● 少量人工标记数据
    • ■ 模型
      • ● 浅层DNN,GBDT
4.3.3 方法2. Data-driven:transformer+弱监督预训练+domain finetuning
  • ○ 多阶段预训练+finetuning

    • ■ ERNIE Large -> 弱监督数据 -> 人工标记数据
  • ○ 数据
    • ■ 海量弱监督数据

      • ● 用户侧query-query,商业侧keyword-keyword,query-keyword,负反馈数据
    • ■ 少量人工标记数据
      • ● 主动学习、概念增强
    • ■ 训练
      • ● 多阶段预训练 + finetuning + 对抗训练
    • ■ 效果
      • ● 远超特征驱动的模型

        • ○ 大模型容量+海量的数据预训练=>更多同义知识
        • ○ Transformer中多头注意力起到了软对齐的作用
4.3.4 数据增强,为标记样本做最充分的数据增强
  • ○ 人工标记样本太少
  • ○ 基于同义变换来增强
  • ○ 基于概念标注来增强
    3.3.5. 开放性问题,盲区数据补充
  • ○ 其他盲区 => 弱监督数据起到了盲区补充的作用

再看同义变换在百度搜索广告中的应用总结相关推荐

  1. 10搜索文件内容搜不出_百度搜索广告太多?内容太杂?可能你们缺少这10个神器网站...

    百度搜索广告太多,搜索结果内容太杂,有很多虚假无用的信息. 用过百度的应该都有这些体会. 众所周知,百度搜索早已成为互联网基础设施,人人皆知人人都用,给百度贴上"必不可少"的标签都 ...

  2. 油猴插件(隐藏知乎标题,屏蔽百度搜索广告)

    1.隐藏知乎标题 先下载安装一个浏览器插件"油猴插件"(Tampermonkey): https://www.aliyundrive.com/s/4rTXeq7R8bx 提取码: ...

  3. 百度模糊搜索怎么实现_百度搜索广告是什么?百度搜索竞价广告投放推广效果怎么样?...

    一.百度搜索广告是什么? 百度搜索广告已成为互联网最主流的广告方式之一,广告主可根据小伙伴们的搜索习惯,制定符合小伙伴们的关键词来覆盖,然后推广自己的产品或提升品牌知名度. 另外,百度搜索广告是按照点 ...

  4. 百度搜索广告投放的展现位置!百度推广广告是如何扣费的?

    什么是百度搜索广告,是一种按照效果付费的网络推广方式,可以用比较少的的投入就可以给企业带来大量的潜在客户,可以有效地帮助提升企业的营销量,搜索广告展示在什么位置,百度搜索广告出现在搜索结果页的第一页左 ...

  5. 百度搜索URL中的参数都是什么

    最近,点石排名更新了一个新功能--站内搜索.其实理解起来也很简单,就是通过URL限定搜索结果为某个网站,从而参与点击(例如:https://www.baidu.com/s?wd=SEO&si= ...

  6. 百度搜索结果中的网站描述

    博友Jarry 给我发了一封邮件,问我为什么Sino Blog 在Google 搜索结果中的网站描述是:"蓝兔的个人博客,是一个以学习和交流为目的的原创写作博客." 而在百度搜索结 ...

  7. html百度收录缩略图,百度搜索结果中的缩略图如何替换?

    如何在搜索结果中替换百度网站标题下的小图片(缩略图)是很多站长关心的问题.一个更加直观和醒目的缩略图无疑会给他们的网站带来更多流量.为什么有些网站有图片,有些网站没有图片? 我怎样才能匹配这张图片?前 ...

  8. 法律服务如何在百度投放广告?百度搜索广告是什么

    法律服务类广告想在百度上投放广告首先需要提供营业执照副本,只可公司类客户推广,从事法律咨询行业的客户无需提交律师事务所执业证书,需要提交营业执照,核定其经营范围,需要包含的社会法律咨询,法律文书代理, ...

  9. 预训练技术在美团到店搜索广告中的应用

    猜你喜欢 0.2021年轻人性生活调研报告1.如何搭建一套个性化推荐系统?2.从零开始搭建创业公司后台技术栈3.2021年10月份热门报告免费下载4.微博推荐算法实践与机器学习平台演进5.腾讯PCG推 ...

最新文章

  1. 550种Blender风格化笔刷素材
  2. oj上c语言编译错误,名字的漂亮度(华为OJ)C语言版本(提示格式错误,但是编译器没有报错,知道的网友提个意见)...
  3. oracle access manager token,Laravel 自带的 API 守卫驱动 token 使用详解
  4. 简单的openssh自动升级脚本
  5. jQuery-1.9.1源码分析系列(五) 回调对象
  6. js 取html自定义属性,JS操作html中的自定义属性
  7. setState同步异步场景
  8. H5 js 处理localstorage方法封装
  9. curl: (7) Failed connect to localhost:9200; Connection refused
  10. 25 The Go image/draw package go图片/描绘包:图片/描绘包的基本原理
  11. c语言录屏软件wps,WPS制作录屏视频
  12. iOS前后台切换和监听
  13. 用 regedit 命令把注册表 .reg 文件导入注册表- -
  14. JavaScript 各种事件、方法、参数详解示例及常见问题等(全)
  15. pc端微信聊天记录备份
  16. vivo一面翻车,整理完这份Java面经分类汇总,我突然悟了
  17. pythonfillcolor填充不了颜色_如何在matplotlib 2.0中仅使用图案填充(无背景色)填充区域...
  18. OpenCV-Python投影透视变换函数getPerspectiveTransform及warpPerspective详解
  19. 婉约情怀  作者:马步升
  20. VCS中VPD的使用简单教程

热门文章

  1. Python学习.第六天.字典
  2. html分辨率与放大倍数,放大镜倍数 你怎样知道放大镜的放大倍数
  3. Oracle学习笔记:使用replace、regexp_replace实现字符替换、姓名脱敏
  4. 大数据告诉你:学历真的能改变命运
  5. c语言反三角函数值域,反三角函数值域
  6. Wireshark搜索关键字内容
  7. matlab edittext 回车,安卓中的虚拟键盘实现,KeyEvent的事件分发、处理机制。EditText是如何将KeyEvent事件转为字符输入的?...
  8. 图片 滚动 放大缩小 旋转
  9. 通过PHP实现PNG转JPG
  10. python 反卷积(DeConv) tensorflow反卷积(DeConv)(实现原理+手写)