相关性-回忆录(持续更新)
1.TODO方向
(1)数据增强:finetuning阶段需要大量人工标注样本,消耗时间和成本。用户点击数据作为弱监督学习,可以尝试图网络构建节点和边(query聚合); 使用展现未点击生成对抗网络进行学习;
特定类型样本挖掘:通过设计一种基于Query和POI的特征和两者的匹配情况来刻画BadCase类型的方法,自动化从候选数据集中筛选出特定BadCase类型的样本进行送标。
用户点击过但线上旧版模型判定为不相关的:该方法可以挖掘出当前线上模型预测错误及语义接近的用户难以区分的难例。
边缘采样:通过边缘采样的方式挖掘具有较高不确定性的样本,如抽取模型预测得分在阈值附近的样本。
模型或人工识别困难的样本:用当前模型预测训练集,将模型预测结果与标注标签不一致的样本,及人工标注标签有冲突的样本类型重新送标。
对比学习:借鉴对比学习的思想,为一些高度匹配的样本生成对比样本进行数据增强,并进行人工标注确保样本标签的准确率。通过对比样本之间的差异,模型可以关注到真正有用的信息,同时提升对同义词的泛化能力,从而得到更好的效果。
(2)样本去噪:如,无意义的单词Q
(3)负样本过滤:如果搜索词是品牌词,在选取负样本的时候只在其他品牌的样本中选取。如 POI 为“香格里拉实力希尔顿花园酒店”、“桔子香格里拉古城酒店”时,同 Query “香格里拉酒店”虽然字面很相似,但其明显不是用户想要的品牌。
(4)POI地域优化:如比亚迪 北京、比亚迪;这类有明确POI地域的不做映射,无地域标记的统一将比亚迪 山东、比亚迪 北京映射到比亚迪;
(5)自动摘要:OCR、TITLE、内容字符比较多的,通过自动摘要技术缩小数量
(6)知识融合:将品牌、商圈、团购、QRQ、RQR(评论区内容)信息引入到预训练模型;
(7)融合知识图谱信息对长尾流量相关性进行优化 :长尾流量的相关性优化需要依赖更多的高质量数据。我们将利用知识图谱信息,将一些结构化先验知识融入到 BERT 预训练中,对长尾 Query 的信息进行增强,使其可以更好地进行语义建模。
(8)pointwise、pairwise finetuning:将序关系引入到大规模模型中
(9)层次时序模型:STARDOM:语义感知深度层次时序预估模型
(10)相关性与其他任务联合优化 :美团搜索场景下 Query 和候选 Doc 都更结构化,除文本语义匹配外,Query/Doc 文本中蕴含的实体成分、意图、类目也可以用于辅助相关性判断。目前,我们将相关性任务和成分识别任务结合进行联合优化已经取得一定效果。后续我们考虑将意图识别、类目预测等任务加入相关性判断中,多视角、更全面地评估 Query-Doc 的相关性。
(11)BERT 相关性模型和排序模型的深入融合 :当前两个模型属于两阶段训练方式,将 BERT 语义相关性作为特征加入排序模型来提升点击率。语义相关性是影响搜索体验的重要因素之一,我们将 BERT 相关性和排序模型进行端到端联合训练,将相关性和点击率目标进行多目标联合优化,提升美团搜索排序的综合体验。
参考文献:
前沿重器[2] | 美团搜索理解和召回 - 知乎
KDD2022 | MUVCOG:多模态搜索会话下的用户意图刻画
相关性-回忆录(持续更新)相关推荐
- 自然语言处理评测汇总(持续更新)
自然语言处理评测汇总(持续更新) 目录 自然语言处理评测汇总(持续更新) 一.评测相关会议 1. WSDM Cup 2021(3月份) 2. TAC相关评测(3月份) 3. CCKS 2021相关评测 ...
- ~~积累帖~~学科专业术语 英文缩写总结(一)——通信 信息论(持续更新)
~~积累帖~~学科专业术语 & 英文缩写总结(一)--通信 & 信息论(持续更新) 通信 & 信息论 通信 & 信息论 英文缩写 英文全称 翻译 简介 BSC Bina ...
- 关于如何用大数据做“用户画像”调查报告(持续更新)
关于如何用大数据做"用户画像"调查报告(持续更新) 什么是用户画像 用户画像又称用户角色,作为一种勾画目标用户.联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用. ...
- 量化术语速查表(持续更新)
本文介绍一些量化投资相关术语,帮助大家更好地了解该行业. 作者: bigquant 阅读时间:15分钟 本文由BigQuant宽客学院推出,难度标签:☆☆ 以下术语没有先后顺序,并将持续更新! 金融相 ...
- 汽车环境感知技术详解【 持续更新ing 】— 超声波传感器原理及应用
专栏解读: 本专栏针对自动驾驶技术(智能网联汽车技术)中的感知技术进行详细介绍. 包含: 汽车感知技术概念 多传感器融合原理 各传感器原理及应用(超声波,毫米波,激光雷达,视觉传感器,全球定位系统) ...
- 机器学习算法岗:常见面试问题及解答整理,持续更新
机器学习算法岗:常见面试问题及解答整理,持续更新 一.决策树ID3和C4.5的差别?各自优点? ID3算法: C4.5算法: 差异: 二.过拟合的原因及如何防止 三.几种模型( SVM,LR,GBDT ...
- 智能交通流量预测方案收集(持续更新)
交通流量预测应用方案收集(欢迎补充.持续更新-) 论文&方案合集 基于时间图卷积网络(T-GCN)交通流预测(A Temporal Graph Convolutional Network fo ...
- s-systemtap工具使用图谱(持续更新)
整体的学习思维导图如下,后续持续更新完善 文章目录 安装 简介 执行流程 执行方式 stap脚本语法 探针语法 API函数 探针举例 变量使用 基本应用 1. 定位函数位置 2. 查看文件能够添加探针 ...
- swift 错误集合 ------持续更新中
从今天开始凡是在用swift中遇到的错误都会在本博客持续更新 便于自己学习和快速开发 2017.7.20 如果你的程序写的有进入后台的方法,例如我的博客中点击home进入后台持续定位的那篇文章,发信进 ...
- 快应用开发常见问题以及解决方案【持续更新】
接触快应用也有一段时间了,踩过了大大小小的坑,让我活到了今天.准备在此立贴持续更新,记录遇到的问题以及解决方案,造福大众. css 方面 1.文字竖排不支持 目前官方还不支持writing-mode, ...
最新文章
- putty秘钥验证登录和xshell秘钥验证登录
- Spring Boot 特性 —— SpringApplication
- 异步/同步、阻塞/非阻塞的理解
- Django—模板渲染
- 数据挖掘学习日志(part1)--熵值法
- php memcache测试,PHP 监控memcache
- 编程题【Math类】计算类
- npm + webpack +react
- 深度学习学界业界进展调研
- 写作的积累 —— 台词
- 关于数据中心的设计方案,数据中心网络规划设计
- 知乎引流实操:日吸200精准粉丝玩法分享
- 特洛伊木马程序_对付斑块的“特洛伊木马”
- 技嘉ide模式怎么改_技嘉主板bios设置ide
- 龙芯2f灵珑一体机debian6系统重装
- Kafka+Spark Streaming+Redis实时计算整合实践
- 魅蓝手机ROOT权限获取
- 电子邮箱免费注册,比较好用的电子邮箱怎么注册?如何申请?
- linux下搭建DNS域名解析服务器
- 银行卡号简单的格式化显示处理(支付宝、微信绑定卡列表显示卡号)