很多研究表明,双塔在一个域表现不错,在其他域表现不好了。一个广泛被认同的观点就是双塔仅仅用了最后一层的点积算分,这限制了模型的召回能力。这篇论文<Large Dual Encoders Are Generalizable Retrievers>就否认了这个观点,通过扩展双塔的网络,就能提升模型对各个召回任务的效果,特别是那些跨域的。实验结果表明,该论文提出的Generalizable T5-based dense Retrievers(GTR)在BEIR数据集上显著优于现存的一些召回模型。

在query和document的召回任务中,他们分别被encode到同一空间中,然后使用近邻检索给query高效的找到对应document。很多论文都表示,点积(或是cos相似度)不能够有效抓住语意相关性,这篇论文并不赞同。值得注意的是,扩展双塔网络的capacity和预训练模型(像是bert)的扩展不同,因为有瓶颈层(用于点积的那层)的存在。提升encoder的capacity却不能改变点积限制了query和document交互信息的现实。为了验证这个假设,该文使用了T5模型,使得encoders可以有50亿的参数,并固定顶层为768维度如下图所示。最后评估了GTR在BEIR benchmark上zero shot的效果,在9个域和18个召回任务的表现是让人吃惊的。

T5模型算是大力出奇迹的典范了,靠着统一框架和所有NLP任务都转换成Text-to-Text任务,同样的模型,同样的loss,同样的训练,同样的编码解码,完成了所有的NLP任务。

本文用的T5的预训练模型,直接把模型capacity从百万提升到亿,模型架构如下所示:

编码query和passage用的是encoder的mean pooling,并固定输出是768维度。loss使用的是batch内负采样,使用sampled softmax loss:

还可以补充一些负例,如下式所示:

整个训练过程包含预训练步骤和fine-tuning步骤,web-mined语料库提供了很多半结构化的数据对(像是对话,问答),可以提供丰富的语意相关信息。还有些搜索数据集,往往是人工标注的,虽然质量高但是收集成本高。这篇论文使用T5模型的encoder进行初始化,并在从互联网收集的问答pair对上进行训练,然后在SentEval和Sentence Textual Similarity任务上进行评估。

  • 1.Large Dual Encoders Are Generalizable Retrievers https://arxiv.org/pdf/2112.07899.pdf
  • 2.Exploring the limits of transfer learning with a unified textto-text transforme r https://arxiv.org/pdf/1910.10683.pdf

双塔模型没效果了?请加大加粗!相关推荐

  1. 一文看懂推荐系统:召回07:双塔模型——正负样本的选择,召回的目的是区分感兴趣和不感兴趣的,精排是区分感兴趣和非常感兴趣的

    一文看懂推荐系统:召回07:双塔模型--正负样本的选择,召回的目的是区分感兴趣和不感兴趣的,精排是区分感兴趣和非常感兴趣的 提示:最近系统性地学习推荐系统的课程.我们以小红书的场景为例,讲工业界的推荐 ...

  2. 实测:TB级倾斜摄影模型合并根节点前后加载效果对比,结果惊人

    随着无人机性能快速提升,单个项目涉及到的倾斜摄影模型数据范围.数据量及单个模型体积也在不断变大,带来的问题是数据显示速度却越来越慢,那么如何在不升级配置的情况下提升模型的加载速度呢? TB级倾斜摄影模 ...

  3. 运营笔记:微信加粉没效果,看看你哪里做错了!

    微信加粉没效果,看看你哪里做错了! 原标题:关于微信加粉的所有问题,看这一篇文章就够了! 微信加粉问题,主要是涉及到两个问题,一是微信号加粉,二是微信公众号加粉. 我们来总结一下,基于这两种方式,结合 ...

  4. zend framework1.12 没找到php.exe,请加一个zend framework的有关问题

    请加一个zend framework的问题 我在用phpunit测试zend项目里的model, 这个model是这样的: PHP codeclass Application_Model_AdminG ...

  5. 涨点利器:推荐系统中对双塔模型的各种改造升级(上)

    双塔各种改造方法概览: 大型推荐系统通常会将整个推荐链路拆分成召回.粗排.精排和重排等多个模块,以达到推荐效果和计算性能之间的平衡. 由于召回模型的候选item通常是海量的全库物品.粗排模型的候选it ...

  6. Facebook向量召回双塔模型

    不知道多少人还记得 <做向量召回 All You Need is 双塔>那篇,那篇介绍了国内外各个大厂做召回的用的双塔模型,其中提到一篇<Embeding-based Retriev ...

  7. 推荐系统中的双塔模型

    文章目录 1. 为什么要学习DSSM双塔模型 2. DSSM模型理论知识 2.1 DSSM模型的原理 2.2 DSSM深度语义匹配模型整体结构 2.2.1 输入层 2.2.2 表示层 2.2.3 匹配 ...

  8. 双塔模型DSSM及各种变体塔

    本文是由参考1和参考2整合而来. 本文主要介绍项目中用于商业兴趣建模的DSSM双塔模型.作为推荐领域中大火的双塔模型,因为效果不错并且对工业界十分友好,所以被各大厂广泛应用于推荐系统中召回阶段. 通过 ...

  9. 【推荐系统】双塔模型中的负采样

    作者:十方 推荐模型中双塔模型早已经普及.一个塔学用户表达.一个塔学item表达.很多双塔模型用各种各样的in-batch负采样策略.十方也是如此.往往使用比较大的batchsize,效果会比较好,但 ...

最新文章

  1. 【爬坑】远程连接 MySQL 失败
  2. TSC打印机DLL说明
  3. winscp连接虚拟机Linux被拒绝的问题解决方案
  4. 【LeetCode从零单排】No221.Maximal Square
  5. 老生常谈:装饰者模式
  6. [转载]织梦后台添加新变量-内容模型
  7. nginx 1.8.1安装使用
  8. python中configparser详解_Python中的ConfigParser模块使用详解
  9. php键盘输入函数,php的常用输入语句以及常用函数
  10. Python中的顺序表介绍
  11. Zabbix安装和使用配置小结
  12. JIRA重启服务器后需要重启TOMCAT的解决
  13. PHP中date()日期函数有关参数整理
  14. java坦克大战生成_Java坦克大战 (一) 之产生一个窗口
  15. linux下的经典软件总结
  16. 经典多级时间轮定时器(C语言版)
  17. openmp矩阵乘法
  18. JIRA导出工作日志到Excel
  19. 【FPGA】:ip核---乘法器(multiplier)
  20. 知乎:有哪些让你相见恨晚的 PPT 制作技术或知识?

热门文章

  1. 要选择做有价值的事情
  2. 创建Node.js Express 项目
  3. iOS对UIViewController生命周期和属性方法的解析
  4. C/S端开发问题汇总
  5. 异构并行编程(CUDA)结课证书
  6. 【OpenCV】将RGB图像转为灰度图
  7. sql2008 查询某个表被那些存储过程用到
  8. 服务器内存技术知识充电
  9. MATLAB R2022 最新中英文版 数据处理
  10. Cytology: Diagnostic Principles and Clinical Correlates 细胞学: 诊断原则与临床相关性 PDF