©作者 | 刘璐

学校 | 北京邮电大学

研究方向 | 问题生成与QA

论文标题:

GPL: Generative Pseudo Labeling for Unsupervised Domain Adaptation of Dense Retrieval

论文链接:

https://arxiv.org/abs/2112.07577

代码链接:

https://github.com/UKPLab/gpl

Abstract

稠密检索相比于稀疏检索可以克服 lexical gap,可以得到更好的检索结果。然而训练稠密检索模型往往需要大量的数据。BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models [1] 表明领域迁移会极大地影响稠密检索模型的性能。

本文针对稠密检索提出了一种先进的无监督领域适应方法 Generative Pseudo Labeling(GPL),使用 query 生成模型与基于 cross-encoder 的匹配模型为目标域构造伪标签。实验结果证明了此方法的有效性,且相比于之前的领域迁移方法更加鲁棒。

本文还探究了六种近期提出的预训练方法在稠密检索领域迁移任务上的表现,只有三种方法有促进作用。其中效果最好的 TSDAE [2] 可以与 GPL 结合,进一步提升模型性能。

Introduction

稠密检索模型需要大量的训练数据才可表现优异,研究表明其对领域迁移十分敏感。比如,在 MS MARCO 上训练的检索模型在 COVID-19 相关文档检索任务中表现很差。MS MARCO 数据集是在 COVID-19 之前创建的,因此它不包括任何与 COVID-19 相关的主题,模型无法学习如何在向量空间中很好地表示该主题。

针对此问题,本文提出 Generative Pseudo Labeling(GPL),具体流程如下图所示。

1. 首先使用预训练 T5 模型根据目标域 passage 生成对应的 query;

2. 之后使用稠密检索模型为每个 query 挖掘负样本;

3. 最后,使用 cross-encoder 为每个 query-passage 对打分,为目标域稠密检索模型的训练构造伪标签。

流程中使用到的 T5、稠密检索模型、cross-encoder 均为现有的在 MS MARCO 数据集上预训练过的模型。

Related Work

3.1 Pre-Training based Domain Adaptation

对于 transformer 模型,最常用的领域适应方法是基于域自适应的预训练,该方法的基本做法是在使用标签数据对模型进行微调之前,先使用目标域数据对模型进行预训练。然而对于检索任务,目标域标签数据往往难以获得,因此需进行零样本学习。除 MLM(Masked Language Modeling)外,还有一些针对稠密检索的其他预训练策略,具体如下。

  • ICT(Latent Retrieval for Weakly Supervised Open Domain Question Answering [3] , ACL 2019)通过从 passage 中随机选择一个句子作为 query,剩余的部分作为配对的 passage,生成 query-passage 对。

  • CD(Condenser: a Pre-training Architecture for Dense Retrieval [4] , EMNLP 2021)提出针对稠密检索的预训练模型 Condenser,改变现有 MLM 的结构以迫使模型学习有意义的 CLS 表示。

  • SimCSE(SimCSE: Simple Contrastive Learning of Sentence Embeddings [5] , EMNLP 2021)将同一句句子输入到具有不同 dropout 的网络中两次,最小化两次结果的距离。

  • CT(Semantic Re-tuning with Contrastive Tension, ICLR 2021)与 SimCSE 类似,不同的是其将句子输入到不同的两个模型中。

  • TSDAE(TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for Unsupervised Sentence Embedding Learning [6] , EMNLP 2021 finding)使用具有瓶颈的去噪自编码器架构:从输入文本中删除单词,并通过编码器生成固定大小的 embedding,解码器须重构原始文本。

ICT、CD 仅被研究用于域内的性能,即在预训练之后,有大量标签数据用于后续有监督的微调。SimCSE, CT, TSDAE 仅用于无监督的句子向量学习。直接使用利用这些策略学习到的句子表示用来检索,其性能远远不足。

目前这些预训练方法是否可以用于稠密检索的无监督领域适应还不明确。本文首先使用这些这些策略在目标域文本上进行预训练,之后在 MS MARCO 数据集上微调模型来实现稠密检索的领域迁移,并探究其效果。

3.2 Query Generation

一些工作通过 query 生成来提升检索模型的性能。

  • Doc2query(Document Expansion by Query Prediction [7] )使用预测的查询进行文档扩展,之后使用 BM25 来检索文档。

  • QGen(Zero-shot Neural Passage Retrieval via Domain-targeted Synthetic Question Generation [8] , EACL 2021)使用通用领域训练的query生成器在目标域生成 query 构造合成数据,之后稠密检索模型根据合成数据从零开始训练。

尽管 QGen 很有效,训练检索模型时损失使用的是批内负样本的交叉熵损失,这仅提供了粗粒度的相关性,因此限制了模型的性能。本文使用考虑困难样本的 cross-encoder 提供的伪标签来提升模型性能。

3.3 Other Methods

  • MoDIR(Zero-Shot Dense Retrieval with Momentum Adversarial Domain Invariant Representations [9])使用域对抗训练(DAT)用于稠密检索的无监督领域适应。

  • UDALM(UDALM: Unsupervised Domain Adaptation through Language Modeling [10] , NAACL 2021)采用多阶段训练,首先在目标域使用 MLM 预训练,之后采用目标域 MLM 与源域有监督目标进行多任务学习。

3.4 Pseudo Labeling and Cross-Encoders

不同于双塔式结构,cross-encoder 将 query 和 passage 进行拼接后通过 cross-attention 预测相关性分数,通常用于精排阶段。相关研究表明 cross-encoder 相比于稠密检索模型具有更好的性能和领域适应能力。但由于其较高的计算开销,不太适用于检索,但检索模型可从 cross-encoder 中蒸馏知识以提升性能。

Method

Introduction 部分已介绍本文所提出 GPL 的基本结构,此处不再赘述。此处主要介绍本文方法相比于 QGen 的区别。

QGen 进行 query 生成后,使用 MultipleNegativesRanking(MNRL)损失训练检索模型:

其中 表示 query, 表示 passage, 表示 batch size, 控制 softmax 归一化的尖锐程度。

QGen 存在一些弊端:MNRL 损失仅考虑了 query 与 passage 之间的粗粒度相关性;query 生成器可能生成不能被输入 passage 回答的 query;存在其他passage可能与 query 相关的情况,即假负例的问题。

本文使用 cross-encoder 提供的伪标签和 MarginMSE 损失来训练模型,使稠密检索模型模仿 query 与正负 passage 之间的得分差异。

其中 ,为稠密检索模型的得分差 。

MarginMSE 损失解决了两个关键问题:当 query 生成器生成的 query 质量较低时,其 cross-encoder 分数也会比较低,此时稠密检索模型不会使 query 和 passage 在向量空间中过于接近。假负例会在cross-encoder中得到高分,相应的向量也不会被拉得很远。

Experiments

选择六个特定领域来检测模型的领域适应能力,包括 FiQA(financial domain), SciFact(scientific papers), BioASQ(biomedical Q&A), TREC-COVID(scientific papers on COVID-19), CQADupStack(12 StackExchange sub-forums), Robust04(news articles)。使用 nDCG@10 作为评估指标。实验结果如下表所示,与多个 baseline 相比可见 GPL 的有效性。

Analysis

此部分分析了训练步数、语料库数量、query 生成、开始 checkpoint 对 GPL 模型的影响。

Conclusion

本文提出 GPL,一种稠密检索的无监督领域适应方法,通过 query 生成模型为目标域 passage 生成 qurey 并使用 cross-encoder 构造伪标签,克服了以往方法的两个重要缺点:query 质量无法保证及假负例的问题。GPL 在所有目标数据集上的表现超越了之前的方法。

本文还探究了多个预训练策略在领域适应上的表现,ICT 和 MLM 可以带来少许提升,TSDAE 可以带来较为明显的提升,其他方法反而对性能有损。

模型的领域适应本质上是对源域训练的模型进行修正或补充,因此设计与目标任务更接近的预训练策略或为目标任务构造对模型修正有效的训练数据均可以提高模型在目标域的表现。

参考文献

[1] https://arxiv.org/abs/2104.08663

[2] https://aclanthology.org/2021.findings-emnlp.59/

[3] https://aclanthology.org/P19-1612.pdf

[4] https://aclanthology.org/2021.emnlp-main.75.pdf

[5] https://aclanthology.org/2021.emnlp-main.552.pdf

[6] https://aclanthology.org/2021.findings-emnlp.59.pdf

[7] https://arxiv.org/abs/1904.08375

[8] https://aclanthology.org/2021.eacl-main.92.pdf

[9] https://arxiv.org/abs/2110.07581

[10] https://aclanthology.org/2021.naacl-main.203.pdf

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

用于稠密检索的无监督领域适应方法—Generative Pseudo Labeling (GPL)相关推荐

  1. 语义分割-Unsupervised Domain Adaptation in Semantic Segmentation:a Review语义分割中的无监督领域自适应:综述

    Unsupervised Domain Adaptation in Semantic Segmentation:a Review语义分割中的无监督领域自适应:综述 0.摘要 1.介绍 1.1.语义分割 ...

  2. 无监督领域迁移及文本表示学习的相关进展

    ©作者|邴立东.何瑞丹.张琰.李俊涛.叶海 单位|阿里巴巴达摩院.新加坡国立大学等 摘要 随着基于 transformer 的预训练语言模型的广泛应用,多种自然语言处理任务在近一两年来都取得了显著突破 ...

  3. CVPR 2019 | 无监督领域特定单图像去模糊

    图像模糊是影响图像质量的重要因素,显着降低了许多计算机视觉应用的性能,例如物体检测和人脸识别.随着深度神经网络的发展,计算机视觉领域的难题被一个个解决,单纯依靠先验核去实现图像去模糊的技术已经渐渐被取 ...

  4. 【ICML 2015迁移学习论文阅读】Unsupervised Domain Adaptation by Backpropagation (DANN) 反向传播的无监督领域自适应

    会议:ICML 2015 论文题目:Unsupervised Domain Adaptation by Backpropagation 论文地址: http://proceedings.mlr.pre ...

  5. 用于光流估计的无监督深度学习DSTFlow

    用于光流估计的无监督深度学习DSTFlow 原文链接 摘要 ​ 最近的工作表明,光流估计可以被表述为一个监督学习问题. 此外,卷积网络已成功应用于此任务. 然而,监督流学习由于缺乏标记的训练数据而变得 ...

  6. 目标检测YOLO实战应用案例100讲-无监督领域自适应目标检测方法研究与应用

    目录 无监督领域自适应目标检测方法研究 领域自适应目标检测 目标检测相关技术介绍

  7. 恒源云(GpuShare)_无监督的QG方法

    文章来源 | 恒源云社区 原文地址 | 通过摘要信息问题生成改进无监督问答 原文作者 | Mathor 上海于昨日宣布要开始在全市范围内开展新一轮切块式.网格化核酸筛查![恒源云]云墩墩☁️ 提醒小伙 ...

  8. 超越最新无监督域自适应方法,研究人员提轻量CNN新架构OSNet

    作者 | Kaiyang Zhou, Xiatian Zhu, Yongxin Yang, Andrea Cavallaro, and Tao Xiang 译者 | TroyChang 编辑 | Ja ...

  9. MPASNET:用于视频场景中无监督深度人群分割的运动先验感知SIAMESE网络

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 小白导读 论文是学术研究的精华和未来发展的明灯.小白决心每天为大家 ...

最新文章

  1. linux 用dd将iso写入U盘
  2. 深圳神经科学研究院院长谭力海: AI取代人脑? 不, 必须向人脑“学习”!
  3. Eclipse安装GoClipse
  4. java学习笔记(五)----super用法,final用法,抽象类,接口
  5. 破坏双亲委派机制的那些事
  6. Java培训教程:Java中的位移运算符!
  7. 云原生数据库如何打造业务弹性
  8. JRebel for idea 有时候不生效
  9. 浏览器屏蔽flash视频广告
  10. JAVA 中 Redis与ehcache对比与使用
  11. word——VBA编程
  12. gensim lda文本无监督分类实现 (有代码)
  13. (人脸)目标检测指标-FDDB
  14. Tbase 源码 (一)
  15. Android自带指南针坐标系,Android自定义View,带你实现小米指南针和时钟
  16. 【第18周复盘】要不要带小朋友们参加一下天池的Python训练营?
  17. Eric S. Raymond:如何成为一名黑客
  18. 大数据培训靠不靠谱?如何选择培训机构?
  19. linux使用单核_如何使用Linux还原单核计算机
  20. U-App 升级剧透,你不抢个内测账号?

热门文章

  1. ubuntu11.04 安装sun-java6-jdk_Ubuntu下安装sun-java6-jdk和eclipse
  2. linux java远程调试_[转]JPDA:Java平台调试架构(常用的远程调试方法)
  3. python找出在原图中的位置_用python简单处理图片(4):图像中的像素访问
  4. H5_canvas与svg
  5. 里面怎么缓存图片_浏览器缓存原理总结
  6. WinRAR 5.70 下载、安装和广告弹框去除
  7. svn学习笔记(一)
  8. nodejs 快速搭建接口
  9. 运维人员究竟如何提升价值,持续获得高薪?
  10. 5. Binary Tree Postorder Traversal