【论文阅读】Domain Adaptation for Deep Entity Resolution

Domain Adaptation for Deep Entity Resolution

摘要

实体解析(ER)是数据集成的一个核心问题。ER的最先进(SOTA)结果是通过基于深度学习(DL)的方法实现的，使用大量标记匹配/非匹配实体对进行训练。当使用准备良好的基准数据集时，这可能不是一个问题。然而，对于许多真实世界的ER应用程序，情况发生了巨大的变化，收集大规模标记数据集是一个痛苦的问题。在本文中，我们试图回答：如果我们有一个标记良好的源ER数据集，我们能否为一个没有任何标签或有一些标签的目标数据集训练一个基于DL的ER模型？（If we have a well-labeled source ER dataset, can we train a DL-based ER model for a target dataset, without any labels or with a few labels?）这被称为领域适应(DA)，它在计算机视觉和自然语言处理方面取得了巨大的成功，但尚未对ER进行系统的研究。我们的目标是系统地探索广泛的DA方法（ wide range of DA methods for ER）对ER的好处和局限性。为此，我们开发了一个DADER（深度实体解析的领域适应（Domain Adaptation for Deep Entity Resolution））框架，该框架显著提高了在应用DA方面的ER。我们为DADER的三个模块，即特征提取器、匹配器和特征对齐器，定义了一个设计解决方案（define a space of design solution）的空间。我们进行了迄今为止最全面的实验研究，以探索设计空间，并比较不同的DA的选择。我们根据广泛的实验，为选择合适的设计方案提供指导。

Feature Extractor 特征提取器

Matcher 匹配器

Feature Aligner 特征对齐器

1 Introduction

实体解析(ER)确定两个数据实例是否引用同一个真实世界的实体。经过几十年以模型为中心的研究，已经有相当数量的文献，包括基于规则的方法（例如，析取范式[59]和一般布尔公式[59]），基于ML的方法(如SVM[5]和随机森林[20])，基于DL的方法（如DeepMatcher[49]，DeepER[21]和Ditto[42]）。最先进的(SOTA)结果是通过基于DL的解决方案实现的。

然而，基于DL的ER方法通常需要大量的标记训练数据。例如，即使通过使用Ditto[42]等预训练的语言模型，仍然需要成千上万的标签来达到令人满意的准确性。事实上，ER practitioners的主要痛点是，他们需要大量的标签努力来创建足够的训练数据。

幸运的是，大数据时代使得许多标记的ER数据集可以在相同或相关领域使用，无论是从公共基准(例如WDC[52]和DBLP-Scholar[49])，还是在企业内部。因此，一个自然的问题是：我们能否重用这些标记的源ER数据集用于新的目标ER数据集？对上述问题的肯定回答有可能显著减少数据标记的人力成本。

Domain adaptation

重用已标记的源数据的关键挑战是，在源数据和目标之间可能会发生分布变化或域转移（domain shift），这将降低性能。（ The key challenge of reusing labeled source data is that there may be distribution change or domain shift between the source and the target, which would degrade the performance.）

源数据集：labeled Source

目标数据集：unlabeled Target

图1：ER的DA。(a)从标记源学习到的匹配器不能在未标记目标上表现良好。(b)域自适应学习更好的表示来减少域位移和最小化匹配误差。

图1(a)显示了一个labeled source数据集（圆圈）和一个unlabeled target数据集（正方形）的示例。由于源数据集和目标数据集可能不来自同一个域（domain），因此它们不遵循相同的分布。因此，从源中训练出来的ER模型（绿色虚线）不能正确地预测目标。

在Source中训练得到的分类器，直接应用于Target，很难准确。通俗点说，同样的一条线，可以将圆圈一分为二，却很难将正方形一分为二。

为了解决这一挑战，领域自适应(DA)得到了广泛的研究，即将一个或多个相关源域中的标记数据用于目标域[25,45,64,69]中的新数据集。直观地说，DA是从数据实例中学习，寻找对齐源和目标数据分布的最佳方法，如此一来，在labeled source上训练的模型就可以被使用在（或适应于）unlabeled target。如图1(b)所示，DA的优势是能够学习更多的域不变（domain-invariant）表示，减少源和目标之间的域转移（domain shift），并提高ER模型的性能，例如，绿线可以正确分类在源和目标数据集中的数据实例。

然而，尽管最近进行了一些尝试，但据我们所知，在ER中采用DA并没有在同一框架下进行系统的研究，因此从业者很难理解DA对ER的好处和局限性。为了弥补这一差距，本文引入了一个通用框架，称为DADER（Deep ER的领域适应），它统一了DA解决方案[73,74]的广泛选择。具体来说，该框架由三个主要模块组成。

（1）特征提取器（Feature Extractor）将实体对转换为高维向量（high-dimensional vectors）(又叫做features）

（2）匹配器（Matcher）是一种二元分类器，它以实体对的特征作为输入，并预测它们是否匹配。

（3）特征对齐器（Feature Aligner）是domain adaptation的关键模块，旨在缓解域偏移（domain shift）的影响。为了实现这一点，特征对齐器调整特征提取器，以对齐源和目标ER数据集的分布，从而减少源和目标之间的域偏移（domain shift）。此外，它还对匹配器进行了相应的更新，以最小化调整后的特征空间中的匹配误差（minimize the matching errors in the adjusted feature space）。

Design space exploration

在此框架的基础上，我们系统地分类和研究了DA中最具代表性的方法，并重点研究了两个关键问题。

问题1

DA是机器学习（如计算机视觉和自然语言处理）中的一个广泛的主题，并且有大量的领域自适应的设计选择（ large set of design choices）。因此，有必要提出一个问题，即哪些设计选择有助于ER。为了回答这个问题，我们广泛回顾了现有的DA研究，然后重点关注最流行和最丰富的方向。在此基础上，我们对DADER中的每个模块进行了分类，并通过总结具有代表性的DA技术来定义一个设计空间（design space）。具体来说

特征提取器通常由递归神经网络[38]和预训练语言模型[19,44,55]来实现。
匹配器通常采用深度神经网络作为二值分类器。
特征对齐器由三类解决方案实现：（1）基于差异，（2）基于对抗，以及（3）基于重建。

由于特征提取器和匹配器的具体选择已经得到了充分的研究，我们的重点是识别特征对齐器的方法，为此我们开发了六种具有代表性的方法，涵盖了广泛的SOTA DA技术。

问题2

DA是否有助于ER，去利用相关领域的labeled data。为了解决这个问题，本文考虑了两种设置：

（1）没有任何target labels的无监督DA设置

（2）有一些target labels的半监督DA设置。

此外，我们还比较了DADER和ER的SOTA DL解决方案，如DeepMatcher[49]和Ditto[42]。在此基础上，我们对DA对ER的优缺点进行了综合分析。

Contributions

（1）据我们所知，我们是第一个正式定义DA for deep ER（第3节），并对迄今为止将DA应用于ER进行了最全面的研究。

（2）我们介绍了一个支持DA for ER的DADER框架，它由三个模块组成，即特征提取器、匹配器和特征对齐器。我们通过对框架中的每个模块进行分类，系统地探索了ER的DA设计空间（第4节）。特别地，我们开发了六种具有代表性的特征对齐器的方法（第5节）。

（3）我们进行了一个彻底的评估，以探索设计空间，并比较所开发的方法（第6节）。源代码和数据已经在Github上提供。我们发现DA对于ER非常有前途，因为它减少了源和目标之间的domain shift。我们指出了DA对ER的一些开放问题，并确定了研究方向（第8节）。

Github地址：https://github.com/ruc-datalab/DADER

2 Deep Entity Resolution

我们正式定义了实体解析，并提出了一个使用深度学习进行实体解析(或简称Deep ER)的框架。

Entity resolution

设