文献：A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SENTENCE EMBEDDINGS

在进行了词嵌入的研究后，我们往往会联想到这样一个问题：既然单词可以用向量表示，那么由一个个单词组成的句子，可不可以也用向量表示呢？如果可以的话，句子之间就可以进行向量的运算，计算它们之间的相似度，进而可以对句子进行聚类或者进行匹配。

因此，这篇文献提出了一种简单但又难以打败的计算句子嵌入的方法，使得句子向量计算的性能得到了提升。

关于代码的实现，请看记录一次失败的句子相似性实验。当时效果不太好，但是后来的结果证明，还是可取的！大家谨慎参考！

Navigation

ABSTRACT
INTRODUCTION
METHOD
- $1$ Latent Variable Generative Model
- $2$ Improve Random Walk Model
- $3$ Compute Sentence Embedding
REFERENCE

ABSTRACT

应用神经网络方法来计算单词嵌入的成功促进了对于较长段落（例如文本）语义嵌入的研究。而作者提出了这样一种句子嵌入方法：通过一种流行的方法对未标记的语料库（如 $W i k i p e d i a$ ）计算词嵌入，通过词向量的加权平均值表示句子，然后使用 $P C A$ $/$ $S V D$ 对其进行一些修改。

这种加权可将文本相似性任务的性能提高约 10％到 30％，并且优于包括 $R N N$ 和 $L S T M$ 在内的复杂的监督方法。这种简单的方法在将来的研究中应当作为 $b a s e l i n e$ ，尤其是在带有标签的训练数据稀缺或不存在的情况下。

INTRODUCTION

使用多种方法计算的词嵌入是自然语言处理 ( $N L P$ ) 和信息检索 ( $I R$ ) 的基本构建块。它计算词与词之间的相似性。而最近的工作尝试从单词向量的简单加总平均到复杂的方法（例如卷积神经网络和递归神经网络）来计算单词序列（短语，句子和段落）语义的嵌入。

在这里，作者提供了一种非常简单的句子嵌入方法：只计算句子中单词向量的加权平均值，然后删除平均向量在其第一个主成分上的投影（“公共成分去除”）。我们称它为平滑反频率 ( $s m o o t h$ $i n v e r s e$ $f r e q u e n c y$ )。

( $1$ ) 单词 $w$ 的权重表示为a / (a + p(w))，a 是一个超参数，p(w)是词频。我们发现，p(w)越大，单词权重越小。是不是感觉与 $T F - I D F$ 原理有些相似，字词的重要性随着它在语料库中出现的频率成反比下降。

( $2$ ) 关于第一主成分，由于使用单词向量的平均的方法在沿语义上无意义的方向具有巨大的分量。因此我们删去这些公共成分，留下关键的信息。

$S I F$ 的优越性体现在以下几点：

well-suited for domain adaptation settings：对于各个领域的适应性较好
fairly robust to the weighting scheme：使用不同的语料库计算的词频并不会影响它的性能
a wide range of the parameters a can achieve close-to-best results：选择恰当的 $a$ ，可以达到最好的效果

METHOD

$1$ Latent Variable Generative Model

作者简要回顾了文本的潜在变量生成模型：该模型将语料库生成视为一个动态过程，在步骤 $t$ 中生成第 $t$ 个单词。这个过程是由一个 discourse vector 驱动的，表示为 $c_t$ ，意味着在这个时刻，句子的话题是什么，可以视为一个主题向量；同时，对于每一个单词 $w$ ，也有对应的词向量 $v_w$ （与时间无关）。二者之间的内积表示当前主题与词语的相关关系。

假定 $t$ 时刻单词 $w$ 产生概率为：

由于主题向量 $c_t$ 做缓慢的随机漫步(slow random walk)，即 $c_{t+1}$ 只是在 $c_t$ 基础上新增了移位向量，因此我们可以将相邻单词看成在相同 $c_t$ 下产生。

$2$ Improve Random Walk Model

在之前的基础上，作者定义 sentence embedding 为：给定一个句子 s，利用最大后验概率估计 ( $M A P$ ) 产生这个句子的主题向量 $c_t$ 。我们假定在一步步产生单词时，该句子的主题向量不会发生较大改变，因此用 $c_s$ 来代替一个句子所有的 $c_t$ 。

在模型的基础上，作者做了如下改进，引入了两个平滑项，用来解释 ( $a$ ) 有些词是在上下文之外出现 ( $b$ ) 某些高频词如 “ $t h e$ ” “ $a n d$ ” 是没有语境限制的。

α·p(w)：其中 $α$ 是标量， $p$ ( $w$ ) 是整个语料库中单词 $w$ 的词频。这使得即使单词与当前主题 $c_s$ 内积（相关性）很小，它也有一定的概率出现。
$c_0$ ：公共话题向量，它代表着与语法相关的最频繁的主题向量，作用为校正项。它提高了沿 $c_0$ 具有较高分量的单词的共现概率。

具体来说，给定主题向量 $c_s$ ，在句子 $s$ 中单词 $w$ 的生成概率为：

$α$ 和 $β$ 都是超参数， $Z_{c_s} = ∑_{w∈v}exp(<c_s, v_w>)$ 是归一化常数。我们看到该模型允许生成与主题向量 $c_s$ 不相关的单词 $w$ ，其原因有二：( $a$ ) 偶然地从项α·p(w)产生；( $b$ ) $w$ 与公共话语向量 $c_ {0}$ 相关。

$3$ Compute Sentence Embedding

句子向量被定义为向量 $c_s$ 的极大似然估计。

因此我们发现， $M L E$ 大致是句子中单词的向量的加权平均值。我们发现，越频繁的单词，权重越小。

为了估计 $c_s$ ，我们通过计算一组句子的第一主成分来估计方向 $c_0$ 。通过将 $c_s$ 的投影减去它们的第一主成分可以得到最终的句子嵌入。

整体流程如下：

REFERENCE

SIF 论文阅读笔记

『论文阅读』SIF：一种简单却难以打败的句子嵌入方法相关推荐

『论文阅读』LightGBM原理-LightGBM: A Highly Efficient Gradient Boosting Decision Tree
17年8月LightGBM就开源了,那时候就开始尝试上手,不过更多还是在调参层面,在作者12月论文发表之后看了却一直没有总结,这几天想着一定要翻译下,自己也梳理下GBDT相关的算法. Abstract ...
ICCV2021 Oral SimROD：简单高效的数据增强！华为提出了一种简单的鲁棒目标检测自适应方法...
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨小马来源丨我爱计算机视觉 ▊ 写在前面本文提出了一种简单有效的鲁棒目标检测无监督自适应方法( ...
【论文阅读】SIF：一种简单有效句子编码方法
SIF编码 Smooth Inverse Frequency是一种基于向量的检索.在介绍SIF之前,需要先理解平均词向量和基于TFIDF的加权平均词向量. 平均词向量就是将句子中的所有词的word e ...
『论文阅读笔记』目标检测模型中的性能评价方式-IOU、precision/recall、mAP、PR、Fps！
目标检测模型中的性能评估标准-IOU.precision/recall.mAP.PR.Fps! 文章目录一.交并比IOU 二.精确率(precision)和召回率(recall) 三.P-R(pre ...
『论文笔记』ACNet: Strengthening the Kernel Skeletons for Powerful CNN via Asymmetric Convolution Blocks！
ACNet: Strengthening the Kernel Skeletons for Powerful CNN via Asymmetric Convolution Blocks! 文章目录一 ...
『论文笔记』TensorFlow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集!
TensorFlow1.6.0+Keras 2.1.5+Python3.5+Yolov3训练自己的数据集! 文章目录前期准备一. Yolov3简要介绍 1.1. Yolov3网络结构图 1.2. ...
『论文笔记』Two Causal Principles for Improving Visual Dialog
Two Causal Principles for Improving Visual Dialog 一句话总结从因果图角度审视视觉对话任务,切断对话历史与答案的直接因果效应,添加混杂因子[用户偏好] ...
『论文笔记』Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions
Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions 一句话总结本文提出一个基 ...
存量房贷利率，一种简单估算其自然年利率调整的方法。
回溯需要先看看上篇:python实现货币贷款分期计算(等额本金/等额本息) 1.摘要 2022年过去了,总所周知LPR被多次下调,目前有存量房贷的朋友,如果(普遍)设置的是根据自然年LPR动态调整利 ...

『论文阅读』SIF：一种简单却难以打败的句子嵌入方法

Navigation

ABSTRACT

INTRODUCTION

METHOD

$1$ Latent Variable Generative Model

$2$ Improve Random Walk Model

$3$ Compute Sentence Embedding

REFERENCE

『论文阅读』SIF：一种简单却难以打败的句子嵌入方法相关推荐

最新文章

热门文章

『论文阅读』SIF：一种简单却难以打败的句子嵌入方法

Navigation

ABSTRACT

INTRODUCTION

METHOD

111 Latent Variable Generative Model

222 Improve Random Walk Model

333 Compute Sentence Embedding

REFERENCE

『论文阅读』SIF：一种简单却难以打败的句子嵌入方法相关推荐

最新文章

热门文章

$1$ Latent Variable Generative Model

$2$ Improve Random Walk Model

$3$ Compute Sentence Embedding