上一篇看了BERT的句嵌入表示在语义文本相似性上表现不行,今天来学习下它为啥不行——各向异性。

Title: On the Sentence Embeddings from Pre-trained Language Models

From: EMNLP 2020

Link: https://aclanthology.org/2020.emnlp-main.733.pdf

Github: https://github.com/bohanli/BERT-flow

该阅读笔记首发于:https://zhuanlan.zhihu.com/p/479563606


这篇文章主要关注两个问题:

(1)为什么基于BERT的sentence embeddings在检索语义相似度上表现很差?是因为携带的语义信息太少了还是因为这些携带的语义信息没有被正确利用?

(2)如果BERT的embeddings获得了足够多的,但是难以利用的语义信息,怎么能在没有额外监督的情况下,让它更好被利用?

  • (一)Understanding the Sentence Embedding Space of BERT
    • 1. 语义相似度任务和BERT预训练的联系
    • 2. 各向异性嵌入空间导致的语义相似性差
  • (二)Proposed Method: BERT-flow
  • (三)Experiment
    • 1. 与原空间的embeddings进行比较
    • 2. 与其他解决各向异性的嵌入校准baseline进行比较
    • 3. 词汇相似性

(一)Understanding the Sentence Embedding Space of BERT

通过BERT将句子编码成固定长度的向量,一般是两种方式:把句子中上下文embedding做平均,或者是直接取[CLS]的embedding。因为(Reimers, 2019)已经证明[CLS]的效果是最差的,所以在这篇文章里,作者直接使用了上下文embeddings平均来作为BERT的句子嵌入表示。

1. 语义相似度任务和BERT预训练的联系

先从理论上推导了下masked language model(MLM)和语义相似度任务上的联系。

语言模型(ML)以自回归的方式分解联合概率:log⁡p(x1:T)=∑t=1Tlog⁡p(xt∣ct)\log p(x_{1:T})=\sum_{t=1}^T\log p(x_t|c_t)logp(x1:T)=t=1Tlogp(xtct), 其中ct=x1:t−1c_t=x_{1:t-1}ct=x1:t1

Masked语言模型是:

(公式太难打了hhh,直接截图了)

LM和MLM都可简化为,给定上下文ccc,对token xxx的条件概率分布进行建模,表示为:

hch_chc是上下文ccc 的embedding,一般通过深度神经网络来学习。wxw_xwxxxx的函数,一般通过embedding lookup table进行参数化。

由此,句子cccc,c^{,}c,的相似度可以简化为:hcThc,h_c^Th_{c^,}hcThc,。这个相似度无法获得具体的计算公式。

我们先考虑句子嵌入和词嵌入的点积:hcTwxh_c^Tw_xhcTwx。根据之前的研究,这个点积可以近似分解为:

PMI这个共现统计的指标常用来近似单词级别的语义相似度。所以,粗略地说,计算句嵌入hch_chc和词嵌入wxw_xwx的点积是具有语义意义的。

基于上下文的训练方式,使hch_chchc,h_c^{,}hc,的相似性也有所提升。

所以,作者写了这么多,就是想说明BERT的预训练过程中,会引入语义相似性的,从理论上说,训练得到的词嵌入和句嵌入,应该是可以体现出语义相似度信息的。但是,事实却不是这样。

2. 各向异性嵌入空间导致的语义相似性差

各向异性(Anisotropic)是指词嵌入在向量空间中占据一个狭窄的锥。这个现象存在于BERT、GPT-2等预训练模型。在这篇论文中,作者还有两个观察:

(1)观察一:词频会使向量空间产生偏差

​ 通过计算BERT中不同词频段的词向量的L2范数,可以看到:高频词的embedding距离原点都很近,低频词则距离原点很远。

(2)观察二:低频词分布稀疏

​ 高频词密集集中,词频词稀疏分散。这个观察结果是通过计算单词的嵌入到他们的K近邻的L2范数来实现的。表1的下半部分,高频词的平均K近邻的距离远小于低频词。由于这种稀疏性,在语义空间中,低频词周围就会有很多语义含义不明确的“洞”。那当上下文嵌入表示平均后,得到的句子嵌入可能就正好在这些语义不明确的地方。

(二)Proposed Method: BERT-flow

因此,作者提出了BERT-flow模型,把BERT嵌入空间映射到一个标准的高斯潜空间(Gaussian latent space)。这个映射是可逆的,从而保证了两个嵌入空间的互信息不会发生改变。

为什么高斯潜空间可以解决这个问题呢?

首先标准高斯分布是满足各向同性的。如果将高斯空间中的样本的L2范数归一化为1,则样本均匀分布在一个单位球面上。而且,高斯分布的概率密度在整个空间上都被很好地定义,不会出现“洞”。

通过最大化BERT句子嵌入的边缘似然函数,以无监督的方式,学习一个基于流的生成模型。(其实这部分还不是特别理解)

(三)Experiment

1. 与原空间的embeddings进行比较

在7个语义文本相似度数据集上做了评估。


2. 与其他解决各向异性的嵌入校准baseline进行比较

  • Standard Normalization(SN)

    标准归一化通过计算平均值和标准差,对sentence embeddings进行归一化。有效果,但效果一般。

  • Nulling Away Top-k singular Vectors(NATSV)

    剔除前K个奇异向量。这个比SN的效果稍好。但是也存在对原空间信息的丢弃。BERT-flow则不存在信息丢失的问题。

3. 词汇相似性

编辑距离可以用来衡量一对句子间词汇的相似度。实验结果表明,金标准下,句子语义相似与否,与编辑距离的相关性并不大。而BERT获得句向量的相似度与编辑距离很相关:编辑距离越小,语义相关的可能性就越高。

简单来说,这就意味着BERT生成的句向量,对于句子中只替换了一两词但是语义完全不同的句子是很难区分的。比如 “我喜欢这家餐厅”和“我不喜欢这家餐厅”,编辑距离很小,但语义完全相反。

【论文阅读-句向量】On the sentence embeddings from Pre-trained Language Models相关推荐

  1. 【论文阅读-句向量】Whitening Sentence Representations for Better Semantics and Faster Retrieval

    这是苏神的论文,从BERT-flow到BERT-whitening,越来越接近文本的本质,处理方法也越来越简单了.其实昨天已经看完这个论文了,但是在看苏神的博客时发现这篇论文竟然还有一点小插曲:一篇使 ...

  2. 论文解读:PromptBERT: Improving BERT Sentence Embeddings with Prompts

    论文解读:PromptBERT: Improving BERT Sentence Embeddings with Prompts 一.动机 虽然BERT等语言模型有很大的成果,但在对句子表征方面(se ...

  3. [论文阅读] (24) 向量表征:从Word2vec和Doc2vec到Deepwalk和Graph2vec,再到Asm2vec和Log2vec(一)

    <娜璋带你读论文>系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢.由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学 ...

  4. 论文解读:It’s Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners

    论文解读:It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners   PET作者认为之前的P ...

  5. 论文笔记:PICARD: Parsing Incrementally for Constrained Auto-Regressive Decoding from Language Models

    论文笔记:PICARD: Parsing Incrementally for Constrained Auto-Regressive Decoding from Language Models 目录 ...

  6. 【论文阅读报告】 Real-time Personalization using Embeddings for Search Ranking at Airbnb

    主要内容 Airbnb作为全球最大的住宿网站之一,其团队希望构建一个能够实时为用户提供个性化的房源排名的系统. Airbnb利用word2vec模型针对用户的长期兴趣和短期兴趣分别对房源和用户做了嵌入 ...

  7. 论文阅读:In the Eye of the Beholder: A Survey of Models for Eyes and Gaze

    In the Eye of the Beholder: A Survey of Models for Eyes and Gaze 第二篇EGT的论文阅读,同样是review性质的一篇论文 In the ...

  8. 【论文阅读】Learning Hierarchy-Aware Knowledge Graph Embeddings for Link Prediction

    <Learning Hierarchy-Aware Knowledge Graph Embeddings for Link Prediction> 论文来源:EMNLP2020 论文链接: ...

  9. 论文阅读笔记:《Contextual String Embeddings for Sequence Labeling》

    文章引起我关注的主要原因是在CoNLL03 NER的F1值超过BERT达到了93.09左右,名副其实的state-of-art.考虑到BERT训练的数据量和参数量都极大,而该文方法只用一个GPU训了一 ...

  10. 论文阅读2 Learning Hierarchy-Aware Knowledge Graph Embeddings for Link Prediction

    目录 问题 创新 1.Introduction 2.相关工作 3.HAKE模型 原文:[1911.09419] Learning Hierarchy-Aware Knowledge Graph Emb ...

最新文章

  1. content 内容生成技术2
  2. 详解音视频直播中的低延时
  3. MFC设置静态文本框,编辑框等控件背景和字体颜色
  4. 数学建模模型概述框架
  5. 修改注册表实现程序开机自启动
  6. 分布式系统Lease机制
  7. 《剑指offer》链表中倒数第k个结点
  8. apache derby_Apache Derby数据库用户和权限
  9. Android activity启动模式
  10. Nginx+uWSGI 入门
  11. 用asp.net获取服务器和客服端有关信息
  12. c语言写贪吃蛇什么水平_细致的C语言写贪吃蛇教程+详细思路-适合新手附源码...
  13. android与后台交互,Android客户端与服务端交互
  14. android studio 模拟器文件管理器
  15. 水浒传 第三十六回 没遮拦追赶及时雨 船火儿夜闹浔阳江
  16. WINCC 7.5 SP2 与 S7-1500的通讯不上的处理
  17. Java EE(进阶版)
  18. debian安装tools
  19. iOS 13 适配,关闭黑暗模式(夜间模式)
  20. Linux内存机制浅见——从内存布局到线程局部存储TLS

热门文章

  1. 中国宠物经济蛋糕静候分割
  2. 用计算机绘图课件,第7章 计算机绘图ppt课件.ppt
  3. [Tableau] Tableau知识技能
  4. 树莓派自动连接WiFi
  5. Ubuntu 开机未登录用户前自动连接wifi
  6. CSP介绍、以及使用CryptoAPI枚举CSP并获取其属性
  7. 树莓派外挂ESP32-USB
  8. 群晖nas介绍文档_我的NAS我的地盘 篇三:群晖NAS软件介绍与应用之DS file篇
  9. 内涵社区APP,一款集内涵段子,百思不得其姐,煎蛋于一身的搞笑社区
  10. 洛谷 P3435 [POI2006]OKR-Periods of Words(KMP+记忆化搜索)