On the Sentence Embeddings from Pre-trained Language Models
Abstract
BERT 等预训练上下文表示模型在自然语言处理任务中取得了巨大的成功。但是从未在下游任务 fine-tune 的预训练模型中的到的句向量对句子语义的表示效果并不理想。本文认为 BERT embedding 中的语义信息并未被充分利用。本文首先从理论上揭示 MLM 预训练目标与语义相似度任务之间的关联,然后对 BERT 句向量进行了实验分析。
本文发现 BERT 总是得到一个非平滑 anisotropic 句子语义空间,这影响了语义相似性的效果。为了解决这个问题,本文通过 normalizing flows 将 BERT 句向量分布转换到一个平滑的 isotropic 高斯分布。normalizing flows 是通过非监督目标学到的。
实验显示本文提出的 BERT-flow 模型在若干语义文本相似度任务上相比现有 SOTA 获得了显著提升。
代码地址:https://github.com/bohanli/BERT-flow
Introduction
最近几年 BERT 等预训练模型在自然语言表示中得到了广泛应用。虽然经过 fine-tuning 之后可以在下游任务上取得很好的效果,但是直接从 BERT 中得到的句向量在文本语义相似度方面效果不尽如人意,甚至在某些任务上还不如 GloVe. (详细结果见
On the Sentence Embeddings from Pre-trained Language Models相关推荐
- 【2019斯坦福CS224N笔记】(5)The probability of a sentence Recurrent Neural Networks and Language Models
这部分内容主要研究语言模型及循环神经网络在语言模型中的应用. 目录 1.语言模型 2.经典n-gram模型 3.Window-based DNN 4.Recurrent Neural Networks ...
- NLP学习笔记「第二章」2.2 N-gram Language Models(N元语言模型)
Language Model words phrase sentence 2.2.1 Unigram Language Models 某个词出现的概率来估计一句话出现的概率 互不相干的独立同分布的词 ...
- Chapter9 : De Novo Molecular Design with Chemical Language Models
reading notes of<Artificial Intelligence in Drug Design> 文章目录 1.Introduction 2.Materials 2.1.C ...
- 论文笔记--On the Sentence Embeddings from Pre-trained Language Models
论文笔记--On the Sentence Embeddings from Pre-trained Language Models 1. 文章简介 2. 文章概括 3 文章重点技术 3.1 BERT模 ...
- PromptBERT: Improving BERT Sentence Embeddings with Prompts (通篇翻译)
PromptBERT:使用提示改进BERT句子嵌入 Ting Jiang 1 ∗ , Shaohan Huang 3 , Zihan Zhang 4 , Deqing Wang 1 † , Fuzhe ...
- 文献阅读笔记 # Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
<Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks> 用于快速搭建NLP任务的demo的开源项目sbert的原始 ...
- 文献阅读:SimCSE:Simple Contrastive Learning of Sentence Embeddings
文献阅读:SimCSE:Simple Contrastive Learning of Sentence Embeddings 1. 文献内容简介 2. 主要方法介绍 3. 主要实验介绍 1. STS ...
- 论文阅读笔记——《a simple but tough-to-beat baseline for sentence embeddings》
<a simple but tough-to-beat baseline for sentence embeddings>published at ICLR 2017. ICLR会议的论文 ...
- 【Sentence Simplification via Large Language Models 论文精读】
Sentence Simplification via Large Language Models 论文精读 Information Abstract 1 Introduction 2 Related ...
- (三)基于文本的QA问答系统——SGPT:GPT Sentence Embeddings for Semantic Search解读
SGPT:GPT Sentence Embeddings for Semantic Search解读 文章目录 SGPT:GPT Sentence Embeddings for Semantic Se ...
最新文章
- 北京矿大计算机考研每年分数线,2021中国矿业大学北京考研国家线公布时间_国家线是多少分...
- phpExcel与jq的ajax
- SpringBoot系列: 与Spring Rest服务交互数据
- matlab调用kmeans_Matlab中Kmeans函数的使用
- FreeMarker笔记 第二章 数值和类型
- 您需要 “企业内容管理“(ECM)还是 “文档管理系统”(DMS)?
- db2怎么限定查询条数_查询数据限制显示条数
- operators库
- tplogin 服务器未响应,为什么tplogin.cn老是域名解析错误
- 组合优化- 均值方差、最大夏普、风险平价模型
- 核酸检测预约和结果查询系统
- 攻防红队日记:利用路由器创建PPTP搭建隧道进内网
- 网络安全(2) -- 关于一次XSS攻击-图片(img标签)的onerror事件
- unity3D 新建android apk
- 论文阅读《Do Pre-trained Models Benefit Knowledge Graph Completion?A Reliable Evaluation and a Reasonab》
- js打开飞行模式_什么是飞行模式? 它有什么作用?什么时候应该打开它?
- 非等级式随机森林----随机蕨分类器
- strtok,strtok_s函数用法
- windows下python调用海康威视网络摄像头sdk
- 2005年网络设备市场预测
热门文章
- Docker——Dockerfile 介绍和使用
- Windows锁屏图片文件存放位置
- DGZX1564 - 水塔水位
- Openstack API 开发 快速入门
- 一阶锁相环的FPGA实现(基于quartus+matlab)
- 含有隐函数的离散常微分方程求解
- html5 ios 键盘挡住输入框,IOS 键盘挡住输入框的问题解决办法
- ps4 优酷 html5,ps4-hen-vtx/index.html at master · xvortex/ps4-hen-vtx · GitHub
- cbc cryptojs 前后端_AES加密前后端加解密不一致
- SAP -Posting only Possible in Periods YYYY/MM YYYY/MM in company 1000