LaBSE : Language-agnostic BERT Sentence Embedding
摘要:
使用多语言的BERT生产109种语言无关的句子向量:
1,MLM,TLM结合的预训练BERT
2,使用translation ranking task fine-tune 双向的encoder
112个语种的双语挖掘准确率超过83.7%
介绍
1,MLM的输出句子向量效果不好
2,SentenceBERT (双encoder fine-tune 单语BERT)在STS(语义相似度)任务中取得了很好的成绩
多语言embedding策略:
双语:LASER —— 需要大量平行语料
双语 + input-response prediction :mUSE —— 没有一个语对的模型好
多语言的交叉影响的优点:
MLM+TLM -> Pre-trained BERT
final layer [CLS] representations cosine
效果:
双语挖掘任务中sota,:UN,BUCC
对比LASER 大语种相似,小语种超越
没有语料的30+语种:
1:预训练+fine-tuning策略,在双语挖掘任务中sota
2,109种语言的单模型及zero-shoting
3,分析数据数量,数据质量,预训练,及负采样率策略
2,语料
单语:
CommonCrawl and Wikipedia
清洗策略:分类器(使用页面的主要内容作为正向样本,其他领域的作为负向样本)
17B 50% unfiltered version
双语:
双语挖掘(Uszkoreit et al. (2010))
CDS 打分模型进行过滤
人工 subset GOOD BAD
为了平衡小语种,每个语对最多100M,总共6B
3 模型
3.1 Bidirectional Dual Encoder with Additive
Margin Softmax
xi yi 是真实翻译句子对 减去m
Batch-Size N
trg->src
3.2 Cross-Accelerator Negative Sampling
训练加速
使用负采样率
正常128
交叉采样
3.3 Pre-training and parameter sharing
a transformer encoder
MLM+TLM
三阶段渐进叠加算法:
L/4 L/2 L
Evaluation
参数
词表:wordpiece model (Sennrich et al., 2016) 50W
encoder: BERT Base model 12 layers 12 heads 768hidden size
last layer [CLS] token l2 norm as output
pre-trained BERT model
512 cores TPU V3: batch-size:8192 max-len 512
min(20% , 80) tokens masked MLM TLM
400k,800k,1.8M
LaBSE models
32 cores TPU V3 : batch-size:2048 max-len 64
margin=0.3
50K (less than 1 epoch) ->200M双语
x10 scaling factor
BUCC
United Nations
Tatoeba
Analysis
Additive Margin
Pre-training
500K 1B (双语) vs 50K 200M
Comparison to Multilingual BERT
multi_cased_L-12_H-768_A-12
提高原因:
更大的词表 500K vs 30K
TLM improve transfer
common crawl (更多的数据,虽然噪音也多) vs wikipedia
Importance of the Data Selection
CDS model vs none
precision 99% 80%
CDS selection is not only based on the quality but also based on a domain match with the training data
5.1 Zero-shot Transfer to Languages without Training Data
vocab 影响
Negative Sampling
交叉加速负采样
5.2 Semantic Similarity
vs sBERT
能力倾向于区分语义是否等价,而在一句多义方面没有优势
vs m-USE
rediction of input-response 在判断语义相似度表现好
6 Mining Parallel Text from CommonCrawl
使用LaBSE 挖掘 commoncrawl
trg建立索引
ANN 算法挖掘
相似度>= 0.6
结论
LaBSE : Language-agnostic BERT Sentence Embedding相关推荐
- Rasa课程、Rasa培训、Rasa面试、Rasa实战系列之 Language Agnostic BERT
Rasa课程.Rasa培训.Rasa面试.Rasa实战系列之 Language Agnostic BERT Language Agnostic BERT Language-agnostic BERT ...
- Dual-View Distilled BERT for Sentence Embedding
论文标题:Dual-View Distilled BERT for Sentence Embedding 论文链接:https://arxiv.org/pdf/2104.08675v1.pdf 来源: ...
- ESimCSE: Enhanced Sample Building Method for Contrastive Learning of Unsupervised Sentence Embedding
ESimCSE:用于无监督句子嵌入对比学习的增强样本构建方法 Xing Wu 1,2,3 , Chaochen Gao 1,2 ∗ , Liangjun Zang 1 , Jizhong Han 1 ...
- PromptBERT: Improving BERT Sentence Embeddings with Prompts (通篇翻译)
PromptBERT:使用提示改进BERT句子嵌入 Ting Jiang 1 ∗ , Shaohan Huang 3 , Zihan Zhang 4 , Deqing Wang 1 † , Fuzhe ...
- PromptBERT: Improving BERT Sentence Embeddings with Prompts
这篇文章用Prompt减少偏差token偏差,传统的BERT输出的向量,在句子语义相似度方面的表现是不好的.作者发现原因主要由两点组成:static token embedding biases和in ...
- 文献阅读:SNCSE: Contrastive Learning for Unsupervised Sentence Embedding with Soft Negative Samples
文献阅读:SNCSE: Contrastive Learning for Unsupervised Sentence Embedding with Soft Negative Samples 1. 内 ...
- 句向量 Sentence Embedding
句向量 Sentence Embedding 摘要 本文主要对句向量的发展和relate work介绍一下,可以看作一个简单的综述内容,句向量在NLP中有着很重要的作用,同时在许多NLP实际任务中会类 ...
- 2022年几款前沿的文本语义检索/Sentence Embedding方法:Gradient Cache, SGPT,ART,DPTDR,RocketQAv2, ERNIE-Search等
最近研究了一些最新的关于搜索方向的论文,发现了几篇有代表性的论文,我这里分享出来,跟大家一起学习共同进步.目前的搜索架构都是召回和排序,召回采用的是BM25,dual-encoder, bi-enco ...
- 【论文阅读翻译】A STRUCTURED SELF - ATTENTIVE SENTENCE EMBEDDING
[论文阅读翻译]A STRUCTURED SELF - ATTENTIVE SENTENCE EMBEDDING Abstruct 1. Introducion 2. Approach 2.1 Mod ...
最新文章
- Android Studio 运行、编译卡死的解决办法
- 女生参加web前端培训可以吗
- linux中设置程序开机自动启动
- WindowsServer2003双网卡配置
- layui如何实现添加数据时关闭页面层,并实时刷新表格数据?
- T6企业管理软件 5.1 - 导出单据列表显示“数据库已达到最大值”“创建临时表失败”
- 华为服务器重装操作系统,华为服务器安装操作系统
- 【机器学习应用】机器学习之有监督学习
- 辐射光电流测试软件,资深工程师告诉你如何使用示波器测试EMI辐射干扰
- 什么是rundll32.exe,为什么运行?
- 计算机点击管理无效,win10开始菜单没反应,二种解决办法!
- 秒杀排列组合(上)————排列篇
- 什么是显示器支架,显示器支架有啥优势
- C语言 输出菱形 最短代码!
- Factors of Factorial
- web前端电影项目作业源码 大学生影视主题网页制作电影网页设计模板 学生静态网页作业成品 dreamweaver电影HTML网站制作
- Java压缩文件和文件夹为zip格式
- 字典(DICT)知识大全
- 十大蓝筹NFT近半年数据横向对比
- 一位原码的乘法规则_原码一位乘法与补码一位乘法