摘要:
使用多语言的BERT生产109种语言无关的句子向量:
1,MLM,TLM结合的预训练BERT
2,使用translation ranking task fine-tune 双向的encoder

112个语种的双语挖掘准确率超过83.7%

介绍
1,MLM的输出句子向量效果不好
2,SentenceBERT (双encoder fine-tune 单语BERT)在STS(语义相似度)任务中取得了很好的成绩

多语言embedding策略:
双语:LASER —— 需要大量平行语料
双语 + input-response prediction :mUSE —— 没有一个语对的模型好

多语言的交叉影响的优点:

MLM+TLM -> Pre-trained BERT
final layer [CLS] representations cosine

效果:
双语挖掘任务中sota,:UN,BUCC
对比LASER 大语种相似,小语种超越

没有语料的30+语种:

1:预训练+fine-tuning策略,在双语挖掘任务中sota
2,109种语言的单模型及zero-shoting
3,分析数据数量,数据质量,预训练,及负采样率策略

2,语料
单语:
CommonCrawl and Wikipedia
清洗策略:分类器(使用页面的主要内容作为正向样本,其他领域的作为负向样本)
17B 50% unfiltered version
双语:
双语挖掘(Uszkoreit et al. (2010))
CDS 打分模型进行过滤
人工 subset GOOD BAD
为了平衡小语种,每个语对最多100M,总共6B

3 模型

3.1 Bidirectional Dual Encoder with Additive
Margin Softmax


xi yi 是真实翻译句子对 减去m
Batch-Size N

trg->src


3.2 Cross-Accelerator Negative Sampling

训练加速

使用负采样率

正常128

交叉采样

3.3 Pre-training and parameter sharing

a transformer encoder
MLM+TLM

三阶段渐进叠加算法:
L/4 L/2 L

Evaluation

参数
词表:wordpiece model (Sennrich et al., 2016) 50W
encoder: BERT Base model 12 layers 12 heads 768hidden size
last layer [CLS] token l2 norm as output

pre-trained BERT model
512 cores TPU V3: batch-size:8192 max-len 512
min(20% , 80) tokens masked MLM TLM
400k,800k,1.8M

LaBSE models
32 cores TPU V3 : batch-size:2048 max-len 64
margin=0.3
50K (less than 1 epoch) ->200M双语
x10 scaling factor

BUCC

United Nations

Tatoeba

Analysis

Additive Margin

Pre-training

500K 1B (双语) vs 50K 200M

Comparison to Multilingual BERT

multi_cased_L-12_H-768_A-12
提高原因:
更大的词表 500K vs 30K
TLM improve transfer
common crawl (更多的数据,虽然噪音也多) vs wikipedia

Importance of the Data Selection

CDS model vs none
precision 99% 80%
CDS selection is not only based on the quality but also based on a domain match with the training data

5.1 Zero-shot Transfer to Languages without Training Data

vocab 影响

Negative Sampling
交叉加速负采样

5.2 Semantic Similarity


vs sBERT
能力倾向于区分语义是否等价,而在一句多义方面没有优势

vs m-USE
rediction of input-response 在判断语义相似度表现好

6 Mining Parallel Text from CommonCrawl

使用LaBSE 挖掘 commoncrawl
trg建立索引
ANN 算法挖掘
相似度>= 0.6

结论

LaBSE : Language-agnostic BERT Sentence Embedding相关推荐

  1. Rasa课程、Rasa培训、Rasa面试、Rasa实战系列之 Language Agnostic BERT

    Rasa课程.Rasa培训.Rasa面试.Rasa实战系列之 Language Agnostic BERT Language Agnostic BERT Language-agnostic BERT ...

  2. Dual-View Distilled BERT for Sentence Embedding

    论文标题:Dual-View Distilled BERT for Sentence Embedding 论文链接:https://arxiv.org/pdf/2104.08675v1.pdf 来源: ...

  3. ESimCSE: Enhanced Sample Building Method for Contrastive Learning of Unsupervised Sentence Embedding

    ESimCSE:用于无监督句子嵌入对比学习的增强样本构建方法 Xing Wu 1,2,3 , Chaochen Gao 1,2 ∗ , Liangjun Zang 1 , Jizhong Han 1 ...

  4. PromptBERT: Improving BERT Sentence Embeddings with Prompts (通篇翻译)

    PromptBERT:使用提示改进BERT句子嵌入 Ting Jiang 1 ∗ , Shaohan Huang 3 , Zihan Zhang 4 , Deqing Wang 1 † , Fuzhe ...

  5. PromptBERT: Improving BERT Sentence Embeddings with Prompts

    这篇文章用Prompt减少偏差token偏差,传统的BERT输出的向量,在句子语义相似度方面的表现是不好的.作者发现原因主要由两点组成:static token embedding biases和in ...

  6. 文献阅读:SNCSE: Contrastive Learning for Unsupervised Sentence Embedding with Soft Negative Samples

    文献阅读:SNCSE: Contrastive Learning for Unsupervised Sentence Embedding with Soft Negative Samples 1. 内 ...

  7. 句向量 Sentence Embedding

    句向量 Sentence Embedding 摘要 本文主要对句向量的发展和relate work介绍一下,可以看作一个简单的综述内容,句向量在NLP中有着很重要的作用,同时在许多NLP实际任务中会类 ...

  8. 2022年几款前沿的文本语义检索/Sentence Embedding方法:Gradient Cache, SGPT,ART,DPTDR,RocketQAv2, ERNIE-Search等

    最近研究了一些最新的关于搜索方向的论文,发现了几篇有代表性的论文,我这里分享出来,跟大家一起学习共同进步.目前的搜索架构都是召回和排序,召回采用的是BM25,dual-encoder, bi-enco ...

  9. 【论文阅读翻译】A STRUCTURED SELF - ATTENTIVE SENTENCE EMBEDDING

    [论文阅读翻译]A STRUCTURED SELF - ATTENTIVE SENTENCE EMBEDDING Abstruct 1. Introducion 2. Approach 2.1 Mod ...

最新文章

  1. Android Studio 运行、编译卡死的解决办法
  2. 女生参加web前端培训可以吗
  3. linux中设置程序开机自动启动
  4. WindowsServer2003双网卡配置
  5. layui如何实现添加数据时关闭页面层,并实时刷新表格数据?
  6. T6企业管理软件 5.1 - 导出单据列表显示“数据库已达到最大值”“创建临时表失败”
  7. 华为服务器重装操作系统,华为服务器安装操作系统
  8. 【机器学习应用】机器学习之有监督学习
  9. 辐射光电流测试软件,资深工程师告诉你如何使用示波器测试EMI辐射干扰
  10. 什么是rundll32.exe,为什么运行?
  11. 计算机点击管理无效,win10开始菜单没反应,二种解决办法!
  12. 秒杀排列组合(上)————排列篇
  13. 什么是显示器支架,显示器支架有啥优势
  14. C语言 输出菱形 最短代码!
  15. Factors of Factorial
  16. web前端电影项目作业源码 大学生影视主题网页制作电影网页设计模板 学生静态网页作业成品 dreamweaver电影HTML网站制作
  17. Java压缩文件和文件夹为zip格式
  18. 字典(DICT)知识大全
  19. 十大蓝筹NFT近半年数据横向对比
  20. 一位原码的乘法规则_原码一位乘法与补码一位乘法

热门文章

  1. ubuntu找不到命令 add-apt-repository command not found
  2. PlayStation Classic由开源PCSX模拟器提供支持
  3. 索尼A7R IV和索尼A7 III的区别
  4. 什么鬼,Kubelet 重启之后容器也跟着重启了?
  5. 基于C++的云安全主动防御系统客户端服务端设计
  6. 阿里本地生活一二三面
  7. JavaMail 学习讲解
  8. 计算机视觉有哪些SCI期刊? - 易智编译EaseEditing
  9. maven强制刷新本地包:(用于打包后重新加载)
  10. vue实现点击变色再次点击变回来