Multi-lingual BERT

输入多种语言来训练BERT

Zero-shot Reading Comprehension

首先模型是在104种语言上进行训练的！
并且以English的QA来training我们的模型，最后在回答问题的时候使用中文！

可以看到如果在104种语言pre-train，然后在Chinese+English上进行fine-tune得到的准确率是最高的！而两者均在Chinese上训练，得到的结果却不是很好！这就是Multi-lingual 的神奇之处！

这里行坐标是在哪个语言上训练，列坐标是在哪个语言上测试！所以下面的都是硬Train的，就是看模型懂不懂语言上的跨度！

其它的证据也有很多，也能证明在一个语言上训练，其它语言上同样有效

Cross-Lingual Alignment？

为什么跨语言模型对齐能够成功？

说明在word embedding上，两个语言的嵌入是相近的！

真的会嵌入到相同的位置吗？

我们通过计算两个词汇的相似度，rank的意思是第几个才是正确的答案！最后取平均！

在不同的语言上进行实验我们的模型，后面的几百几千k是资料数！会发现模型的效果很大程度上依赖于词汇量；但是在控制词汇量之后，会发现有的模型即使词汇量很大，也难以达到像BERT一样的效果！

How alignment happens？

但是为什么模型就能让他们有更加近的vector的距离呢？

Typical answer

第一种解释是两种语言中有一些公用的tokens，比如数字、发音；再比如中文和应为中语言X有相似的tokens

第二种解释
我们将English中的单词转化为fake-english作为输入，这样两者就不存在common Tokens，再去看实现效果！比如红框里面，pre-train、trian和test后结果还是很好的！

这是一个尚待研究的问题

Sounds weird？

我们已经知道的就是两者的token embedding肯定是相近的。这里面肯定有语言信息！

不同语言的平均还是有差异的！

语言的平均用来相加：
我们计算两种语言（平均）的差异，我们的假设是可能一种语言在另一种语言的同一侧！
那么我们用两者之间的差异，加到一种语言上，那么会得到另一种语言！

这确实是有用的，我们加上两倍的，三倍的蓝色的向量后会发现文字全部翻译成了中文！虽然在翻译上是问题的，但是说明语言信息的存在性

下面的例子中常规的测试，只是加入了蓝色的向量，会发现效果会变好！

**GAN里面有相似的**：

先求短发的平均，再求长发的平均，短发加（长发和短发之间的距离）就是本人的长发模样

李宏毅机器学习（九）Multi-lingual BERT相关推荐

李宏毅机器学习（七）Bert and its family
技术前瞻在预训练模型上训练Bert,并在我们的数据上fine-tune所需要的模型! 就像学习英文一样! 应该是通读英文文章后再去做题,而不是先做题再读懂文章! Pre-train Model Em ...
李宏毅机器学习--self-supervised：BERT、GPT、Auto-encoder
目录 Self-Supervised Learning BERT BERT训练 masking input(随机遮盖一些输入单位) next sentence prediction(预测前后两个句子是 ...
2018-3-19李宏毅机器学习视频学习笔记九----Classification: Probabilistic Generative Model
视频来源: 李宏毅机器学习(2017)_哔哩哔哩 (゜-゜)つロ干杯~-bilibili https://www.bilibili.com/video/av10590361/?p=10 步骤: (1 ...
资料分享：推荐一本《李宏毅机器学习》开源电子书！
背景今天在 github 上看到了 datawhale 发布的李宏毅机器学习笔记. https://datawhalechina.github.io/leeml-notes 其目录如下: P1 机 ...
李宏毅机器学习—读书笔记
李宏毅机器学习笔记(LeeML-Notes) leeml-notes 机器学习人工智慧(Artificial Intelligence)是我们想要达成的目标,希望机器可以跟人一样的聪明.机器学习(M ...
2021李宏毅机器学习笔记--21 Anomaly Detection
2021李宏毅机器学习笔记--21 Anomaly Detection(异常侦测) 摘要一.问题描述二.Anomaly异常三.Anomaly Detection(异常侦测)做法 3.1 Bina ...
李宏毅机器学习-explainable machine learning（机器学习的可解释性）及代码
目录为什么需要机器学习的可解释性? Interpretable VS Powerful 什么叫做好的 Explanation explainable ML的分类 Local Explanation( ...
李宏毅机器学习-HW1
文章目录前言一.分析目标二.数据预处理 1.初步处理 2.特征提取 3.Normalize和切分训练集和验证集三.训练四.验证五.预测 1.数据预处理 2.预测 3.写入文件总结前言 ...
李宏毅机器学习HW1
本博文主要是完成李宏毅机器学习HW1作业作业连接:https://ntumlta2019.github.io/ml-web-hw1/ 作业规则所有代码必须用python3.6编写允许所有pyth ...
⭐李宏毅机器学习2020作业汇总
更新进度:■■■■■□□□□□□□□□□□□□□□|30% 李宏毅机器学习code 序号主题完成情况作业一 Linear Regression ✅ 作业二 Classification ✅ 作业 ...

李宏毅机器学习（九）Multi-lingual BERT