Multi-lingual BERT

输入多种语言来训练BERT

Zero-shot Reading Comprehension

首先模型是在104种语言上进行训练的!
并且以English的QA来training我们的模型,最后在回答问题的时候使用中文!

可以看到如果在104种语言pre-train,然后在Chinese+English上进行fine-tune得到的准确率是最高的!而两者均在Chinese上训练,得到的结果却不是很好! 这就是Multi-lingual 的神奇之处!

这里行坐标是在哪个语言上训练,列坐标是在哪个语言上测试! 所以下面的都是硬Train的,就是看模型懂不懂语言上的跨度!

其它的证据也有很多,也能证明在一个语言上训练,其它语言上同样有效

Cross-Lingual Alignment?

为什么跨语言模型对齐能够成功?

说明在word embedding上,两个语言的嵌入是相近的!

真的会嵌入到相同的位置吗?

我们通过计算两个词汇的相似度,rank的意思是第几个才是正确的答案! 最后取平均!

在不同的语言上进行实验我们的模型,后面的几百几千k是资料数! 会发现模型的效果很大程度上依赖于词汇量; 但是在控制词汇量之后,会发现有的模型即使词汇量很大,也难以达到像BERT一样的效果!

How alignment happens?

但是为什么模型就能让他们有更加近的vector的距离呢?

  • Typical answer

第一种解释是两种语言中有一些公用的tokens,比如数字、发音; 再比如中文和应为中语言X有相似的tokens

  • 第二种解释
  • 我们将English中的单词转化为fake-english作为输入,这样两者就不存在common Tokens,再去看实现效果! 比如红框里面,pre-train、trian和test后结果还是很好的!
  • 这是一个尚待研究的问题

Sounds weird?

我们已经知道的就是两者的token embedding肯定是相近的。 这里面肯定有语言信息

不同语言的平均还是有差异的!

语言的平均用来相加
我们计算两种语言(平均)的差异,我们的假设是可能一种语言在另一种语言的同一侧!
那么我们用两者之间的差异,加到一种语言上,那么会得到另一种语言!

这确实是有用的,我们加上两倍的,三倍的蓝色的向量后会发现文字全部翻译成了中文! 虽然在翻译上是问题的,但是说明语言信息的存在性

下面的例子中常规的测试,只是加入了蓝色的向量,会发现效果会变好!

**GAN里面有相似的**:

先求短发的平均,再求长发的平均,短发加(长发和短发之间的距离)就是本人的长发模样

李宏毅机器学习(九)Multi-lingual BERT相关推荐

  1. 李宏毅机器学习(七)Bert and its family

    技术前瞻 在预训练模型上训练Bert,并在我们的数据上fine-tune所需要的模型! 就像学习英文一样! 应该是通读英文文章后再去做题,而不是先做题再读懂文章! Pre-train Model Em ...

  2. 李宏毅机器学习--self-supervised:BERT、GPT、Auto-encoder

    目录 Self-Supervised Learning BERT BERT训练 masking input(随机遮盖一些输入单位) next sentence prediction(预测前后两个句子是 ...

  3. 2018-3-19李宏毅机器学习视频学习笔记九----Classification: Probabilistic Generative Model

    视频来源: 李宏毅机器学习(2017)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili https://www.bilibili.com/video/av10590361/?p=10 步骤: (1 ...

  4. 资料分享:推荐一本《李宏毅机器学习》开源电子书!

    背景 今天在 github 上看到了 datawhale 发布的 李宏毅机器学习笔记. https://datawhalechina.github.io/leeml-notes 其目录如下: P1 机 ...

  5. 李宏毅机器学习—读书笔记

    李宏毅机器学习笔记(LeeML-Notes) leeml-notes 机器学习 人工智慧(Artificial Intelligence)是我们想要达成的目标,希望机器可以跟人一样的聪明.机器学习(M ...

  6. 2021李宏毅机器学习笔记--21 Anomaly Detection

    2021李宏毅机器学习笔记--21 Anomaly Detection(异常侦测) 摘要 一.问题描述 二.Anomaly异常 三.Anomaly Detection(异常侦测)做法 3.1 Bina ...

  7. 李宏毅机器学习-explainable machine learning(机器学习的可解释性)及代码

    目录 为什么需要机器学习的可解释性? Interpretable VS Powerful 什么叫做好的 Explanation explainable ML的分类 Local Explanation( ...

  8. 李宏毅机器学习-HW1

    文章目录 前言 一.分析目标 二.数据预处理 1.初步处理 2.特征提取 3.Normalize和切分训练集和验证集 三.训练 四.验证 五.预测 1.数据预处理 2.预测 3.写入文件 总结 前言 ...

  9. 李宏毅机器学习HW1

    本博文主要是完成李宏毅机器学习HW1作业 作业连接:https://ntumlta2019.github.io/ml-web-hw1/ 作业规则 所有代码必须用python3.6编写 允许所有pyth ...

  10. ⭐李宏毅机器学习2020作业汇总

    更新进度:■■■■■□□□□□□□□□□□□□□□|30% 李宏毅机器学习code 序号 主题 完成情况 作业一 Linear Regression ✅ 作业二 Classification ✅ 作业 ...

最新文章

  1. Swift 异常处理
  2. android camera 实时滤镜,【Camera】Android平台Camera实时滤镜实现方法
  3. jieba.posseg.cut方法
  4. Java中的垃圾回收
  5. 我的博客网站开发6——博文关键字搜索
  6. css和 js 改变html里面的定位。
  7. (JAVA)红黑树之自然顺序排序和自定义排序方式
  8. seafile安装教程 Linux,CentOS7安装seafile开源版
  9. 《Go 语言程序设计》读书笔记 (三) 方法
  10. XML与java的应用
  11. 概率图模型(PGM) —— 贝叶斯网络(Bayesian Network)
  12. OpenCV中的reshape
  13. php的public、protected、private三种访问控制模式的区别
  14. 数据线CE测试标准 准备资料
  15. Unity3d iOS 内购详细流程总汇
  16. MFC+Opencv实现图片视频处理和人脸识别
  17. 常用触摸屏485通讯引脚及下载口
  18. Kafka+Spark Streaming+Redis实时计算整合实践
  19. 电脑打字技巧:微软输入法的U模式和V模式,快速打日期和时间。
  20. 修改Android模拟器中System目录的内容(framework.jar)

热门文章

  1. BZOJ 4259: 残缺的字符串 [FFT]
  2. angularjs 表单验证 和 页面初始化闪烁
  3. 将MYSQL查询导出到文件
  4. 6、使用infowindow
  5. 每个大数据工程师都应该知道的OLAP 核心知识点
  6. c/c++ 前置声明 -- typedef问题
  7. HDFS的特性以及如何保证数据的一致性
  8. Android中常见的MVC/MVP/MVVM模式
  9. multi-line comment In file
  10. gpg96244qs1屏驱动起来了