李宏毅机器学习(九)Multi-lingual BERT
Multi-lingual BERT
输入多种语言来训练BERT
Zero-shot Reading Comprehension
首先模型是在104种语言上进行训练的!
并且以English的QA来training我们的模型,最后在回答问题的时候使用中文!
可以看到如果在104种语言pre-train,然后在Chinese+English上进行fine-tune得到的准确率是最高的!而两者均在Chinese上训练,得到的结果却不是很好! 这就是Multi-lingual 的神奇之处!
这里行坐标是在哪个语言上训练,列坐标是在哪个语言上测试! 所以下面的都是硬Train的,就是看模型懂不懂语言上的跨度!
其它的证据也有很多,也能证明在一个语言上训练,其它语言上同样有效
Cross-Lingual Alignment?
为什么跨语言模型对齐能够成功?
说明在word embedding上,两个语言的嵌入是相近的!
真的会嵌入到相同的位置吗?
我们通过计算两个词汇的相似度,rank的意思是第几个才是正确的答案! 最后取平均!
在不同的语言上进行实验我们的模型,后面的几百几千k是资料数! 会发现模型的效果很大程度上依赖于词汇量; 但是在控制词汇量之后,会发现有的模型即使词汇量很大,也难以达到像BERT一样的效果!
How alignment happens?
但是为什么模型就能让他们有更加近的vector的距离呢?
- Typical answer
第一种解释是两种语言中有一些公用的tokens,比如数字、发音; 再比如中文和应为中语言X有相似的tokens
- 第二种解释
- 我们将English中的单词转化为fake-english作为输入,这样两者就不存在common Tokens,再去看实现效果! 比如红框里面,pre-train、trian和test后结果还是很好的!
- 这是一个尚待研究的问题
Sounds weird?
我们已经知道的就是两者的token embedding肯定是相近的。 这里面肯定有语言信息!
不同语言的平均还是有差异的!
语言的平均用来相加:
我们计算两种语言(平均)的差异,我们的假设是可能一种语言在另一种语言的同一侧!
那么我们用两者之间的差异,加到一种语言上,那么会得到另一种语言!
这确实是有用的,我们加上两倍的,三倍的蓝色的向量后会发现文字全部翻译成了中文! 虽然在翻译上是问题的,但是说明语言信息的存在性
下面的例子中常规的测试,只是加入了蓝色的向量,会发现效果会变好!
**GAN里面有相似的**:
先求短发的平均,再求长发的平均,短发加(长发和短发之间的距离)就是本人的长发模样
李宏毅机器学习(九)Multi-lingual BERT相关推荐
- 李宏毅机器学习(七)Bert and its family
技术前瞻 在预训练模型上训练Bert,并在我们的数据上fine-tune所需要的模型! 就像学习英文一样! 应该是通读英文文章后再去做题,而不是先做题再读懂文章! Pre-train Model Em ...
- 李宏毅机器学习--self-supervised:BERT、GPT、Auto-encoder
目录 Self-Supervised Learning BERT BERT训练 masking input(随机遮盖一些输入单位) next sentence prediction(预测前后两个句子是 ...
- 2018-3-19李宏毅机器学习视频学习笔记九----Classification: Probabilistic Generative Model
视频来源: 李宏毅机器学习(2017)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili https://www.bilibili.com/video/av10590361/?p=10 步骤: (1 ...
- 资料分享:推荐一本《李宏毅机器学习》开源电子书!
背景 今天在 github 上看到了 datawhale 发布的 李宏毅机器学习笔记. https://datawhalechina.github.io/leeml-notes 其目录如下: P1 机 ...
- 李宏毅机器学习—读书笔记
李宏毅机器学习笔记(LeeML-Notes) leeml-notes 机器学习 人工智慧(Artificial Intelligence)是我们想要达成的目标,希望机器可以跟人一样的聪明.机器学习(M ...
- 2021李宏毅机器学习笔记--21 Anomaly Detection
2021李宏毅机器学习笔记--21 Anomaly Detection(异常侦测) 摘要 一.问题描述 二.Anomaly异常 三.Anomaly Detection(异常侦测)做法 3.1 Bina ...
- 李宏毅机器学习-explainable machine learning(机器学习的可解释性)及代码
目录 为什么需要机器学习的可解释性? Interpretable VS Powerful 什么叫做好的 Explanation explainable ML的分类 Local Explanation( ...
- 李宏毅机器学习-HW1
文章目录 前言 一.分析目标 二.数据预处理 1.初步处理 2.特征提取 3.Normalize和切分训练集和验证集 三.训练 四.验证 五.预测 1.数据预处理 2.预测 3.写入文件 总结 前言 ...
- 李宏毅机器学习HW1
本博文主要是完成李宏毅机器学习HW1作业 作业连接:https://ntumlta2019.github.io/ml-web-hw1/ 作业规则 所有代码必须用python3.6编写 允许所有pyth ...
- ⭐李宏毅机器学习2020作业汇总
更新进度:■■■■■□□□□□□□□□□□□□□□|30% 李宏毅机器学习code 序号 主题 完成情况 作业一 Linear Regression ✅ 作业二 Classification ✅ 作业 ...
最新文章
- Swift 异常处理
- android camera 实时滤镜,【Camera】Android平台Camera实时滤镜实现方法
- jieba.posseg.cut方法
- Java中的垃圾回收
- 我的博客网站开发6——博文关键字搜索
- css和 js 改变html里面的定位。
- (JAVA)红黑树之自然顺序排序和自定义排序方式
- seafile安装教程 Linux,CentOS7安装seafile开源版
- 《Go 语言程序设计》读书笔记 (三) 方法
- XML与java的应用
- 概率图模型(PGM) —— 贝叶斯网络(Bayesian Network)
- OpenCV中的reshape
- php的public、protected、private三种访问控制模式的区别
- 数据线CE测试标准 准备资料
- Unity3d iOS 内购详细流程总汇
- MFC+Opencv实现图片视频处理和人脸识别
- 常用触摸屏485通讯引脚及下载口
- Kafka+Spark Streaming+Redis实时计算整合实践
- 电脑打字技巧:微软输入法的U模式和V模式,快速打日期和时间。
- 修改Android模拟器中System目录的内容(framework.jar)