学习内容

前情提要

BERT与芝麻街

这些都是BERT的组件

BERT与进击的巨人

BERT(340 M 参数)
ELMO(94M)
GPT-2(1542M)
Megatron(8B)
T5(11B)
Turing NLG(17 billion)
GPT-3(170 billion)

Bert的基本知识

前提

监督学习: 有标签
自监督学习:由于没有标签,我们需要将文章的某一部分作为特征,另一部分作为标签,使得特征经过模型后和标签距离更近;
无监督学习: 就是没有标签喽!

Masking Input

BERT就是输入一些字符,输出一些字符;
Mask Input有两种:第一种是盖住; 第二种是替换;
但是在输出结果后还是要和GT标签计算距离!

Next sentence Prediction (观察两个数据是相连还是不相连)

方法:
输入两个句子,输出vector
sep: 两个句子的分隔符;
CLS: 输出这两个句子是不是相连接的,连接 = True; 不连接=Flase;

评价:
没有用,这个Next sentence Prediction是没用的

其它:
SOP: sentence order prediction
Used in ALBERT

那Bert有什么用? 填空题?

其它应用?

下游任务! 我们需要Bert进行pre-train,类似胚胎干细胞,fine-tune成不同的Model

GLUE

判断一个模型好与不好,需要在公开模型中判断,GLUE就是一个标杆;
GLUE中包含了各种数据集,从而测试不同模型的不同的性能。下图中是各个子任务达到的SOTA和人类能力的比对。

实例

Case 1: 情感分析

图片1
线性层是需要随机初始化的! 而BERT是预训练的模型(会做填空题的BERT), CLS输出该句子的情感。
随机初始化的效果要差!

Case 2:POS(词性标注) 输入一个句子输出一样长度的句子

图片2
这里的CLS就没啥用了,因为我们输出的是三个

Case3: NLI(自然语言逻辑判断)

查看两句话的逻辑是否相通,能否通过前提推出假设! 是不是矛盾的!
图片3
用在哪? 比如论文和某个人的评论,到底是合理的还是不合理的!
输入两个句子,输出CLS

Case4: QA(问答系统)

让机器读后,你提出问题,让他给你一个答案!
题目: 图片1
怎么使用BERT: 图片2
你唯一需要训练的向量就是两个随机初始化的向量,这两个向量的大小和BERT的产出向量是同样大小到 !怎么使用这两个向量呢? 我们先用橙色的向量与右边的文件向量做Inner Product,查看和document哪个单词的内积更高,那么s 就等于几; 蓝色的同理,代表了答案结束的向量,d就等于几。答案= s - d
问题1: 输入长度有限制吗?
答: 长度不是无限长的

问题2: 和填空题的区别
答:

训练Bert 是很困难的

需要3billions单词, 3000倍哈利波特。
Google的ALBERT;

Bert Embryology 胚胎学

Bert增强= MASS/BART

将Encoder的输入弄坏!也就是添加Mask,旋转等 ; 而Decoder需要还原Encoder弄坏的单词;

T5-Comparison

有这么多弄坏的方法,哪些更好呢? 谷歌T5已经做了! 它是在C4(公开资料集 7T )上计算的。

李宏毅机器学习(六)自监督学习(一)相关推荐

  1. 李宏毅机器学习笔记六——Gradient Descent

    视频来源: 李宏毅机器学习(2017)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili https://www.bilibili.com/video/av10590361/?p=6 使用GD的注意 ...

  2. 李宏毅机器学习课程12~~~半监督学习

    Semi-supervised Learning The distribution of the unlabeled data tell us something. Usually with some ...

  3. 李宏毅机器学习—读书笔记

    李宏毅机器学习笔记(LeeML-Notes) leeml-notes 机器学习 人工智慧(Artificial Intelligence)是我们想要达成的目标,希望机器可以跟人一样的聪明.机器学习(M ...

  4. 【李宏毅机器学习CP1-3】(task1)机器学习简介分类|回归

    文章目录 1.机器学习的过程 2.机器学习相关分类 3.选择合适的model,loss function 4.CP3 一.回归定义和应用例子 回归定义 应用举例 二.模型步骤 Step 1:模型假设 ...

  5. 李宏毅机器学习自己的笔记(一)----------Introduction of MachineLearning

    视频来源:李宏毅机器学习(2017)_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili https://www.bilibili.com/video/av10590361/?p=2 声明:图片均来自 ...

  6. 资料分享:推荐一本《李宏毅机器学习》开源电子书!

    背景 今天在 github 上看到了 datawhale 发布的 李宏毅机器学习笔记. https://datawhalechina.github.io/leeml-notes 其目录如下: P1 机 ...

  7. 《李宏毅机器学习特训营》免费开放!直播教学!

    AlphaGo战胜"石神"李世石,人工智能开始闯进大众的视野,机器学习成为同学入门人工智能领域的学习首选. 提起机器学习,就不能不说一位人物,他就是台湾大学李宏毅教授.李宏毅老师说 ...

  8. 喜大普奔:Datawhale开源项目《李宏毅机器学习完整笔记》发布了!

    开源地址 https://github.com/datawhalechina/leeml-notes [导读]关于机器学习的学习资料从经典书籍.免费公开课到开源项目应有尽有,可谓是太丰富啦,给学习者提 ...

  9. 李宏毅机器学习完整笔记发布,AI界「最热视频博主」中文课程笔记全开源

    点上方"小詹学Python",选择"置顶公众号"第一时间获取干货分享!本文转自:Datawhale 提起李宏毅老师,熟悉机器学习的读者朋友一定不会陌生.很多人选 ...

  10. 李宏毅机器学习课程4~~~分类:概率生成模型

    分类问题用回归来解决? 当有右图所示的点时,这些点会大幅改变分类线的位置.这时候就会导致整体的回归结果变差.当把多分类当成回归问题,类别分别为1,2,3,4--,因为回归的问题是预测具体的值,这样定义 ...

最新文章

  1. HBase设计与开发性能优化(转)
  2. ABAP 程序中退出操作(CHECK, EXIT, RETURN, LEAVE PROGRAM...)
  3. python函数示例_使用Python中的示例的input()函数
  4. 北京冬奥会科技感十足多家科技公司助力
  5. 京东拼多多全面封杀电子烟,淘宝仍正常销售...
  6. html 环形进度条,详解利用canvas实现环形进度条的方法
  7. Python实现桌面程序:PyQt5 + QtDesigner -- 界面设计与逻辑编写
  8. shiny datatable child row:shiny表格二级子行的展开与折叠
  9. 数据库索引实现(B+,B-,hash)
  10. MySQL入门(详细总结)
  11. Android开发 匹配软键盘回车键
  12. 【SDOI2008】Sue的小球
  13. Python实现马科维茨投资组合有效前沿
  14. 《公司的力量》纪录片
  15. 如何计算近似纳什均衡_澳洲计算机网络安全课程之-莫纳什大学硕士课程
  16. 遗传算法之扇贝的进化(python代码实现)
  17. 基于s3c2440的12864液晶驱动
  18. 电路中能否使用无极性电容替换等容量的极性电容?
  19. Sql Server 2012 集群配置
  20. Python模块:Re模块、附软件开发目录规范

热门文章

  1. LeetCode 252. Meeting Rooms (会议室)$
  2. CS190.1x Scalable Machine Learning
  3. 八皇后解法(回溯法)
  4. 树的存储结构(树的二叉链表(孩子—兄弟))
  5. SQL Server常用的系统存储过程应用实例(转)
  6. linux设备模型之kset/kobj/ktype分析
  7. 每日一题(6)—— sizeof用法
  8. php print r用法,php中echo(),print(),print_r()用法
  9. long类型python_Python类型long vs C'long long'
  10. JavaScript高级之ECMAScript 6 新特性