课程资料来自李宏毅老师油土鳖频道的BERT家族教程:上,下。

这两章主要是如何在pre-train的模型上做fine-turn,如何利用大模型来做自己的task。

目录

前言

什么是预训练 What is pre-train model

如何微调 How to fine-tune

入参

出参

每句生成一个class:

每个token都有一个class:

从输入做Copy

生成句子

针对预训练模型参数的策略

Weighted Features不同的layer也可以综合

为什么Fine-tune?

预训练是怎么做出来的 How to pre-train

HW4 Self-Attention

数据集

算法处理过程


前言

思想:让机器稍微了解人类的语言后,然后再针对具体的任务做训练。通过大量的无标注资料让机器先pre-train,然后用少量的有标注资料fine-tune。

哈哈,李老师讲了大家在硬凑芝麻街的任务来命名模型。时间顺序是LMo/BERT/ERNIE/Groover。

什么是预训练 What is pre-train model

核心思想:输入token得到vector。

岁月史书:

①过去是同样的token就会有同样的vector,比如Word2Vector(13年)/Glove(14年)。【这里可以看下向量表征,了解更详细的发展历程】

存在的问题:

  1. 不会有上下文间交互,无法处理一语多义

    【李宏毅】Bert家族相关推荐

    1. 模型压缩与蒸馏!BERT家族的瘦身之路

      点击上方,选择星标,每天给你送干货! 作者 | 许明 整理 | NewBeeNLP公众号 之前我们讨论了『模型压缩与蒸馏!BERT的忒修斯船』,算是一个开篇.本文继续讨论关于模型蒸馏(Distilli ...

    2. 李宏毅 bert 讲解

      原始bert是干嘛的 bert就是transformer的encoder 输入seq,输出seq 先决定盖哪几个,再决定怎么盖 展示原始的bert 然后输出 输出的就是一个向量,里面就是词典所有的单词 ...

    3. EdgeBERT:极限压缩bert

      这个世界上有两种极具难度的工程:第一种是把很平常的东西做到最大,例如把语言模型扩大成能够写诗写文写代码的 GPT-3:而另一种恰恰相反,是把很平常的东西做到最小.对于 NLPer 来说,这种 &quo ...

    4. BERT大火却不懂Transformer?读这一篇就够了 原版 可视化机器学习 可视化神经网络 可视化深度学习...20201107

      20211016 调节因子 20211004 [NLP]Transformer模型原理详解 - 知乎 论文所用 20210703 GPT模型与Transformer进行对比_znevegiveup1的 ...

    5. 软硬兼施极限轻量BERT!能比ALBERT再轻13倍?!

      点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达文 | Sheryc_王苏 源 | 夕小瑶的卖萌屋 这个世界上有两种极具难度的工程:第一 ...

    6. EdgeBERT:极限压缩,比ALBERT再轻13倍!树莓派上跑BERT的日子要来了?

      文 | Sheryc_王苏 本文首发于NLP宝藏公号[夕小瑶的卖萌屋],疯狂暗示! 这个世界上有两种极具难度的工程:第一种是把很平常的东西做到最大,例如把语言模型扩大成能够写诗写文写代码的GPT-3: ...

    7. BERT微调效果不佳?不如试试这种大规模预训练模型新范式

      BERT模型自发布至今已整整两年了,但是其余热仍未消减.从一经问世的轰动,简单应用/微调便可达到某个领域或者任务的SOTA效果:到如今的各种『被吊打』,BERT巨人肩膀上的新宠大致可以分为以下这么几类 ...

    8. 李宏毅nlp学习笔记10:QA(Question answering)

      1.QA的基本流程: 问题的答案可能是明确的,也可能是有变化的. 答案给出的方式,可能是一个词,或者是一个单个的句子, 获取知识的来源,可以使文本,声音,搜索,视频. 答案形式部分: 2.输出的答案就 ...

    9. 【深度学习人类语言处理】1 课程介绍、语音辨识1——人类语言处理六种模型、Token、五种Seq2Seq Model(LAS、CTC、RNN-T、Neural Transducer、MoChA)

      Deep Learning for Human Ianguage Processing 1. DLHLP-Introduction 1.1 概述 1.2 六种模型与应用 1.2.1 语音到文本 1.2 ...

    最新文章

    1. javascript的date对象
    2. lnmp shell安装脚本
    3. javascript 之 push方法
    4. Golang Study 一 定时器使用
    5. Web前端开发薪资待遇及发展前景解读
    6. 32款iOS开发插件和工具介绍[效率]
    7. linux编译动态库之-fPIC
    8. mall整合SpringBoot+MyBatis搭建基本骨架
    9. mysql 事务处理null_如何使用Mysql正确的处理财务数据
    10. 一天到晚都在转笔,不需要写代码、调试,用眼看就行了?
    11. win10 IDE改AHCI,无需重装系统
    12. 冒险教主-超详细绘制教程
    13. 2018杭州云栖大会,梁胜博士的演讲PPT来啦! 1
    14. 程序员笔试题收集汇总(三)
    15. 动态规划题目——背包
    16. Phoenix官方教程 (九) Channel
    17. python坐标轴刻度设置_Python Matplotlib 设置x/y坐标轴刻度
    18. 毕业设计 嵌入式 智能火灾报警器设计与实现
    19. 1056: 幸运数字 ZZULIOJ
    20. 分枝杆菌噬菌体类有哪些最新发表的毕业论文呢?

    热门文章

    1. 计算机辅助项目管理实验论文,计算机辅助项目管理课程报告.doc
    2. Aigtek线束测试仪,高压线缆测试仪
    3. 【静态分析】【系列1-南大软件分析】1.0 导论学习笔记
    4. LTE-TDD measurement gaps位置计算--Python代码实现
    5. 【知识扩充】—— 360QVM和金山的KSC引擎
    6. canvas 制作动画(下)
    7. HTML5/CSS3图片左右切换弹性动画
    8. 在大厂上班,你牛什么劲?
    9. 如何快速成为技术大牛,阿里大牛的总结亮了
    10. 《Speckle noise reduction in optical coherence tomography images based on edge-sensitive cGAN》文章学习