1.当下追求的模型:

输入文本,训练使得模型可以读懂文本,然后根据不同的任务微调模型!

2.bert大家庭—芝麻街:

3.预训练:

把token用嵌入的向量表示。

针对英文系的前缀后缀等,有fasttext
中文的偏旁部首也能体现一定的意义:

为了表示相同字在不同词中的意思不同,现在的model都是输入整个句子之后,再给出每个token
的embedding。

即上下文。

这样的模型可以有哪些呢?
bert的encoder中的自注意力机制就是做这个的。

给出10个含有苹果的苹的句子,前5个是吃的苹果,后5个是苹果公司,求这10个字向量的自注意力矩阵。

模型越做越大:

但一般会搞出“穷人”使用的bert(小型):


怎样实现的呢?
比如albert:架构基本相同,原来每一层都是不同的参数,现在设置成每一层都是相同的参数。然而,效果不但基本没有掉,而且还有一定的提升,太神奇了。

4.让模型变小的方式:

5.当前模型追求让输入的句子变得越来越长,甚至是一本书:

6.追求将注意力机制的计算量减下去,

当前是n2,

bert是一个预训练的模型。

7.fine-tune(微调):因为要具体到各种不同的任务之中去。

比如,有任务:

多个句子之前应该添加一个特殊的token来告诉模型这是两个不同的句子。

8.输出①:one class:


有两种方法:
1.加一个cls,然后通过某种方法(注意力机制),把所有信息都融入到它所输出的向量中,然后再做一定的处理。
2,不加cls,把每个token的输出在输入到一个模型中。

9.输出②class for each token:

10.输出③:


红色来侦测开始位置,蓝色来侦测结束位置。

11.输出④:


另外一种方法就是把输出的再当做输入来预测下一个输出(我记得transformer就是这样子的):

12.

13.fine-tune(微调):预训练模型+具体任务的模型:

那么,一般有两种,一种是固定预训练模型,调整具体任务的模型。
另一种是把两个模型作为一个大的模型,一起进行调整。
后者的效果一般要好于前者。

14.第二种微调方法(把预训练和具体任务的模型当做一个大的模型)的缺点:


不同的具体任务会使得model有着不同的参数,这样model都应该分别存储,几亿个参数的会占据很大的空间。

15.Adapter:解决上述问题:

adapter中的參數只是model中的一小部分,在进行调节的时候,也只是调节这一部分的参数,因此可以降低需要存储的量。

16.最后的处理:

有一种处理是:输入的参数经过第一层的模型输出一个向量,这个向量再经过第二层的模型输出一个向量,作为最终的向量。
另一种方法是,第一次输出和第二次输出的权重和作为最终的向量。

李宏毅nlp学习笔记04:bert和它的好朋友们相关推荐

  1. 李宏毅nlp学习笔记10:QA(Question answering)

    1.QA的基本流程: 问题的答案可能是明确的,也可能是有变化的. 答案给出的方式,可能是一个词,或者是一个单个的句子, 获取知识的来源,可以使文本,声音,搜索,视频. 答案形式部分: 2.输出的答案就 ...

  2. 李宏毅NLP学习笔记,NLP模型LAS。

    转自:http://t.zoukankan.com/yanqiang-p-13257228.html 语音识别模型: 语音识别模型主要分为两种,一种是基于seq2seq的,一种是基于HMM的. seq ...

  3. 李宏毅nlp学习笔记06:Text Style Transfer

    1.Text Style Transfer 可以把消极的消息变成积极的消息: 进行的应该是无监督的学习. 以把消极的句子转为积极的句子为例. G:模型是消极的模型转化为积极的模型 D:则应该能够判断转 ...

  4. 『NLP学习笔记』BERT文本分类实战

    BERT技术详细介绍! 文章目录 一. 数据集介绍 二. 数据读取 三. 训练集和验证集划分 四. 数据分词tokenizer 五. 定义数据读取(继承Dataset类) 六. 定义模型以及优化方法 ...

  5. 李宏毅nlp学习笔记12:DST(Dialogue State Tracking)

    该任务所处的位置: 下图中红色框框框住的地方. 该任务很重要: DST具体做什么: 最后给出的结果一般是一个set: 一般key是提前给好的. value则会给出一个范围. key一般会分成domai ...

  6. 利用计算机技术实现对文本篇章,自然语言处理NLP学习笔记一:概念与模型初探...

    前言 先来看一些demo,来一些直观的了解. 自然语言处理: 可以做中文分词,词性分析,文本摘要等,为后面的知识图谱做准备. 知识图谱: 还有2个实际应用的例子,加深对NLP的理解 九歌机器人: 微软 ...

  7. 取得 Git 仓库 —— Git 学习笔记 04

    取得 Git 仓库 -- Git 学习笔记 04 我认为, Git 的学习分为两大块:一是工作区.索引.本地版本库之间的交互:二是本地版本库和远程版本库之间的交互.第一块是基础,第二块是难点. 下面, ...

  8. JavaWeb黑马旅游网-学习笔记04【BaseServlet抽取】

    Java后端 学习路线 笔记汇总表[黑马程序员] JavaWeb黑马旅游网-学习笔记01[准备工作] JavaWeb黑马旅游网-学习笔记02[注册功能] JavaWeb黑马旅游网-学习笔记03[登陆和 ...

  9. JavaWeb-综合案例(用户信息)-学习笔记04【删除选中功能】

    Java后端 学习路线 笔记汇总表[黑马程序员] JavaWeb-综合案例(用户信息)-学习笔记01[列表查询] JavaWeb-综合案例(用户信息)-学习笔记02[登录功能] JavaWeb-综合案 ...

最新文章

  1. mysql根据字段长度查询_SQL语句如何查询某一字符串字段长度等于某个值的所有记录...
  2. 2021年快手大健康行业数据价值报告
  3. docker network host模式
  4. AIX 64位内核与32位内核区别
  5. springboot2集成hbase2环境搭建
  6. 【Power Query】使用Excel抓取淘宝天猫所有类目分类和cateId对应关系
  7. 开源力量 Linux内核源码深度解析与开发实战
  8. LibVLC —— Qt下OpenGL播放rtsp/rtmp流,每帧图像基于OpenCv处理
  9. 《JAVA与模式》— 调停者模式
  10. 单元測试中 Right-BICEP 和 CORRECT
  11. 独立站好做吗?独立站跨境电商怎么做?
  12. 发送文件的过程计算机,用电脑给别人传文件的方法步骤图
  13. Python之ruamel.yaml模块详解(三)| ruamel.yaml与pyyaml的区别
  14. 【时间序列】python与时间序列基本教程4(超过1.9万字 代码超过900行 包括49个图)...
  15. Java中 VO、 PO、DO、DTO、 BO、 QO、DAO、POJO和util、service、tool
  16. 腰部减肥3个秘诀 腰围速减2cm
  17. Unity3D 角色基本行走和旋转动画控制Demo
  18. 17HTML5期末大作业:国外影视网站设计——橙色国外电影(13页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 计算机毕设网页设计源码
  19. SaaSpace:9大免费的项目管理软件
  20. 杨辉三角—知识点详解

热门文章

  1. python中字符串可以加减乘除吗_Python实现不用加减乘除做加法
  2. B 站焊武帝爆火出圈
  3. 现代修谱,如何看待支系单飞的现象?
  4. 人生若只如初见,何事秋风悲画扇?
  5. Retrofit+Rxjava+mvp购物车
  6. Android主线程阻塞处理及优化
  7. Imported target “xxxxxxx“ includes non-existent path “/usr/include/eigen3“
  8. appserv mysql 密码_AppServ8.0安装教程,AppServ8.0安装后Mysql密码不对怎么办?
  9. termius 链接树莓派显示乱码锟斤拷�⊠
  10. 解决vs打开历史项目提示不兼容或打开失败