1.当下追求的模型：

输入文本，训练使得模型可以读懂文本，然后根据不同的任务微调模型！

2.bert大家庭—芝麻街：

3.预训练：

把token用嵌入的向量表示。

针对英文系的前缀后缀等，有fasttext
中文的偏旁部首也能体现一定的意义：

为了表示相同字在不同词中的意思不同，现在的model都是输入整个句子之后，再给出每个token
的embedding。
即上下文。

这样的模型可以有哪些呢？
bert的encoder中的自注意力机制就是做这个的。

给出10个含有苹果的苹的句子，前5个是吃的苹果，后5个是苹果公司，求这10个字向量的自注意力矩阵。

模型越做越大：

但一般会搞出“穷人”使用的bert（小型）：

怎样实现的呢？
比如albert：架构基本相同，原来每一层都是不同的参数，现在设置成每一层都是相同的参数。然而，效果不但基本没有掉，而且还有一定的提升，太神奇了。

4.让模型变小的方式：

5.当前模型追求让输入的句子变得越来越长，甚至是一本书：

6.追求将注意力机制的计算量减下去，

当前是n2，

bert是一个预训练的模型。

7.fine-tune（微调）：因为要具体到各种不同的任务之中去。

比如，有任务：

多个句子之前应该添加一个特殊的token来告诉模型这是两个不同的句子。

8.输出①：one class：

有两种方法：
1.加一个cls，然后通过某种方法（注意力机制），把所有信息都融入到它所输出的向量中，然后再做一定的处理。
2，不加cls，把每个token的输出在输入到一个模型中。

9.输出②class for each token：

10.输出③：

红色来侦测开始位置，蓝色来侦测结束位置。

11.输出④：

另外一种方法就是把输出的再当做输入来预测下一个输出（我记得transformer就是这样子的）：

12. 13.fine-tune（微调）：预训练模型+具体任务的模型：

那么，一般有两种，一种是固定预训练模型，调整具体任务的模型。
另一种是把两个模型作为一个大的模型，一起进行调整。
后者的效果一般要好于前者。

14.第二种微调方法（把预训练和具体任务的模型当做一个大的模型）的缺点：

不同的具体任务会使得model有着不同的参数，这样model都应该分别存储，几亿个参数的会占据很大的空间。

15.Adapter：解决上述问题：

adapter中的參數只是model中的一小部分，在进行调节的时候，也只是调节这一部分的参数，因此可以降低需要存储的量。

16.最后的处理：

有一种处理是：输入的参数经过第一层的模型输出一个向量，这个向量再经过第二层的模型输出一个向量，作为最终的向量。
另一种方法是，第一次输出和第二次输出的权重和作为最终的向量。

李宏毅nlp学习笔记04：bert和它的好朋友们相关推荐

李宏毅nlp学习笔记10：QA(Question answering）
1.QA的基本流程: 问题的答案可能是明确的,也可能是有变化的. 答案给出的方式,可能是一个词,或者是一个单个的句子, 获取知识的来源,可以使文本,声音,搜索,视频. 答案形式部分: 2.输出的答案就 ...
李宏毅NLP学习笔记，NLP模型LAS。
转自:http://t.zoukankan.com/yanqiang-p-13257228.html 语音识别模型: 语音识别模型主要分为两种,一种是基于seq2seq的,一种是基于HMM的. seq ...
李宏毅nlp学习笔记06：Text Style Transfer
1.Text Style Transfer 可以把消极的消息变成积极的消息: 进行的应该是无监督的学习. 以把消极的句子转为积极的句子为例. G:模型是消极的模型转化为积极的模型 D:则应该能够判断转 ...
『NLP学习笔记』BERT文本分类实战
BERT技术详细介绍! 文章目录一. 数据集介绍二. 数据读取三. 训练集和验证集划分四. 数据分词tokenizer 五. 定义数据读取(继承Dataset类) 六. 定义模型以及优化方法 ...
李宏毅nlp学习笔记12：DST（Dialogue State Tracking）
该任务所处的位置: 下图中红色框框框住的地方. 该任务很重要: DST具体做什么: 最后给出的结果一般是一个set: 一般key是提前给好的. value则会给出一个范围. key一般会分成domai ...
利用计算机技术实现对文本篇章,自然语言处理NLP学习笔记一：概念与模型初探...
前言先来看一些demo,来一些直观的了解. 自然语言处理: 可以做中文分词,词性分析,文本摘要等,为后面的知识图谱做准备. 知识图谱: 还有2个实际应用的例子,加深对NLP的理解九歌机器人: 微软 ...
取得 Git 仓库 —— Git 学习笔记 04
取得 Git 仓库 -- Git 学习笔记 04 我认为, Git 的学习分为两大块:一是工作区.索引.本地版本库之间的交互:二是本地版本库和远程版本库之间的交互.第一块是基础,第二块是难点. 下面, ...
JavaWeb黑马旅游网-学习笔记04【BaseServlet抽取】
Java后端学习路线笔记汇总表[黑马程序员] JavaWeb黑马旅游网-学习笔记01[准备工作] JavaWeb黑马旅游网-学习笔记02[注册功能] JavaWeb黑马旅游网-学习笔记03[登陆和 ...
JavaWeb-综合案例(用户信息)-学习笔记04【删除选中功能】
Java后端学习路线笔记汇总表[黑马程序员] JavaWeb-综合案例(用户信息)-学习笔记01[列表查询] JavaWeb-综合案例(用户信息)-学习笔记02[登录功能] JavaWeb-综合案 ...

李宏毅nlp学习笔记04：bert和它的好朋友们