李宏毅nlp学习笔记04:bert和它的好朋友们
1.当下追求的模型:
输入文本,训练使得模型可以读懂文本,然后根据不同的任务微调模型!
2.bert大家庭—芝麻街:
3.预训练:
把token用嵌入的向量表示。
针对英文系的前缀后缀等,有fasttext
中文的偏旁部首也能体现一定的意义:
为了表示相同字在不同词中的意思不同,现在的model都是输入整个句子之后,再给出每个token
的embedding。
即上下文。
这样的模型可以有哪些呢?
bert的encoder中的自注意力机制就是做这个的。
给出10个含有苹果的苹的句子,前5个是吃的苹果,后5个是苹果公司,求这10个字向量的自注意力矩阵。
模型越做越大:
但一般会搞出“穷人”使用的bert(小型):
怎样实现的呢?
比如albert:架构基本相同,原来每一层都是不同的参数,现在设置成每一层都是相同的参数。然而,效果不但基本没有掉,而且还有一定的提升,太神奇了。
4.让模型变小的方式:
5.当前模型追求让输入的句子变得越来越长,甚至是一本书:
6.追求将注意力机制的计算量减下去,
当前是n2,
bert是一个预训练的模型。
7.fine-tune(微调):因为要具体到各种不同的任务之中去。
比如,有任务:
多个句子之前应该添加一个特殊的token来告诉模型这是两个不同的句子。
8.输出①:one class:
有两种方法:
1.加一个cls,然后通过某种方法(注意力机制),把所有信息都融入到它所输出的向量中,然后再做一定的处理。
2,不加cls,把每个token的输出在输入到一个模型中。
9.输出②class for each token:
10.输出③:
红色来侦测开始位置,蓝色来侦测结束位置。
11.输出④:
另外一种方法就是把输出的再当做输入来预测下一个输出(我记得transformer就是这样子的):
12.
13.fine-tune(微调):预训练模型+具体任务的模型:
那么,一般有两种,一种是固定预训练模型,调整具体任务的模型。
另一种是把两个模型作为一个大的模型,一起进行调整。
后者的效果一般要好于前者。
14.第二种微调方法(把预训练和具体任务的模型当做一个大的模型)的缺点:
不同的具体任务会使得model有着不同的参数,这样model都应该分别存储,几亿个参数的会占据很大的空间。
15.Adapter:解决上述问题:
adapter中的參數只是model中的一小部分,在进行调节的时候,也只是调节这一部分的参数,因此可以降低需要存储的量。
16.最后的处理:
有一种处理是:输入的参数经过第一层的模型输出一个向量,这个向量再经过第二层的模型输出一个向量,作为最终的向量。
另一种方法是,第一次输出和第二次输出的权重和作为最终的向量。
李宏毅nlp学习笔记04:bert和它的好朋友们相关推荐
- 李宏毅nlp学习笔记10:QA(Question answering)
1.QA的基本流程: 问题的答案可能是明确的,也可能是有变化的. 答案给出的方式,可能是一个词,或者是一个单个的句子, 获取知识的来源,可以使文本,声音,搜索,视频. 答案形式部分: 2.输出的答案就 ...
- 李宏毅NLP学习笔记,NLP模型LAS。
转自:http://t.zoukankan.com/yanqiang-p-13257228.html 语音识别模型: 语音识别模型主要分为两种,一种是基于seq2seq的,一种是基于HMM的. seq ...
- 李宏毅nlp学习笔记06:Text Style Transfer
1.Text Style Transfer 可以把消极的消息变成积极的消息: 进行的应该是无监督的学习. 以把消极的句子转为积极的句子为例. G:模型是消极的模型转化为积极的模型 D:则应该能够判断转 ...
- 『NLP学习笔记』BERT文本分类实战
BERT技术详细介绍! 文章目录 一. 数据集介绍 二. 数据读取 三. 训练集和验证集划分 四. 数据分词tokenizer 五. 定义数据读取(继承Dataset类) 六. 定义模型以及优化方法 ...
- 李宏毅nlp学习笔记12:DST(Dialogue State Tracking)
该任务所处的位置: 下图中红色框框框住的地方. 该任务很重要: DST具体做什么: 最后给出的结果一般是一个set: 一般key是提前给好的. value则会给出一个范围. key一般会分成domai ...
- 利用计算机技术实现对文本篇章,自然语言处理NLP学习笔记一:概念与模型初探...
前言 先来看一些demo,来一些直观的了解. 自然语言处理: 可以做中文分词,词性分析,文本摘要等,为后面的知识图谱做准备. 知识图谱: 还有2个实际应用的例子,加深对NLP的理解 九歌机器人: 微软 ...
- 取得 Git 仓库 —— Git 学习笔记 04
取得 Git 仓库 -- Git 学习笔记 04 我认为, Git 的学习分为两大块:一是工作区.索引.本地版本库之间的交互:二是本地版本库和远程版本库之间的交互.第一块是基础,第二块是难点. 下面, ...
- JavaWeb黑马旅游网-学习笔记04【BaseServlet抽取】
Java后端 学习路线 笔记汇总表[黑马程序员] JavaWeb黑马旅游网-学习笔记01[准备工作] JavaWeb黑马旅游网-学习笔记02[注册功能] JavaWeb黑马旅游网-学习笔记03[登陆和 ...
- JavaWeb-综合案例(用户信息)-学习笔记04【删除选中功能】
Java后端 学习路线 笔记汇总表[黑马程序员] JavaWeb-综合案例(用户信息)-学习笔记01[列表查询] JavaWeb-综合案例(用户信息)-学习笔记02[登录功能] JavaWeb-综合案 ...
最新文章
- mysql根据字段长度查询_SQL语句如何查询某一字符串字段长度等于某个值的所有记录...
- 2021年快手大健康行业数据价值报告
- docker network host模式
- AIX 64位内核与32位内核区别
- springboot2集成hbase2环境搭建
- 【Power Query】使用Excel抓取淘宝天猫所有类目分类和cateId对应关系
- 开源力量 Linux内核源码深度解析与开发实战
- LibVLC —— Qt下OpenGL播放rtsp/rtmp流,每帧图像基于OpenCv处理
- 《JAVA与模式》— 调停者模式
- 单元測试中 Right-BICEP 和 CORRECT
- 独立站好做吗?独立站跨境电商怎么做?
- 发送文件的过程计算机,用电脑给别人传文件的方法步骤图
- Python之ruamel.yaml模块详解(三)| ruamel.yaml与pyyaml的区别
- 【时间序列】python与时间序列基本教程4(超过1.9万字 代码超过900行 包括49个图)...
- Java中 VO、 PO、DO、DTO、 BO、 QO、DAO、POJO和util、service、tool
- 腰部减肥3个秘诀 腰围速减2cm
- Unity3D 角色基本行走和旋转动画控制Demo
- 17HTML5期末大作业:国外影视网站设计——橙色国外电影(13页) HTML+CSS+JavaScript 学生DW网页设计作业成品 web课程设计网页规划与设计 计算机毕设网页设计源码
- SaaSpace:9大免费的项目管理软件
- 杨辉三角—知识点详解
热门文章
- python中字符串可以加减乘除吗_Python实现不用加减乘除做加法
- B 站焊武帝爆火出圈
- 现代修谱,如何看待支系单飞的现象?
- 人生若只如初见,何事秋风悲画扇?
- Retrofit+Rxjava+mvp购物车
- Android主线程阻塞处理及优化
- Imported target “xxxxxxx“ includes non-existent path “/usr/include/eigen3“
- appserv mysql 密码_AppServ8.0安装教程,AppServ8.0安装后Mysql密码不对怎么办?
- termius 链接树莓派显示乱码锟斤拷�⊠
- 解决vs打开历史项目提示不兼容或打开失败