文章目录

  • 引言
  • 一、模型介绍
    • 1. LSTM模型
    • 2. BI-LSTM(双向LSTM)模型
    • 3.CRF模型
    • 4. LSTM+CRF模型
    • 5. BiLSTM+CRF模型

引言

  本文讨论的是序列标注问题,所使用的模型是将两种现有的模型(LSTM+CRF)进行拼接,一种模型是双向LSTM模型,一种是CRF模型。下面介绍如何结合LSTM和CRF用于sequence tagging,并且对这些结合的效果进行测量。

一、模型介绍

  本篇文章涉及以下几种模型:LSTM,BI-LSTM,CRF,LSTM+CRF,BI-LSTM+CRF。BiLSTM-CRF模型通过双向LSTM有效地捕捉到了输入的过去和未来特征。它也可以通过CRF层使用到句子级的标注信息。BiLSTM-CRF在POS(词性标记)、NER(命名实体识别)数据集上都取得了很好的效果。另外,与之前的工作相比,它更健壮,依赖于更少的词向量。

1. LSTM模型

  在实际建模中,RNN 经常出现梯度爆炸或梯度消失等问题,因此我们一般使用长短期记忆单元或门控循环单元代替基本的 RNN 循环体。它们引入了门控机制以遗忘或保留特定的信息而加强模型对长期依赖关系的捕捉,它们同时也大大缓解了梯度爆炸或梯度消失的问题。循环网络的每一个隐藏层都有多个循环单元,隐藏层 ht−1h_{t-1}ht−1​ 的向量储存了所有该层神经元在t−1t-1t−1 步的激活值。一般标准的循环网络会将该向量通过一个仿射变换并添加到下一层的输入中,即 W∗ht−1+U∗XtW* h_{t-1}+U* X_tW∗ht−1​+U∗Xt​。而这个简单的计算过程由于重复使用 W 和 U 而会造成梯度爆炸或梯度消失。因此我们可以使用门控机制控制前一时间步隐藏层保留的信息和当前时间步输入的信息,并选择性地输出一些值而作为该单元的激活值。 之所以叫“门”结构,是因为使用 sigmoid 作为激活函数的全连接神经网络层会输出一个 0 到 1 之间的数值,描述当前输入有多少信息量可以通过这个结构。于是这个结构的功能就类似于一扇门,当门打开时(sigmoid 全连接层输出为 1 时),全部信息可以通过;当门关上时(sigmoid 神经网络层输出为 0 时),任何信息都无法通过。

    LSTM 有三个门,分别是“遗忘门”(forget gate)、“输入门”(input gate)和“输出门”(output gate)。
“遗忘门”的作用是让循环神经网络“忘记”之前没有用的信息,控制以前记忆的信息到底需要保留多少

“输入门”决定哪些信息进入当前时刻的状态,分为以前保留的信息加上当前输入有意义的信息

通过“遗忘门”和“输入门”,LSTM 结构可以很有效地决定哪些信息应该被遗忘,哪些信息应该得到保留。且更新当前时刻状态Ct,输入与输入门对应元素相乘表示当前时刻需要添加到Ct的记忆,前一时间步的记忆 Ct-1 与遗忘门 ft 对应元素相乘就表示了需要保留或遗忘的历史信息是多少,最后将这两部分的信息相加在一起就更新了记忆Ct的信息。

LSTM 在得到当前时刻状态 Ct 之后,需要产生当前时刻的输出,该过程通过“输出门”完成。
LSTM 的内部状态向量

nlp基础—12.LSTM-CRF模型介绍相关推荐

  1. 数据库技术基础:常见基本模型介绍笔记

    1.层次模型 层次模型采用树型结构表示数据与数据间的联系.层次模型中每个节点表示一个实体,实体之间的联系用节点之间的连线表示,并且除了根节点以外,其他节点有且仅有一个双亲节点. 层次模型特点:记录之间 ...

  2. NLP基础入门:Word2Vec模型

    文章目录 0.结构 1.语言模型基础 1.1.概念 1.2.缺陷 1.3.K-Gram语言模型 1.4.评价指标:困惑度 2.NNLM与RNNLM模型 2.1.NNLM 2.1.1.结构 2.1.2. ...

  3. NLP基础核心技术(语法模型和语法树)

    1,写入语法规则 simple_grammar = """ sentence => noun_phrase verb_phrase #句子语法结构:名词后面接上动词 ...

  4. NLP(二十五)实现ALBERT+Bi-LSTM+CRF模型

      在文章NLP(二十四)利用ALBERT实现命名实体识别中,笔者介绍了ALBERT+Bi-LSTM模型在命名实体识别方面的应用.   在本文中,笔者将介绍如何实现ALBERT+Bi-LSTM+CRF ...

  5. 情感分类模型介绍CNN、RNN、LSTM、栈式双向LSTM

    情感分类模型介绍CNN.RNN.LSTM.栈式双向LSTM 1.文本卷积神经网络(CNN) 卷积神经网络经常用来处理具有类似网格拓扑结构(grid-like topology)的数据.例如,图像可以视 ...

  6. 【机器学习基础】一文读懂用于序列标注的条件随机场(CRF)模型

    模型前的铺垫 我们先引入一个假设,假设一个句子的产生只需要两步: 第一步:基于语法产生一个合乎文法的词性序列 第二步:对第一步产生的序列中的每个词性找到符合这个词性的一个词汇,从而产生一个词汇序列,便 ...

  7. Django基础核心技术之Model模型的介绍与设计

    Django基础核心技术之Model模型的介绍与设计 原创: Yunbo Shi Python Web与Django开发 2018-05-03 Django网络应用开发的5项基础核心技术包括模型(Mo ...

  8. 定制你自己的CRF模型以及JAVA实现的Word2Vec模型和一些java版NLP的工具

    定制自己的CRF模型 JAVE 用户自定义词典 这个项目是一个基本包.封装了大多数nlp项目中常用工具 word2vec java版本的一个实现 CRF详解

  9. CRF原理介绍(以BILSTM-CRF模型为例)

    文章目录 1. BiLSTM-CRF命名实体识别概要 1.1 模型介绍 1.2 CRF在模型中的作用 2. CRF层详解 2.1 发射矩阵(emission矩阵) 2.2 转移矩阵(Transitio ...

  10. NLP实践——VQA/Caption生成模型BLIP-2的应用介绍

    NLP实践--VQA/Caption生成模型BLIP-2的应用介绍 1. 简介 2. 模型下载 3. 运行环境 4. 模型应用 1. 简介 今天介绍一个跨模态模型,也是最近比较火的一个工作,叫做BLI ...

最新文章

  1. 如何给女朋友解释并发与并行的区别?
  2. python制作工资计算器-Python计算个人所得税
  3. Android_神奇的android:clipChildren属性
  4. 解决Virtualbox无法安装Windows 8.1
  5. 更新至Android Studio4.1后发现as打不开的解决方案
  6. JsonWriter使用
  7. css3 pointer-events:none 允许点击穿透
  8. ASP.NET Core集成现有系统认证
  9. java spring获取bean_普通Java类获取Spring的Bean的方法
  10. 2021-2025年中国电弧火花发射光谱仪行业市场供需与战略研究报告
  11. redis 哨兵 异步_Redis稍微往上一点点写点集群
  12. idea创建vue模板
  13. Java实现文件下载Zip压缩
  14. 【小程序项目开发 --- 京东商城】 启航篇之uni-app项目搭建
  15. 【Unite Tokyo 2018】虚拟YouTuber电脑少女Siro「2018年资源推荐
  16. 鸿蒙系统转正,鸿蒙首发机型确定 “备胎”鸿蒙系统正式转正
  17. java远程_java实现电脑远程控制详解,附完整源代码
  18. 国外计算机领域的ei期刊,2008 EI 收录国外英文期刊(计算机类)
  19. 短信通知-阿里大鱼 申请AK 发送Until
  20. Seaweed-FS综合使用测试(转)

热门文章

  1. 微信-连接一切的力量
  2. android9最新系统,【5/31更新】Android 9.0系统升级时间的最新情况
  3. 秦时明月更新了?青春回来了
  4. Java,List转json,json转List
  5. 在vc中实现获取汉字拼音的首字母
  6. sitemesh框架的简单使用(springboot+maven+jsp+sitemesh)
  7. 毕业设计-基于Springboot实现仓库管理系统
  8. 记账软件哪个好用,亲测有效
  9. 【流体力学】加和不加湍流模型在NS方程上的体现
  10. [连接机顶盒]-使用 adb 命令行无线连接 EC6108V9 华为悦盒