之前存在的问题:当所要处理的序列较长时,就会导致网络容易忘记之前的东西

解决办法:提出了“注意力”机制,使得网络工作过程中可以像人一样将注意力放在不同部位。这篇论文就针对文本分类问题提出了层级注意力模型结合双向RNN实现对文本的分类,其效果明显好于其他方法。

模型结构:

层级“注意力”网络的网络结构下图所示,网络可以被看作为两部分:

第一部分为“注意”部分,

另一部分为“注意”部分。

整个网络通过将一个句子分割为几部分,对于每部分,都使用双向RNN结合“注意力”机制将小句子映射为一个向量,然后对于映射得到的一组序列向量,我们再通过一层双向RNN结合“注意力”机制实现对文本的分类

词层面的“注意力”机制

本文针对的是任务是文档分类任务,即认为每个要分类的文档都可以分为多个句子。因此层级“注意力”模型的第一部分是来处理每一个分句。对于第一个双向RNN输入是每句话的每个单词,其计算公式如下所示

但是对于一句话中的单词,并不是每一个单词对分类任务都是有用的,比如在做文本的情绪分类时,可能我们就会比较关注“很好”、“伤感”这些词。为了能使循环神经网络也能自动将“注意力”放在这些词汇上,作者设计了基于单词的注意力模型,其计算公式如下:

首先,通过一个线性层对双向RNN的输出进行变换,然后通过softmax公式计算出每个单词的重要性,最后通过对双向RNN的输出进行加权平均得到每个句子的表示。

句层面的“注意力”机制

句层面的“注意力”模型和词层面的“注意力”模型有异曲同工之妙。其计算公式如下所示

最后就是使用最常用的softmax分类器对整个文本进行分类

损失函数

参考连接:

https://blog.csdn.net/qq_24305433/article/details/80427159

https://blog.csdn.net/liuchonge/article/details/73610734

https://blog.csdn.net/liuchonge/article/details/74092014

Hierarchical Attention Networks for Document Classification 阅读笔记相关推荐

  1. 【论文复现】Hierarchical Attention Networks for Document Classification

    写在前面 最近在整理文本分类方面比较经典的模型,看到了"Hierarchical Attention Networks for Document Classification"这篇 ...

  2. 中文短文本分类实例十二-HAN(Hierarchical Attention Networks for Document Classification)

    一.概述 HAN(Hierarchical Attention Networks for Document Classification),层次化注意力机制等,是Zichao Yang等2016年提出 ...

  3. Hierarchical Attention Networks for Document Classification(HAN)

    HAN历史意义: 1.基于Attention的文本分类模型得到了很多关注 2.通过层次处理长文档的方式逐渐流行 3.推动了注意力机制在非Seqseq模型上的应用 前人主要忽视的问题: 1.文档中不同句 ...

  4. 多层注意力模型:Hierarchical Attention Networks for Document Classification

    1.简介 文本分类问题一直是自然语言处理(NLP)中一个广受人们关注的问题.可能好多刚接触深度学习做NLP的项目就是使用循环神经网络(RNN)对IMDB影评进行分类.但使用循环神经网络时一般会遇到一个 ...

  5. 《Hierarchical Attention Network for Document Classification》—— 用于文本分类的层次注意力网络

    目录 <Hierarchical Attention Network for Document Classification>-- 用于文本分类的层次注意力网络 1.文本分类 1.1 文本 ...

  6. Convolutional Neural Networks for Sentence Classification 阅读笔记

    1.本文解决了什么问题? 本文以预训练好的词向量矩阵表示一个句子,并且将其作为卷积神经网络的输入层,再通过标记好的 数据训练出神经网络模型从而达到预测数据类别的效果. 本文于14年发表,至今已被引用了 ...

  7. Attention 与Hierarchical Attention Networks 原理

    Attention 与Hierarchical Attention Networks 1. Attention 注意力机制 1.1 什么是Attention? 1.2 加入Attention的动机 1 ...

  8. [ACL22] HIBRIDS:Hierarchical Biases for Structure-aware Long Document Summarization 阅读笔记

    HIBRIDS: Attention with Hierarchical Biases for Structure-aware Long Document Summarization [pdf] 论文 ...

  9. Generative Adversarial Networks: An Overview文献阅读笔记

    Generative Adversarial Networks: An Overview笔记 Abstract Generative adversarial networks (GANs) provi ...

最新文章

  1. graylog2+syslog-ng+mongodb构建集中管理日志服务器 --转载
  2. c++ 自定义比较函数,运行时发生segmentation fault
  3. 《WTM送书活动:向更遥远的星辰大海起航~》
  4. 企业微信H5_网页jssdk调用,ticket签名config及示例
  5. windows如何生成ssh密钥
  6. python处理xls到csv文件
  7. 拓端tecdat|R语言NLP案例:LDA主题文本挖掘优惠券推荐网站数据
  8. 站立会议(11月23日
  9. 特征向量、标签、模型、算法
  10. 竖排书A5双面打印设置指南
  11. flash图片如何镜像翻转_FLASH 翻转动画
  12. win10网络 计算机终止,win7换win10系统总是断网的几种原因和解决方法
  13. Windows 程序设计作者
  14. 软件测试流程及主要内容
  15. 嵌入式linux启动信息完全注释
  16. 状态模式之观察者和状态模式
  17. 大数据开发——Hive实战案例
  18. fs文件系统模块常用的API
  19. 关于C++基础部分的梳理
  20. 文件伪装图片方法技巧

热门文章

  1. 最简单的composer 包 使用
  2. 算法的性能评价------空间复杂度和时间复杂度
  3. mysql proxy 读写分离 1
  4. MySQL Connector/ODBC 5.2.2 发布
  5. wpa_supplicant 详解(9) - 4 way handshake
  6. Stanford Machine Learning
  7. opencv图片处理和摄像头边缘检测
  8. python下载完以后是什么样子_python下载后怎么用
  9. 邮箱解决任务间资源共享问题
  10. C++中的静态成员变量