简介

*注意力模型来源于人脑对事物的观察,由于人脑在观察事物时,人眼睛聚焦的位置只是很小的一块,这时人脑会聚焦在这一小块图案上,此时,人脑对图的关注并不是均衡的,是有权重区别的。

*注意力模型多用于对图片的文字说明,对于图片的描述,我们接下来会介绍两种类型的图片描述方式:

[1]传统图像描述

[2]注意力模型

传统图像描述

*传统方式是类似下图的方式,从形式上是将输入图片传入一个CNN中来获取对图片特征的提取(输出层信息),并将获取的特征作为输入到RNN网络中,通过RNN输出对应的文字描述,但这种组合形式能描述的文字数不多,准确率不高,而且图片特征只引入了一次,信息灵活性不强

注意力模型

*Attention Model相对于传统模式的改进有:

[1]将原始图特征多次喂入RNN模型,使得模型的多个位置都能看到图片特征。

[2]让网络学会查找关注点,让网络根据关注点来聚焦图像生成文字内容描述。

*经过以上两点的改进,我们可以构建下图的模型,我们会将输入图片传到CNN网络,抽取CNN中间卷积层的信息,通过RNN对卷积层位置的定位来获取局部位置信息,也成为注意力所在意的位置信息。

*接下来对网络从左到右分析(CNN假定为VGG):

[1].我们把输入图像放到预训练好的VGG网络中去,适应VGG网络进行正向计算,但是我们不会像往常那样时候最后的输出层数据,而是使用中间位置的卷积层feature map数据,因为卷积层是通过滑窗得到的,仍具有一点的位置块信息,比如这里使用的卷积层是512个14*14大小的feature map信息,将其作为集中注意力的依据。

[2].使用RNN时,我们首先会走③步骤,这里会将整个卷积层信息作为输入来获取第一次要集中的点,这里a1处会得到一个1*196的向量,这个向量上不同的数值会代表要给卷积feature map中不同点多大的注意力,从而表示对不同位置的注意。

[3].获取注意力向量之后,我们接下来如②会将上一部分的注意力向量1*196与卷积层大小为196*512的向量做乘积,乘积得到的1*512向量z1(每个map上的一个点)表示要注意的点的位置信息,也就是我们当前输出文字时要看到的位置,a1的传入计算会得到注意力点的位置信息z1(如图①),将z1结合第一个输入y1传入RNN网络。

[4].将z1和h1结合传入网络后,当前时序下,我们会通过RNN计算得到两个softmax输出值a2和d1,其中a2是新的位置向量,向量大小为1*196,d1是词输出的预测概率信息,大小应为1*词向量数。

[5].重复2和4中的过程,不断将输出a与卷积层相结合来生成新的位置点信息,从而获取新的注意力,使用新注意力结合输入获取新的输出信息d。

深度学习-RNN注意力模型相关推荐

  1. 从FM推演各深度学习CTR预估模型

    本文的PDF版本.代码实现和数据可以在我的github取到. 1.引言 点击率(click-through rate, CTR)是互联网公司进行流量分配的核心依据之一.比如互联网广告平台,为了精细化权 ...

  2. 深度学习基础-经典模型总结

    深度学习经典模型总结 卷积神经网络 介绍下转置卷积 循环神经网络 介绍下RNN 介绍下LSTM 一个LSTM cell的时间复杂度是多少 介绍下GRU RNN和LSTM的区别 注意力模型 介绍下Att ...

  3. 从零开始搭建深度学习验证码识别模型

    文章目录 从零开始搭建深度学习验证码识别模型 CNN模型与图像识别 验证码数据集介绍 生成数据集 生成EasyCaptcha 生成Kcaptcha 搭建模型 EasyNet模型 KCapNet模型 模 ...

  4. 深度学习的Attention模型

    前面看到谷歌发表的运用在机器翻译上的论文<Attention is all you need>,很是让人惊讶,这是一种全新的模型,与之前的经典的seq2seq模型改动较大,它完全摒弃了RN ...

  5. R使用LSTM模型构建深度学习文本分类模型(Quora Insincere Questions Classification)

    R使用LSTM模型构建深度学习文本分类模型(Quora Insincere Questions Classification) Long Short Term 网络-- 一般就叫做 LSTM --是一 ...

  6. 深度学习100+经典模型TensorFlow与Pytorch代码实现大合集

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! [导读]深度学习在过去十年获得了极大进展,出现很多新的模型,并且伴随TensorF ...

  7. 深度学习的seq2seq模型——本质是LSTM,训练过程是使得所有样本的p(y1,...,yT‘|x1,...,xT)概率之和最大...

    from:https://baijiahao.baidu.com/s?id=1584177164196579663&wfr=spider&for=pc seq2seq模型是以编码(En ...

  8. 深度学习CTR预估模型凭什么成为互联网增长的关键?

    本文是王喆在InfoQ开设的原创技术专栏"深度学习CTR预估模型实践"的第一篇文章(以下"深度学习CTR预估模型实践"简称"深度CTR模型" ...

  9. 深度学习 vs. 概率图模型 vs. 逻辑学

    深度学习 vs. 概率图模型 vs. 逻辑学 发表于2015-04-30 21:55|6304次阅读| 来源quantombone|1 条评论| 作者Tomasz Malisiewicz 深度学习de ...

最新文章

  1. MySQL新建数据库+用Navicat查看MySQL的方法
  2. 深入理解YouTube推荐系统算法!
  3. 一条龙奇迹私服WEB系统后门及bug
  4. WP7-网络-读取网页源码
  5. ABAP的数据字典DDIC和Hybris Commerce的类型系统Type system
  6. Python教程:网络爬虫快速入门实战解析
  7. java 守护进程 linux_Java使用appache deamon实现linux守护进程
  8. 苹果与高通联合抢占 5G!
  9. c mysql 包含字符串_Mysql字符串字段判断是否包含某个字符串的2种方法
  10. Mybatis框架的介绍以及详细使用,结合JDBC讲解,有利于对mybatis的注解和配置文件的理解,结合我上一篇文章,更好容易理解,通俗易懂,适合刚接触框架的新手(二)
  11. python中字典的知识讲解
  12. 程序员职业规划:按照这规划,我年薪43万!
  13. ENVI实现带DN值保存为TIFF格式
  14. 小米平板2,Windows10与Android互刷教程,小米平板2 线刷教程
  15. lol刷金币python脚本_用Python写王者荣耀刷金币脚本
  16. robotstudio机器人应用实践(码垛搬运工作站)
  17. Unity_混合树实现三种动画的混合_070
  18. 详解:化工厂人员定位方案与双重预防机制建设
  19. 电源线的噪声共模干扰和差模干扰优化设计
  20. ArcEngine添加注记

热门文章

  1. git 解决冲突的方法
  2. 【星海出品】Redis快速入门
  3. 【转】怎样制做内容丰富的幻灯片 PPT
  4. php 公众号消息提醒,如何开启公众号消息提醒功能
  5. 【CV系列】无参考图像的清晰度评价方法,附NRSS的matlab实现
  6. 优秀实用“日历日程”插件之fullcalendar4.1应用,4.1版较之前有很大区别,我把遇到的坑都写出来。
  7. 为什么有些APP自带廉价感
  8. python一键登录srun校园网(以深圳技术大学为例)
  9. 适应各种终端设备的自适应网页设计
  10. 买花瓶(简单动态规划DP)