深度学习:

深度学习和机器学习是这个时代最先进的技术。现在将人工智能与人的思想进行比较,在某些领域,人工智能比人类做得更好。每天都有该领域的新研究。这个领域的增长非常快,因为现在我们有足够的计算能力来执行此任务。深度学习是机器学习的一个分支,它使用多层神经网络。

在传统的机器学习中,该算法具有一组相关特征以进行分析。但是,在深度学习中,该算法会获得原始数据,并自行决定哪些功能是相关的。随着我们增加用于训练它们的数据量,深度学习网络通常会得到改善。

下面将展示一些非常有趣的深度学习应用程序。

现在,我们将看到其应用程序之一,即照片描述或图像标题生成器。图片标题生成器:

图像标题生成器或照片描述是深度学习的应用之一。在其中,我们必须将图像传递给模型,并且模型会根据其训练进行一些处理并生成标题或描述。这种预测有时不太准确,并且会产生一些毫无意义的句子。为了获得更好的结果,我们需要非常高的计算能力和非常庞大的数据集。现在,我们将看到有关图像字幕生成器的数据集和神经网络架构的一些信息。先决条件:

该项目需要具备深度学习,Python知识,在Jupyter笔记本,Keras库,Numpy和自然语言处理方面的丰富知识

确保已安装以下所有必需的库:Tensorflow

Keras

Pandas

NumPy

nltk(自然语言工具套件)

Jupyter- IDE数据集:

在这个项目中,我们使用的是闪烁的30k数据集。其中有30,000张带有图像ID的图像,并且特定ID生成了5个字幕。

这是数据集的链接:

https://www.kaggle.com/hsankesara/flickr-image-dataset网络架构:

1、图像特征检测:

对于图像检测,我们使用的是预训练模型VGG16。VGG16已安装在Keras库中.VGG 16由牛津大学视觉几何小组实验室的Karen Simonyan和Andrew Zisserman于2014年在论文《非常大的卷积网络识别大型图像》中提出。

该模型在2014年赢得了ILSVRC挑战。

这是3-D和2-D中的模型表示。

概述:

conv1层的输入具有固定大小的224 x 224 RGB图像。图像通过一叠卷积(转换)层,其中使用的滤镜具有非常小的接收场:3×3(这是捕获左/右,上/下,中心的概念的最小尺寸)。在其中一种配置中,它还利用了1×1卷积滤波器,这可以看作是输入通道的线性变换(其次是非线性)。卷积步幅固定为1个像素;转换的空间填充层输入是在卷积后保留空间分辨率,即,对于3×3转换,填充为1像素层。空间池化由五个最大池化层执行,这五个层都遵循一些转换。层(并非所有转换层都跟着最大池)。最大池化是在2×2像素的窗口上执行的,

三层全连接(FC)层遵循一堆卷积层(在不同体系结构中深度不同):前两层各具有4096个通道,第三层进行1000路ILSVRC分类,因此包含1000个通道(每个通道一个类)。最后一层是soft-max层。在所有网络中,完全连接的层的配置都是相同的。

2.使用LSTM生成文本

长短期内存网络(通常称为“ LSTM”)是一种特殊的RNN,能够学习长期依赖关系。它们是由Hochreiter&Schmidhuber(1997)提出的,并在随后的工作中被许多人完善和推广。它们在各种各样的问题上都表现出色,现已被广泛使用。

概述:

常见的LSTM单元由一个cell,一个input gate,一个output gate和一个forget gate组成。单元会记住任意时间间隔内的值,并且三个门控制着进出单元的信息流。

LSTM网络非常适合基于时间序列数据进行分类,处理和做出预测,因为时间序列中重要事件之间可能存在未知持续时间的滞后。开发LSTM是为了解决训练传统RNN时可能遇到的梯度消失问题。与缝隙长度相对不敏感是LSTM相对于RNN,隐马尔可夫模型和其他序列学习方法在众多应用中的优势。

与普通循环单元相比,LSTM单元的优势在于其单元存储单元。单元向量具有封装忘记部分先前存储的内存以及添加部分新信息的概念的能力。为了说明这一点,必须检查单元的方程式及其在引擎盖下处理序列的方式。

现在,我们将此模型架构组合到一个模型中,这就是我们最终的模型,它将根据图像生成标题。

主要模型架构:

最终模型是CNN和RNN模型的组合。为了训练这个模型,我们必须给两个模型两个输入。(1)图片(2)相应的字幕。对于每个LSTM层,我们为每个LSTM层输入一个单词,每个LSTM层预测下一个单词,以及LSTM模型如何通过从字幕中学习来优化自身。对于图像功能,我们将从VGG16预训练模型中获取所有图像功能数组并保存在文件中,以便我们可以直接使用此文件或功能将字幕和图像功能相互关联。

最后一层的大小与唱词的长度相同。对于此模型,我们使用“分类交叉熵”,因为在最后一层中,我们必须预测每个单词的概率,然后仅使用高概率的单词。我们正在使用Adam优化器来优化网络或更新网络权重。

布鲁分数:为此,我们可以使用Blue-score为该模型生成带有n-grams模型的字幕。通过使用BLEU分数,我们可以检查哪个n-gram最适合为该数据集生成字幕。BLEU分数在0到1之间。BLEU(或双语评估欠缺)是用于将文本的候选译文与一个或多个进行比较的分数更多参考翻译。尽管专为翻译而开发,但它可用于评估为一组自然语言处理任务生成的文本。

python自动生成标题_使用深度学习自动生成图片标题相关推荐

  1. 四天人工智能 python入门体验课_百度深度学习7天打卡营,用Python+AI识别“青你2”小姐姐的高颜值...

    原标题:百度深度学习7天打卡营,用Python+AI识别"青你2"小姐姐的高颜值 "淡黄的长裙,蓬松的头发",一夜之间洗脑全网,小姐姐们实在太让人上头了! 导师 ...

  2. python之torchlight使用_关于深度学习、NLP和计算机视觉的30个顶级Python库

    再次感谢艾哈迈德·阿尼斯(Ahmed Anis)为收集这些数据做出的贡献,并感谢KDnuggets的其他工作人员的意见,见解和建议. 作者 / Matthew Mayo 请注意,下面是由Gregory ...

  3. python抠图算法 百度_基于深度学习的一键AI抠图项目:PyMatting

    抠图是 PS 中的一项常用技术.但是要做到完美地将图像中的目标选取出来往往费时费力.近日,一个名为 PyMatting 的项目无疑能够帮助你. 项目地址:https://github.com/pyma ...

  4. 神经网络隐藏层个数怎么确定_含有一个隐藏层的神经网络对平面数据分类python实现(吴恩达深度学习课程1第3周作业)...

    含有一个隐藏层的神经网络对平面数据分类python实现(吴恩达深度学习课程1第3周作业): ''' 题目: 建立只有一个隐藏层的神经网络, 对于给定的一个类似于花朵的图案数据, 里面有红色(y=0)和 ...

  5. 深度学习之生成对抗网络(8)WGAN-GP实战

    深度学习之生成对抗网络(8)WGAN-GP实战 代码修改 完整代码 WGAN WGAN_train 代码修改  WGAN-GP模型可以在原来GAN代码实现的基础上仅做少量修改.WGAN-GP模型的判别 ...

  6. 深度学习将灰度图着色_通过深度学习为视频着色

    深度学习将灰度图着色 零本地设置/ DeOldify / Colab笔记本 (Zero Local Setup / DeOldify / Colab Notebook) "Haal Kais ...

  7. 深度学习模型建立过程_所有深度学习都是统计模型的建立

    深度学习模型建立过程 Deep learning is often used to make predictions for data driven analysis. But what are th ...

  8. 深度学习:在图像上找到手势_使用深度学习的人类情绪和手势检测器:第1部分

    深度学习:在图像上找到手势 情感手势检测 (Emotion Gesture Detection) Has anyone ever wondered looking at someone and tri ...

  9. 深度学习自动编译和优化技术调研

    深度学习自动编译和优化技术调研 转自:https://moqi.com.cn/blog/deeplearning/ 作者:墨奇科技全栈开发 在墨奇科技,我们需要将一些包含深度神经网络(DNN)的 AI ...

最新文章

  1. .net IL 指令速查
  2. 搭建基于云端的中间层以支持跨平台的智能视觉服务
  3. PWN-PRACTICE-BUUCTF-7
  4. 助力全站WebP ,阿里云云上FPGA 团队发布 WebP图片解决方案
  5. python ftp下载文件_文件上传下载Python
  6. eclipse打包项目为aar_新生日常牢骚之作业打包
  7. asp.net Cache缓存定时更新数据
  8. mysqld_exporter报错Error 1146: Table 'my2.status' doesn't exist
  9. 拓端tecdat|R语言对回归模型进行协方差分析
  10. php 转义反绡线,PHP汉字转拼音
  11. 1034-乘积小于 K 的子数组
  12. 腾讯AI Lab开放文本理解系统TexSmart,让AI想得更深更广
  13. 文明与征服阵容搭配,文明与征服阵容推荐
  14. Python3之基础语法
  15. PHP开发基于Mirai的QQ机器人
  16. MySQL 精选 60 道笔试题
  17. 设计模式笔记--备忘录模式
  18. 京东一面+京东物流二面+京东秋招一二面
  19. stata移动平均插值法mipolate命令
  20. 大家来找茬辅助工具超级简易版

热门文章

  1. 【Java学习笔记】一个初学者的学习历程,分享学习JAVA心得
  2. Javascript学习笔记:call()函数的使用
  3. P1365 WJMZBMR打osu! / Easy (期望dp)
  4. Redis学习(5)-Jedis(Java操作redis数据库技术)
  5. FPGA 视频 拼接器 4K60(3840x2160P60Hz)4路田字格或四竖条输出
  6. python可视化爬虫实现“京东试用”批量申请
  7. 地铁出行路线规划程序
  8. 轨迹预处理(轨迹清洗)
  9. golang小案例 —— 剪子剪子包袱锤小游戏
  10. 西门子PLC200smart学习浅谈