Tensorflow图像生成文本实现(1)flickr30k数据集介绍
flickr30k数据集是什么
这个数据集的核心就两点,一是图像,二是图像对应的描述语言。
先上图:
在token文件中的标注信息:
667626.jpg#0 A girl wearing a red and multicolored bikini is laying on her back in shallow water .
667626.jpg#1 Girl wearing a bikini lying on her back in a shallow pool of clear blue water .
667626.jpg#2 A young girl is lying in the sand , while ocean water is surrounding her .
667626.jpg#3 A little girl in a red swimsuit is laying on her back in shallow water .
667626.jpg#4 A girl is stretched out in shallow water
可以看到,每副图像都搭配有5句描述,五句描述语言的的意思基本都差不多。
我们的目标是训练出一个模型,需要达到的效果是:将一张图像放进去,出来一句对应的还算正确的图像描述,俗话说的看图说话。
数据集下载
官网传送门:点我点我
在本页最下面填个表,然后就可以下载了,但是,有大概率很慢而且不稳定。
百度云链接:链接: https://pan.baidu.com/s/1nQ_t-OzuFkxJmfbzRH2vPA 提取码: md6z (链接失效请留言)
数据集文件结构
两个tar压缩包
- flickr30k-images.tar
- flickr30k.tar.gz
第一个包存放图片,第二个包存放图像的标注信息(一张图像有几句语言表述)。
在 flickr30k.tar.gz 中,有一个名为 results_20130124.token,可以输入该文件进行查看。
import pandas as pdannotations = pd.read_table('results_20130124.token', sep='\t', header=None,names=['image', 'caption'])
print(annotations)
结果为:
image caption
0 1000092795.jpg#0 Two young guys with shaggy hair look at their ...
1 1000092795.jpg#1 Two young , White males are outside near many ...
2 1000092795.jpg#2 Two men in green shirts are standing in a yard .
3 1000092795.jpg#3 A man in a blue shirt standing in a garden .
4 1000092795.jpg#4 Two friends enjoy time spent together .
5 10002456.jpg#0 Several men in hard hats are operating a giant...
6 10002456.jpg#1 Workers look down from up above on a piece of ...
7 10002456.jpg#2 Two men working on a machine wearing hard hats .
8 10002456.jpg#3 Four men on top of a tall structure .
9 10002456.jpg#4 Three men on a large rig .
... ... ...
[158915 rows x 2 columns]
可以看出一张图像,对应5条描述语言,一共有158915条语言描述。
Tensorflow图像生成文本实现(1)flickr30k数据集介绍相关推荐
- Tensorflow图像生成文本(2)词表词频的构建
前言 了解了Tensorflow图像生成文本实现(1)flickr30k数据集介绍数据集之后,需要对其中的token文件进行解析,对数据进行初步处理. 词表词频构建 因为是一句句的描述,因此需要进行分 ...
- 论文阅读_图像生成文本_CLIP
name_en: Learning Transferable Visual Models From Natural Language Supervision name_ch: 从自然语言监督中学习可迁 ...
- 图像生成 - 使用BigGAN在Imagenet数据集上生成高质量图像。
图像生成是计算机视觉领域中的重要问题,其目的是生成具有高质量和真实感的图像.最近,Google提出的BigGAN方法在图像生成任务上取得了巨大的成功,可以生成高分辨率和高质量的图像.在本文中,我们将介 ...
- 一文总结图像生成必备经典模型(一)
本文将分 2 期进行连载,共介绍 16 个在图像生成任务上曾取得 SOTA 的经典模型. 第 1 期:ProGAN.StyleGAN.StyleGAN2.StyleGAN3.VDVAE.NCP-VAE ...
- 比Imagen更高效!谷歌新作Muse:通过掩码生成Transformer进行文本到图像生成
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->CV微信技术交流群 转载自:机器之心 图像生成领域越来越卷了! 文本到图像生成是 2022 ...
- 手把手教你在Tensorflow实现BEGAN 达到惊人的人脸图像生成效果
全球人工智能 文章来源:GitHub 作者:Heumi 翻译:马卓奇 文章投稿:news@top25.cn 相关文章: 导读:本文是基于谷歌大脑(Google Brain)发表在 arXiv 的最新论 ...
- DL之DCGAN:基于keras框架利用深度卷积对抗网络DCGAN算法对MNIST数据集实现图像生成
DL之DCGAN:基于keras框架利用深度卷积对抗网络DCGAN算法对MNIST数据集实现图像生成 目录 基于keras框架利用深度卷积对抗网络DCGAN算法对MNIST数据集实现图像生成 设计思路 ...
- Text to image论文精读GR-GAN:逐步细化文本到图像生成 GRADUAL REFINEMENT TEXT-TO-IMAGE GENERATION
目录 一.原文摘要 二.为什么提出GR-GAN 三.GR-GAN 3.1.整体框架 3.2.逐步求精生成器:GRG 3.2.1.图像初始化阶段 3.2.2.句子级细化阶段 3.2.3.单词级细化阶段 ...
- tensorflow代码全解析 -3- seq2seq 自动生成文本
模型概述 序列建模seq2seq,给定一个序列A,模型生产另一个序列B,然后模型再由序列B生成C,以此一直持续下去. 基本工作流程如下: 序列A中的每一个单词通过word_embedding操作以后, ...
最新文章
- KS003基于JSP和Servlet实现的商城系统
- Python学习笔记:访问数据库
- 【python 图像处理】skimage的子模块介绍
- Android之事件总线EventBus详解
- 比萨问题–建造者与装饰者
- php mysql长连接聊天室_PHP之探索MySQL 长连接、连接池
- FreeRTOS队列集
- 关于ApplicationContextAware使用深入理解
- AWK处理日志入门(转)
- gvim下用Vundle安装solarized主题的方法
- 【python】Tkinter窗口可视化(二)
- macos怎么装mysql80_Mac下MySQL安装配置教程
- 关于sqlserver中SqlParameter的用法注意事项
- Python批量爬取堆糖网图片
- 阿里云ACA、ACP和ACE认证考试有什么区别?考生应该如何选择?-阿里云开发者社区
- 【Android】Webview加载url出现空白但是在手机或者pc的浏览器中可以正常打开的解决方法
- mysql在mye_数据库映射出现重大问题
- 吴恩达创办Coursera是受他启发!74岁老父亲自述终身学习路,8年学完146门课程
- 自动化测试之 web - 基础篇
- MySQL学习笔记(5)
热门文章
- Oracle Data Recovery Advisor(DRA)
- 如何简单的提取图片中的文字
- 成都旅游业小程序开发,旅游业的发展前景
- Esp32 C3 Arduino 串口开发(1)
- 【数据库】商品信息表的设计
- wangEditor富文本编辑器获取html内容
- ST-FIFO的一个应用 debug
- [附源码]计算机毕业设计Python+uniapp篮球竞技系统APPo206c(程序+lw+APP+远程部署)
- 高考专科分数计算机,2017年高考全国各省高职专科,录取分数线陆续公布
- 视频教程-SpringBoot+MongoDB+Vue前后分离-Java