flickr30k数据集是什么

这个数据集的核心就两点,一是图像,二是图像对应的描述语言。
先上图:

在token文件中的标注信息:
667626.jpg#0 A girl wearing a red and multicolored bikini is laying on her back in shallow water .
667626.jpg#1 Girl wearing a bikini lying on her back in a shallow pool of clear blue water .
667626.jpg#2 A young girl is lying in the sand , while ocean water is surrounding her .
667626.jpg#3 A little girl in a red swimsuit is laying on her back in shallow water .
667626.jpg#4 A girl is stretched out in shallow water

可以看到,每副图像都搭配有5句描述,五句描述语言的的意思基本都差不多。
我们的目标是训练出一个模型,需要达到的效果是:将一张图像放进去,出来一句对应的还算正确的图像描述,俗话说的看图说话。

数据集下载

官网传送门:点我点我

在本页最下面填个表,然后就可以下载了,但是,有大概率很慢而且不稳定。
百度云链接:链接: https://pan.baidu.com/s/1nQ_t-OzuFkxJmfbzRH2vPA 提取码: md6z (链接失效请留言)

数据集文件结构

两个tar压缩包

  1. flickr30k-images.tar
  2. flickr30k.tar.gz

第一个包存放图片,第二个包存放图像的标注信息(一张图像有几句语言表述)。
在 flickr30k.tar.gz 中,有一个名为 results_20130124.token,可以输入该文件进行查看。

import pandas as pdannotations = pd.read_table('results_20130124.token', sep='\t', header=None,names=['image', 'caption'])
print(annotations)

结果为:

                   image                                            caption
0       1000092795.jpg#0  Two young guys with shaggy hair look at their ...
1       1000092795.jpg#1  Two young , White males are outside near many ...
2       1000092795.jpg#2   Two men in green shirts are standing in a yard .
3       1000092795.jpg#3       A man in a blue shirt standing in a garden .
4       1000092795.jpg#4            Two friends enjoy time spent together .
5         10002456.jpg#0  Several men in hard hats are operating a giant...
6         10002456.jpg#1  Workers look down from up above on a piece of ...
7         10002456.jpg#2   Two men working on a machine wearing hard hats .
8         10002456.jpg#3              Four men on top of a tall structure .
9         10002456.jpg#4                         Three men on a large rig .
...                  ...                                                ...
[158915 rows x 2 columns]

可以看出一张图像,对应5条描述语言,一共有158915条语言描述。

Tensorflow图像生成文本实现(1)flickr30k数据集介绍相关推荐

  1. Tensorflow图像生成文本(2)词表词频的构建

    前言 了解了Tensorflow图像生成文本实现(1)flickr30k数据集介绍数据集之后,需要对其中的token文件进行解析,对数据进行初步处理. 词表词频构建 因为是一句句的描述,因此需要进行分 ...

  2. 论文阅读_图像生成文本_CLIP

    name_en: Learning Transferable Visual Models From Natural Language Supervision name_ch: 从自然语言监督中学习可迁 ...

  3. 图像生成 - 使用BigGAN在Imagenet数据集上生成高质量图像。

    图像生成是计算机视觉领域中的重要问题,其目的是生成具有高质量和真实感的图像.最近,Google提出的BigGAN方法在图像生成任务上取得了巨大的成功,可以生成高分辨率和高质量的图像.在本文中,我们将介 ...

  4. 一文总结图像生成必备经典模型(一)

    本文将分 2 期进行连载,共介绍 16 个在图像生成任务上曾取得 SOTA 的经典模型. 第 1 期:ProGAN.StyleGAN.StyleGAN2.StyleGAN3.VDVAE.NCP-VAE ...

  5. 比Imagen更高效!谷歌新作Muse:通过掩码生成Transformer进行文本到图像生成

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->CV微信技术交流群 转载自:机器之心 图像生成领域越来越卷了! 文本到图像生成是 2022 ...

  6. 手把手教你在Tensorflow实现BEGAN 达到惊人的人脸图像生成效果

    全球人工智能 文章来源:GitHub 作者:Heumi 翻译:马卓奇 文章投稿:news@top25.cn 相关文章: 导读:本文是基于谷歌大脑(Google Brain)发表在 arXiv 的最新论 ...

  7. DL之DCGAN:基于keras框架利用深度卷积对抗网络DCGAN算法对MNIST数据集实现图像生成

    DL之DCGAN:基于keras框架利用深度卷积对抗网络DCGAN算法对MNIST数据集实现图像生成 目录 基于keras框架利用深度卷积对抗网络DCGAN算法对MNIST数据集实现图像生成 设计思路 ...

  8. Text to image论文精读GR-GAN:逐步细化文本到图像生成 GRADUAL REFINEMENT TEXT-TO-IMAGE GENERATION

    目录 一.原文摘要 二.为什么提出GR-GAN 三.GR-GAN 3.1.整体框架 3.2.逐步求精生成器:GRG 3.2.1.图像初始化阶段 3.2.2.句子级细化阶段 3.2.3.单词级细化阶段 ...

  9. tensorflow代码全解析 -3- seq2seq 自动生成文本

    模型概述 序列建模seq2seq,给定一个序列A,模型生产另一个序列B,然后模型再由序列B生成C,以此一直持续下去. 基本工作流程如下: 序列A中的每一个单词通过word_embedding操作以后, ...

最新文章

  1. KS003基于JSP和Servlet实现的商城系统
  2. Python学习笔记:访问数据库
  3. 【python 图像处理】skimage的子模块介绍
  4. Android之事件总线EventBus详解
  5. 比萨问题–建造者与装饰者
  6. php mysql长连接聊天室_PHP之探索MySQL 长连接、连接池
  7. FreeRTOS队列集
  8. 关于ApplicationContextAware使用深入理解
  9. AWK处理日志入门(转)
  10. gvim下用Vundle安装solarized主题的方法
  11. 【python】Tkinter窗口可视化(二)
  12. macos怎么装mysql80_Mac下MySQL安装配置教程
  13. 关于sqlserver中SqlParameter的用法注意事项
  14. Python批量爬取堆糖网图片
  15. 阿里云ACA、ACP和ACE认证考试有什么区别?考生应该如何选择?-阿里云开发者社区
  16. 【Android】Webview加载url出现空白但是在手机或者pc的浏览器中可以正常打开的解决方法
  17. mysql在mye_数据库映射出现重大问题
  18. 吴恩达创办Coursera是受他启发!74岁老父亲自述终身学习路,8年学完146门课程
  19. 自动化测试之 web - 基础篇
  20. MySQL学习笔记(5)

热门文章

  1. Oracle Data Recovery Advisor(DRA)
  2. 如何简单的提取图片中的文字
  3. 成都旅游业小程序开发,旅游业的发展前景
  4. Esp32 C3 Arduino 串口开发(1)
  5. 【数据库】商品信息表的设计
  6. wangEditor富文本编辑器获取html内容
  7. ST-FIFO的一个应用 debug
  8. [附源码]计算机毕业设计Python+uniapp篮球竞技系统APPo206c(程序+lw+APP+远程部署)
  9. 高考专科分数计算机,2017年高考全国各省高职专科,录取分数线陆续公布
  10. 视频教程-SpringBoot+MongoDB+Vue前后分离-Java