目录

  • 数据地址:
  • 文件类别:
    • Anno文件夹
    • Eval文件夹
    • img文件夹
  • 数据处理及详细代码

数据地址:

官网地址:http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

文件类别:

我是从官网的百度云连接里下载的,下载之后一共四个文件
下面我们一 一看过文件内容

Anno文件夹

第一个文件夹Anno,存放的是各类标签

比如第一个identity_CelebA.txt是图片与 所对应的身份id
list_bbox标签,是人脸标注框坐标注释文件,包含每一张图片对应的bbox起点坐标及其宽高
list_landmarks_align_celeba.txt则是对应人脸对齐后 的landmark坐标

Eval文件夹

这里是将数据集分成了三部分

train(标0的部分)
valid(标1的部分)
test(标2的部分)

img文件夹

文件包括这三部分

img_align_celeba 是裁剪过的并以.jpg结尾的图片,占内存较小
img_align_celeba_png.7z
img_celeba.7z是未经裁剪的图片,故称野生照片

数据处理及详细代码

  • 因为我这里需要将每个人的图片放到对应的id文件下,所以我需要通过代码进行预处理,下面就直接贴代码了,以及效果图
# -*- coding: utf-8 -*-
# !/usr/bin/env python3'''
Divide face accordance CelebA Id type.
'''import shutil
import osoutput_path_train = r"C:\Users\rugu\Desktop\train"
output_path_valid = r"C:\Users\rugu\Desktop\valid"
output_path_test = r"C:\Users\rugu\Desktop\test"
image_path = r"C:\Users\rugu\Desktop\img_align_celeba"  #原始图片文件夹的路径
CelebA_Id_file = r"C:\Users\rugu\Desktop\identity_CelebA.txt"  #identity_CelebA.txt文件的路径def main():count_N = 0with open(CelebA_Id_file, "r") as Id_file:Id_info = Id_file.readlines()for line in Id_info:count_N += 1   #计数info = line.split()filename = info[0]file_Id = info[1]Id_dir_train = os.path.join(output_path_train,file_Id)Id_dir_valid = os.path.join(output_path_valid, file_Id)Id_dir_test = os.path.join(output_path_test, file_Id)filepath_old = os.path.join(image_path,filename) #原始照片所在的位置if count_N<=170000:   #这里170000是我随便写的一个数字,具体可以去文件中查看,大该16万多,不影响if not os.path.isdir(Id_dir_train):os.makedirs(Id_dir_train)else:passtrain = os.path.join(Id_dir_train,filename)shutil.copyfile(filepath_old,train)        #这句代码是复制的意思elif count_N>170000 and count_N<182636: #在这区间的都是validif not os.path.isdir(Id_dir_valid):os.makedirs(Id_dir_valid)else:passvalid = os.path.join(Id_dir_valid, filename)shutil.copyfile(filepath_old, valid)else :                                     #这里的是testif not os.path.isdir(Id_dir_test):os.makedirs(Id_dir_test)else:passtest = os.path.join(Id_dir_test, filename)shutil.copyfile(filepath_old, test)Id_file.close()print(" have %d images!" % count_N)if __name__ == "__main__":main()

我只用了12张,为写这个博客做个测试

桌面也生成了相应的文件 这里数字代表标签

CelebA数据集介绍以及预处理代码相关推荐

  1. Market1501数据集介绍及相关代码

    Market1501数据集介绍及相关代码 1.数据集介绍 文件夹介绍 bounding_box_test:测试集,gallery bounding_box_train:训练集 query:prob g ...

  2. ACE2005数据集介绍、预处理及事件抽取

    ACE2005数据集介绍.预处理及事件抽取 参考链接:https://www.jianshu.com/p/71ed0d780210(感谢作者鲜芋牛奶西米爱solo,这篇博客介绍的非常详细) https ...

  3. NLP-阅读理解:数据集介绍及预处理【SQuAD、DuReader】

    一.SQuAD数据集 二.DuReader数据集 1.DuReader数据集介绍 DuReader,从名字(Du和Reader)就可以看出来,是百度整理出来的阅读理解数据集. DuRader数据集由一 ...

  4. NLP-文本摘要:数据集介绍及预处理【CNN/DM(偏抽取式)、NYT Annotated Corpus(偏抽取式)、Newsroom(抽取式+生成式)、XSum(抽取式/BBC)、XL-Sum】

    一.CNN/DailyMail数据集 论文<Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond&g ...

  5. 利用celebA数据集训练MTCNN网络

    利用celebA数据集训练MTCNN网络 celebA数据集简介 训练数据的处理 网络和训练 侦测部分 结果展示 有问题可以联系我的邮箱:2487429219@qq.com 关于MTCNN网络可以看我 ...

  6. 【神经网络与深度学习】CIFAR10数据集介绍,并使用卷积神经网络训练图像分类模型——[附完整训练代码]

    [神经网络与深度学习]CIFAR-10数据集介绍,并使用卷积神经网络训练模型--[附完整代码] 一.CIFAR-10数据集介绍 1.1 CIFAR-10数据集的内容 1.2 CIFAR-10数据集的结 ...

  7. 中文文本纠错(CSC)任务Benchmark数据集SIGHAN介绍与预处理

    文章目录 1. SIGHAN数据集简介 2. SIGHAN数据集文件内容 3. 数据集预处理 3.1 训练集预处理 3.2 测试集预处理 4. 测试集验证工具 5. 预处理好的数据集 6. Wang2 ...

  8. celeba数据集_人脸识别常用数据集介绍(附下载链接)及常用评估指标

    为什么要聊到数据集这个话题..因为数据集的noise对训练效果的影响很大!很长一段时间MegaFace的效果都上不去,就是因为数据集噪声的原因.而且自己在训练人脸的时候,如果不对数据集的噪声和属性有一 ...

  9. python数据处理实例-Python----数据预处理代码实例

    本文实例为大家分享了Python数据预处理的具体代码,供大家参考,具体内容如下 1.导入标准库 import numpy as np import matplotlib.pyplot as plt i ...

最新文章

  1. python中matplotlib关于直方图AttributeError: ‘Rectangle‘ object has no property ‘normed‘的解决方法
  2. 一致吗 驱动_外国不过春节?AMD驱动再更新,解决BUG,游戏不闪退,重启不黑屏...
  3. 推荐:机器学习实战项目练手的平台
  4. MDP马尔可夫决策过程(二)
  5. VK Cup 2018 Round 1: A. Primal Sport
  6. 如何解决长传CSDN图片问题
  7. 学嵌入式需要报培训班吗?
  8. 《中国史学名著》的读后感作文2600字
  9. 【按键】[独立按键] - 2:双击
  10. 计算机系女生电脑买什么牌子,适合女生的笔记本电脑 大学女生买什么电脑好...
  11. 基于springboot项目中使用docker-compose+es+kibana+logstash+mysql 提高数据查询效率
  12. 设计模式 访问者模式
  13. 如何理解和成为测试工程师
  14. c语言vb考试试题,湖南省计算机二级VB以及C语言考试(OFFICE部分基础选择题)
  15. 【C语言刷题】青蛙跳台阶
  16. CS224N笔记(四) Lecture 7:循环神经网络RNN的进阶——LSTM与GRU
  17. 【转】[转]总结下自己的学黑之路,希望对各位小黑和奋斗在计算机一线的码农们一些帮助!少走点弯路!...
  18. 开会时领导让提建议应该要怎么回答?
  19. simulink仿真变压器的使用
  20. VggNet架构重现与解析

热门文章

  1. linux游戏串流,Moonlight(游戏串流软件)
  2. 用51单片机c语言实现电磁炉功能,电磁炉控制系统单片机模拟
  3. 隐藏站长统计4个字的方法
  4. DDoS-分布式拒绝服务攻击
  5. python-PyCharm导入numpy库
  6. 192.168.1.1 路由器用户名和密码是什么
  7. 香橙派 ubuntu c# .net 使用ThoughtWorks.QRCodCore库生成 或识别 二维码,及报错处理方法
  8. 再造商业,传统购物中心的数字化未来
  9. 遥感影像融合后去黑边
  10. PhotoShop CC 2017软件工具面板使用---污点修复画笔工具