Dataset之CASIA-WebFace:CASIA-WebFace 数据集的简介、安装、使用方法之详细攻略

目录

CASIA-WebFace 数据集的简介

1、英文原文介绍

CASIA-WebFace 数据集的安装

CASIA-WebFace 数据集的使用方法

1、基础用法


CASIA-WebFace 数据集的简介

CASIA-WebFace数据集包含了10575 个人的494414 张图像。CASIA-webface数据库,压缩包有4个多g,里面包含了10000个人,一共50万张人脸图片,无论是做SVM,DNN还是别的训练,都是非常好的数据库。

1、英文原文介绍

Pushing by big data and deep convolutional neural network (CNN), the performance of face recognition is becoming comparable to human. Using private large scale training datasets, several groups achieve very high performance on LFW, i.e., 97% to 99%. While there are many open source implementations of CNN, none of large scale face dataset is publicly available. The current situation in the field of face recognition is that data is more important than algorithm. To solve this problem, we propose a semi-automatical way to collect face images from Internet and build a large scale dataset containing 10,575 subjects and 494,414 images, called CASIA-WebFace. To the best of our knowledge, the size of this dataset rank second in the literature, only smaller than the private dataset of Facebook (SCF). We encourage those data-consuming methods training on this dataset and reporting performance on LFW.
        在大数据和深度卷积神经网络(美国有线电视新闻网)的推动下,人脸识别的性能已与人类相比。使用私有的大规模训练数据集,若干组在LFW上实现非常高的性能,即97%到99%。虽然有许多开源的美国有线电视新闻网的实现,没有大规模的面部数据集是公开可用的。人脸识别领域的研究现状是数据比算法更重要。为了解决这个问题,我们提出了一种半自动的方式来收集来自互联网的人脸图像,并建立一个大型数据集包含10575个主题和494414个图像,称为CASIA WebFACTS。据我们所知,该数据集的大小在文献中排名第二,仅比脸谱网(SCF)的私有数据集小。我们鼓励在这个数据集上的数据消耗方法训练和LFW上的报告性能。

CASIA-WebFace 数据集的安装

因为数据集太大,4个多G,无法直接给各位网友,获取方法:
T1、官网下载
T2、留言向博主索取!

CASIA-WebFace 数据集的使用方法

更新……

1、基础用法

  • 通过人脸识别方法提取人脸特征;
  • 使用每个名人的mainphoto作为它的种子(因为mainphoto一般都是正脸,而且不会出现其他人);
  • 使用那些只有1个人脸的图片去增加每个名人的种子的数量;
  • 在photo gallery剩下的图片中,通过与种子的相似度来找到属于每个名人的其余照片。
  • 裁剪人脸,将同一个名人的脸单独存入一个路径内,之后再进行人工纠错,进一步提高数据集纯度。

2、Tensorflow以CASIA-Webface为例子读取tfrecords数据数据

import mxnet as mx
import argparse
import PIL.Image
import io
import numpy as np
import cv2
import tensorflow as tf
import osdef parse_function(example_proto):features = {'image_raw': tf.FixedLenFeature([], tf.string),'label': tf.FixedLenFeature([], tf.int64)}features = tf.parse_single_example(example_proto, features)# You can do more image distortion here for training dataimg = tf.image.decode_jpeg(features['image_raw'])img = tf.reshape(img, shape=(112, 112, 3))r, g, b = tf.split(img, num_or_size_splits=3, axis=-1)img = tf.concat([b, g, r], axis=-1)img = tf.cast(img, dtype=tf.float32)#归一化img = tf.subtract(img, 127.5)img = tf.multiply(img,  0.0078125)#一些图像增强操作img = tf.image.random_flip_left_right(img)label = tf.cast(features['label'], tf.int64)return img, labelif __name__ == '__main__':args = parse_args()config = tf.ConfigProto(allow_soft_placement=True)sess = tf.Session(config=config)# training datasets api configtfrecords_f = os.path.join(args.tfrecords_file_path, 'tran.tfrecords')dataset = tf.data.TFRecordDataset(tfrecords_f)dataset = dataset.map(parse_function)#队列缓冲区长度30000,并且打乱顺序dataset = dataset.shuffle(buffer_size=30000)#这样每次迭代就是32张图片dataset = dataset.batch(32)iterator = dataset.make_initializable_iterator()next_element = iterator.get_next()# begin iterationfor i in range(1000):sess.run(iterator.initializer)while True:try:images, labels = sess.run(next_element)plt.imshow(images[0])fig = plt.gcf()plt.show()fig.savefig('test.jpg')except tf.errors.OutOfRangeError:print("End of dataset")

参考文章:https://zhuanlan.zhihu.com/p/64518637

Dataset之CASIA-WebFace:CASIA-WebFace 数据集的简介、安装、使用方法之详细攻略相关推荐

  1. Dataset:GiveMeSomeCredit数据集的简介、下载、使用方法之详细攻略

    Dataset:GiveMeSomeCredit数据集的简介.下载.使用方法之详细攻略 目录 GiveMeSomeCredit数据集的简介 1.数据集基本描述 2.EDA后总结 3.数据集基本形状 G ...

  2. Dataset之babyboom.dat:babyboom.dat数据集的简介、安装、使用方法之详细攻略

    Dataset之babyboom.dat:babyboom.dat数据集的简介.安装.使用方法之详细攻略 目录 babyboom.dat数据集的简介.安装.使用方法 babyboom.dat数据集的简 ...

  3. Dataset:fetch_20newsgroups(20类新闻文本)数据集的简介、安装、使用方法之详细攻略

    Dataset:fetch_20newsgroups(20类新闻文本)数据集的简介.安装.使用方法之详细攻略 目录 fetch_20newsgroups(20类新闻文本)数据集的简介 1.数据集信息 ...

  4. Dataset之MapillaryVistas:MapillaryVistas数据集的简介、下载、使用方法之详细攻略

    Dataset之MapillaryVistas:MapillaryVistas数据集的简介.下载.使用方法之详细攻略 目录 MapillaryVistas数据集的简介 1.数据集特点 Mapillar ...

  5. Dataset之CamVid:CamVid数据集的简介、下载、使用方法之详细攻略

    Dataset之CamVid:CamVid数据集的简介.下载.使用方法之详细攻略 目录 CamVid数据集的简介 CamVid数据集的下载 CamVid数据集的使用方法 CamVid数据集的简介 Ca ...

  6. Dataset之BDD100K:BDD100K数据集的简介、下载、使用方法之详细攻略

    Dataset之BDD100K:BDD100K数据集的简介.下载.使用方法之详细攻略 目录 BDD100K数据集的简介 BDD100K数据集的下载 BDD100K数据集的使用方法 BDD100K数据集 ...

  7. Dataset之Knifey-Spoony:Knifey-Spoony数据集的简介、下载、使用方法之详细攻略

    Dataset之Knifey-Spoony:Knifey-Spoony数据集的简介.下载.使用方法之详细攻略 目录 Knifey-Spoony数据集的简介 ##The Knifey-Spoony Da ...

  8. Dataset之WebVision:WebVision数据集简介、下载、使用方法之详细攻略

    Dataset之WebVision:WebVision数据集简介.下载.使用方法之详细攻略 目录 WebVision数据集简介 1.WebVision数据集挑战 WebVision数据集下载 WebV ...

  9. Dataset之Fashion-MNIST:Fashion-MNIST数据集简介、下载、使用方法之详细攻略

    Dataset之Fashion-MNIST:Fashion-MNIST数据集简介.下载.使用方法之详细攻略 目录 Fashion-MNIST数据集简介 1.Why we made Fashion-MN ...

最新文章

  1. vijos 1476 旅游规划题解
  2. 计算机书籍-机器学习预测分析Go语言实现
  3. Attention函数手册
  4. jquery.validation.js 使用
  5. flutter 几秒前, 几分钟前, 几小时前, 几天前...
  6. 谈自由,ASP.NET Core才是未来?
  7. node中操作MySQL
  8. [sqlite] android create db in SD card
  9. 让自律成为你2019年的新名片,快来看这24种建议
  10. 查询记录rs.previous()使用
  11. test.php变成夏总,test.php
  12. 软件工程学习之七大实际开发模型的讲解,及模块化设计的理念
  13. Java 之未支付订单30分钟后自动取消
  14. 【IOS 之愤怒的小鸟】使用Lua语言:Wax框架详解
  15. 转:Andriod Phone模块相关
  16. 【集训Day1】 Dwarves line up
  17. 【区块链技术开发】 Solidity使用Truffle Box工具实现预构建模板、自动化部署、创建智能合约示例代码
  18. PEP8 Python代码编程规范(摘录整理于官网)
  19. ES6之Array.from()
  20. Git标签(tag)的用法

热门文章

  1. 2007职场新宠:视频短片制作人才
  2. 北京奥运会宣传片[变形金刚版]
  3. “梦之声”迎逆袭战:收视不错 打铁趁热
  4. 【06月04日】A股滚动市盈率PE历史新低排名
  5. OV7670无FIFO读寄存器成功
  6. SonicwALL NSA-4600 防火墙基本介绍
  7. lua string
  8. CSDN创建二级专栏并迁移博客
  9. python机器人编程教程入门_机器人操作系统(ROS)入门必备:机器人编程一学就会...
  10. 有没有html代码听力的软件吗,有哪些英语听力训练的软件?