更多内容关注微信公众号:ML_Study

1,MS-Celeb-1M数据集: 
MSR IRC是目前世界上规模最大、水平最高的图像识别赛事之一,由MSRA(微软亚洲研究院)图像分析、大数据挖掘研究组组长张磊发起,每年定期举办。从1M个名人中,根据他们的受欢迎程度,选择100K个。然后,利用搜索引擎,给100K个人,每人搜大概100张图片。共100K*100=10M个图片。测试集包括1000个名人,这1000个名人来自于1M个明星中随机挑选。而且经过微软标注。每个名人大概有20张图片,这些图片都是网上找不到的。其他常用人脸数据集:CAISA-WebFace,VGG-Face, MegaFace.

数据有对齐版可以直接用于训练(共80G数据):

数据下载地址:https://www.msceleb.org/download/aligned

2,FaceImageCroppedWithAlignment.tsv文件提取参考: https://blog.csdn.net/wuqingshan2010/article/details/72081898

下载并解压微软的大型人脸数据集MS-Celeb-1M后,将FaceImageCroppedWithAlignment.tsv文件还原成JPG图片格式。代码如下:

import base64
import struct
import osdef read_line(line):m_id, image_search_rank, image_url, page_url, face_id, face_rectangle, face_data=line.split("\t")rect=struct.unpack("ffff",base64.b64decode(face_rectangle))return m_id, image_search_rank, image_url, page_url, face_id, rect, base64.b64decode(face_data)def write_image(filename, data):with open(filename,"wb") as f:f.write(data)def unpack(file_name, output_dir):i=0with open(file_name, "r", encoding="utf-8") as f:for line in f:m_id, image_search_rank, image_url, page_url, face_id, face_rectangle, face_data = read_line(line)img_dir = os.path.join(output_dir, m_id)if not os.path.exists(img_dir):os.mkdir(img_dir)img_name = "%s-%s" % (image_search_rank, face_id) + ".jpg"write_image(os.path.join(img_dir, img_name), face_data)i += 1if i % 1000 == 0:print(i, "images finished")print("all finished")def main():file_name = "G:\\FaceImageCroppedWithAlignment\\FaceImageCroppedWithAlignment.tsv"output_dir = "E:\\MS-Celeb-1M\\"unpack(file_name, output_dir)if __name__ == '__main__':main()

提取后数据总共800多万张人脸图像:

3,其中同一目录图像有很多数据并非是同一人

网上有一份清理的文档  MS-Celeb-1M_clean_list.txt (包含79076个人,5049824张人脸图像)

【人脸识别】解析MS-Celeb-1M人脸数据集及FaceImageCroppedWithAlignment.tsv文件提取相关推荐

  1. 应用层下的人脸识别(二):人脸库

    本文作者根据多年人脸识别项目经验,总结了人脸识别技术在安防.商业领域应用及产品设计细节,汇总成应用层下的人脸识别系列文章. 本文为系列文章的第二篇,介绍人脸库的相关内容.人脸库是人脸识别的基础,建立人 ...

  2. Python+OpenCv实现AI人脸识别身份认证系统(2)——人脸数据采集、存储

    原 Python+OpenCv实现AI人脸识别身份认证系统(2)--人脸数据采集.存储 2019年07月02日 08:47:52 不脱发的程序猿 阅读数 602更多 所属专栏: 人脸识别身份认证系统设 ...

  3. python人脸识别框很小_人脸识别:从传统方法到深度学习

    人脸识别:从传统方法到深度学习 这开始于上世纪七十年代,人脸识别成为了计算机视觉领域和生物识别领域最具有研究型的话题之一.传统方法依赖于手工制作模型特征,通过深度神经网络训练大量的数据集的方法也在最近 ...

  4. 人脸识别最低像素_深入浅出人脸识别技术

    在深度学习出现后,人脸识别技术才真正有了可用性.这是因为之前的机器学习技术中,难以从图片中取出合适的特征值.轮廓?颜色?眼睛?如此多的面孔,且随着年纪.光线.拍摄角度.气色.表情.化妆.佩饰挂件等等的 ...

  5. 人脸识别2:InsightFace实现人脸识别Face Recognition(含源码下载)

    人脸识别2:InsightFace实现人脸识别Face Recognition(含源码下载) 目录 人脸识别2:InsightFace实现人脸识别Face Recognition(含源码下载) 1. ...

  6. 人脸识别资源大列表(人脸识别检测,关键点检测 看这些就够了)

    文章内相关链接,可以直接点解页面 链接:点这里 几篇知乎 <人脸识别方向有哪些大牛?目前的发展如何? - 知乎> O从认知心理学的角度来说,人脸识别方向有哪些- <谈到人脸识别技术, ...

  7. 人脸识别基础知识、大规模人脸识别评测

    文章目录: 1 人脸识别背景介绍 1.1 人脸1:1比对 1.2 人脸1:N搜索 1.3 人脸N:N搜索 1.4 人脸虚拟ID的聚类 1.5 人脸识别的基本流程 2 人脸识别前沿算法 2.1 人脸识别 ...

  8. 人工智能 | 人脸识别研究报告(技术篇)——人脸数据库

    博主github:https://github.com/MichaelBeechan 博主CSDN:https://blog.csdn.net/u011344545 ================= ...

  9. 人脸识别算法实验:facenet人脸识别率测试

    前言 本文记录对人脸识别算法facenet在亚洲人脸数据集上准确率的详细测试结果. 2020-4-7 日更新每个人三张底片 2020-4-2 日更新每个人一张图片作为数据和两张图片作为数据. 数据集 ...

最新文章

  1. Makefile经典教程
  2. .NET Core 3.0 Preview 6中对ASP.NET Core和Blazor的更新
  3. 函数式编程学习之路(一)
  4. 上周热点回顾(7.10-7.16)
  5. 看人家如何拿到腾讯阿里的offer
  6. 我的新发现:AVL树旋转的一个特性
  7. 融创上海:从营销切入,建立自上而下的数据平台,实现数据应用
  8. shell编程入门步步高(二、基础概念)
  9. 【黑马JS比较】用JavaScripts的DOM对象实现动态表格
  10. 远程桌面发生身份验证错误,要求的函数不受支持
  11. SpringBoot源码篇:Spring5内置tomcat实现code-based的web.xml实现
  12. 动态获取API函数地址
  13. 计算机课flash课件,flash课件在计算机教学过程中的应用
  14. iPhone XR/XS/XS Max 适配,最全iPhone尺寸
  15. 删库跑路 php,程序员删库跑路事件,php中文网的几点声明!
  16. MSM7225 600MHZ CPU和高通MSM 7201A 528MHz CPU的比较
  17. 华东理工大学计算机考研资料汇总
  18. Jetson TK1 血泪开发记(一)——Jetson TK1初体验
  19. 求岛屿的最大面积java
  20. react中使用构建缓存_如何使用React构建Chatbot

热门文章

  1. grafana安装使用
  2. 嵌入式软件开发调试问题常用方法及案例分析
  3. 4.3 公钥密码算法
  4. 易语言操作数据库之EDB数据库
  5. 南京理工大学计算机学号6,学生学籍管理系统
  6. java visualvm 官方_Java VisualVM使用
  7. Leakcanary的使用
  8. CSS+html人员信息表
  9. COMMAND NOT FOUND 的两种解决方案
  10. 智慧环卫管理系统解决方案(垃圾分类)