原文:

Introduction

The PubFig database is a large, real-world face dataset consisting of 58,797 images of 200 people collected from the internet. Unlike most other existing face datasets, these images are taken in completely uncontrolled situations with non-cooperative subjects. Thus, there is large variation in pose, lighting, expression, scene, camera, imaging conditions and parameters, etc. The PubFig dataset is similar in spirit to the Labeled Faces in the Wild (LFW) dataset created at UMass-Amherst, although there are some significant differences in the two:

  • LFW contains 13,233 images of 5,749 people, and is thus much broader than PubFig. However, it's also smaller and much shallower (many fewer images per person on average).

  • LFW is derived from the Names and Faces in the News work of T. Berg, et al. These images were originally collected using news sources online. For many people, there are often several images taken at the same event, with the person wearing similar clothing and in the same environment. Our paper at ICCV 2009 showed that this can often be exploited by algorithms to give unrealistics boosts in performance.

  • Of course, the PubFig dataset no doubt has biases of its own, and we welcome any attempts to categorize these.

We have created a face verification benchmark on this dataset that test the abilities of algorithms to classify a pair of images as being of the same person or not. Importantly, these two people should have never been seen by the algorithm during training. In the future, we hope to create recognition benchmarks as well.

Citation

The database is made available only for non-commercial use. If you use this dataset, please cite the following paper:

"Attribute and Simile Classifiers for Face Verification,"

Neeraj Kumar, Alexander C. Berg, Peter N. Belhumeur, and Shree K. Nayar,

International Conference on Computer Vision (ICCV), 2009.

[bibtex] [pdf] [webpage]News

  • December 23, 2010: Updated PubFig to v1.2. The changes are as follows:We added md5 checksums for all images in the datafiles on the download page.

  • September 10, 2010: Updated PubFig to v1.1. The major changes are as follows:We recomputed attribute values using updated classifiers, expanding to 73 attributes.

    • Attribute values now exist for the development set as well as the evaluation set (previously only the evaluation set had attribute values).

    • We updated the face rectangles for faces to be much tighter around the face, as opposed to the rather loose boundaries given before.

    • We removed 679 bad images, including non-jpegs, images with non-standard colorspaces, corrupted images, and images with very poor alignment.

    • We generated a new cross-validation set, taking into account these deleted images. We ran our algorithm with our new attribute classifiers on this set, obtaining a new curve.

    • We removed the verification subsets by pose, lighting, and expression, as they were not being used. Instead, we created a single datafile which contains the manual labels for these parameters.

    • Some of the datafile formats have changed slightly, to be more consistent with the others.

    • We added the python script used to generate the output ROC curves

    • We updated this website to be cleaner and easier to read

  • December 21, 2009: Added face locations to dataset

  • December 2, 2009: Created website and publicly released v1.0 of dataset

Related Projects

  • Attribute and Simile Classifiers for Face Verification (Columbia)

  • FaceTracer: A Search Engine for Large Collections of Images with Faces (Columbia)

  • Labeled Faces in the Wild (UMass-Amherst)

  • Names and Faces (SUNY-Stonybrook)

译:

介绍

PubFig数据库是一个大型的真实世界人脸数据集,包含从互联网上收集的200人的58797张图像。与大多数其他现有的人脸数据集不同,这些图像是在完全不受控制的情况下拍摄的,而非合作对象。因此,在姿势、灯光、表情、场景、摄像机、成像条件和参数等方面存在很大差异。PubFig数据集在精神上与麻省大学阿默斯特分校创建的野生(LFW)数据集中的标签人脸相似,尽管两者之间存在一些显著差异:

●LFW包含5749人的13233张图像,因此比PubFig的范围更广。然而,它也更小,也更浅(平均每个人的图像更少)。

●LFW来源于T.Berg等人新闻作品中的姓名和面孔。这些图片最初是通过在线新闻来源收集的。对于许多人来说,在同一个活动中,经常会有几张照片,这些照片中的人穿着相似的衣服,在同一个环境中拍摄。我们在2009年ICCV上发表的论文显示,这通常可以被算法利用,从而给表现带来非现实的提升。

●当然,PubFig数据集无疑有其自身的偏差,我们欢迎任何对这些数据进行分类的尝试。

我们已经在这个数据集上创建了一个人脸验证基准,测试算法将一对图像分类为是否属于同一个人的能力。重要的是,这两个人在训练期间不应该被算法看到。在未来,我们也希望建立认可基准。

引用

该数据库仅用于非商业用途。如果您使用此数据集,请引用以下论文:

用于人脸验证的属性和明喻分类器

Neeraj Kumar,Alexander C.Berg,Peter N.Belhumer和Shree K.Nayar,

国际计算机视觉会议(ICCV),2009年。

[bibtex][pdf][webpage]新闻

●2010年12月23日:将PubFig更新为v1.2。变化是以下:我们添加了下载页面上数据文件中所有图像的md5校验和。

●2010年9月10日:将PubFig更新为v1.1。主要的变化是以下:我们重新计算属性值使用更新的分类器,扩展到73个属性。

○开发集和评估集现在都有属性值(以前只有评估集有属性值)。

○我们更新了面矩形,使面周围的面更加紧密,而不是之前给出的相当松散的边界。

○我们删除了679幅不良图像,包括非JPEG图像、具有非标准色彩空间的图像、损坏的图像以及对齐非常差的图像。

○考虑到这些删除的图像,我们生成了一个新的交叉验证集。我们在这个集合上用我们的新属性分类器运行我们的算法,得到一个新的曲线。

○我们通过姿势、照明和表情移除验证子集,因为它们没有被使用。相反,我们创建了一个包含这些参数的手动标签的数据文件。

○一些数据文件格式略有变化,以便与其他格式更加一致。

○我们添加了用于生成输出ROC曲线的python脚本

○我们更新了这个网站,使其更干净、更易于阅读

●2009年12月21日:向数据集添加面位置

●2009年12月2日:创建网站并公开发布数据集v1.0

相关项目

●用于人脸验证的属性和明喻分类器(哥伦比亚)

●FaceTracer:一个搜索大量人脸图片的搜索引擎(哥伦比亚)

●野外标签脸(麻省大学阿默斯特校区)

●姓名和面孔(纽约州立大学石车)

大家可以到官网地址下载数据集,我自己也在百度网盘分享了一份。

链接:获取数据集

哥伦比亚大学公众人物脸部数据集相关推荐

  1. 不用“背”单词,一个方法从普通二本到哥伦比亚大学:我是如何做到的?

    "学英语太难.太费劲了."我听过无数人这么说. 然而,我的学员们,却都只用了短短3-6个月时间,就以惊人速度提高了英语: 小磊:勉强踩着2本线上了大学,四级考了3次没过,毕业时却拿 ...

  2. 【2020 Fall】哥伦比亚大学最新《机器学习》课程

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要3分钟 Follow小博主,每天更新前沿干货 COMS 4771是一个研究生水平的机器学习入门.本课程涵盖监督机器学习的基本统计原理,以及一些 ...

  3. 哥伦比亚大学AI实验室主任Hod Lipson:阻碍无人驾驶技术发展的7个误区

    来源:智车科技 摘要:我们发现有些针对无人驾驶的误解还在广泛肆意传播,并且这些信息会被反对者拿来和对抗无人驾驶的推广政策. 每年,全世界都有将近120万人死于车祸,这个死亡率相当于每年释放10个广岛级 ...

  4. 「一夜白头」有科学依据了,减压可返黑 | 哥伦比亚大学最新研究

    丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI 古有伍子胥过韶关一夜白头,今有不少人写论文头发一抓掉一把. 人生这许多烦恼都淋漓尽致地体现在脑袋上这"几根毛"上了. 不 ...

  5. 应用机器学习视频教程,哥伦比亚大学 2020版

    向大家推荐来自哥伦比亚大学的"应用机器学习"(Applied Machine Learning 2020)课程,相比斯坦福的 CS229 更加注重代码实践,使用流行的 Python ...

  6. 2021年美国最佳学府排行榜:普林斯顿大学、哈佛大学、哥伦比亚大学列前三

    全球教育排名权威机构<美国新闻与世界报道>(U.S. News & World Report)发布了2021年最佳学府排行榜. 2021年<美国新闻与世界报道>最佳学府 ...

  7. 语言模型自然语言处理[置顶] 哥伦比亚大学 自然语言处理 公开课 授课讲稿 翻译(四)...

    每日一贴,今天的内容关键字为语言模型自然语言处理 媒介:灵机一动看了一个自然语言处理公开课,大牛柯林斯讲解的.认为很好,就自己动手把它的讲稿翻译成中文.一方面,希望通过这个翻译过程,让自己更加理解大牛 ...

  8. 哥伦比亚大学「机械手」无需提前了解抓握物体,也能灵活适应形状!

    来源:机器人大讲堂 本文约1000字,建议阅读5分钟 本文为你分享首次将内在触感与强化学习结合. 人类天生拥有先进而灵活的手部操纵能力,能够轻松完成日常很多动作,例如移动物体.开门.打字.绘画等. 但 ...

  9. 张亚勤2020寄语哥伦比亚大学毕业生:引领未知时代

    (哥伦比亚大学巴特勒图书馆) 2020年5月18日,人工智能和数字视频的世界级科学家和企业家,美国艺术与科学院院士.百度前总裁.清华大学智能科学讲席教授张亚勤博士,在哥伦比亚大学工程学院的毕业典礼上发 ...

最新文章

  1. 只需三分钟!只需创建一个vuex.js文件,让你马上学会使用Vuex,尽管Vuex是个鸡肋!(扔掉store文件夹和里面的index、getters、actions、mutations等js文件吧!)
  2. Android -- 利用Broadcast开启Service
  3. 通过mem函数在MicroPython中访问模块寄存器
  4. 解决: is not accessible from java.lang.Class android.app.AppComponentFactory
  5. 新年新气象,祝所有朋友心想事成
  6. c语言实现补码加减,C语言实现用位移运算符进行加减乘…
  7. 处理get中的中文乱码情况
  8. 「后端小伙伴来学前端了」Vuex 基本使用及案例,快速上手,学会使用vuex
  9. selenium操作chrome时的一些配置
  10. light4java_Light Weight Component Library for Java
  11. Linux下汇编语言学习笔记51 ---
  12. Adobe Flash Builder 4 序列号
  13. Java编码规范总结
  14. 外贸全流程30个邮件模板分享!
  15. 打印自身源代码的程序
  16. IEEE latex 模板 部分文字变色 (变蓝,变成浅蓝色)暂时的解决方案
  17. 全网最细MySQL数据库下载及安装教程
  18. basic4android计算器,vb三角函数计算器代码
  19. 麻省理工学院的学生们愚弄了谷歌图像识别技术,计算机视觉算法仍然很容易被骗
  20. linux arecord录音

热门文章

  1. java ftp上传失败_使用java进行ftp文件上传出现425错误
  2. 台式计算机硬盘接口,台式机硬盘接口之sata接口
  3. Objective C 常用代码片段制作(code snippet library)
  4. 信息收集--OSINT
  5. XMPP Client 流程及入门
  6. 你应该具有的富人思维
  7. Vue 中echarts的数据参数使用、X轴Y轴
  8. Python Web框架 Django项目搭建与测试详解
  9. 基础条件查询 where
  10. AI+视频技术助力保障校园安全,校园智能安防平台该如何建设?