全球最大的公开人脸数据集 | 清华大学芯翌科技联合发布
金磊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
人脸识别领域,中国队再次传来捷报。
全球最大规模人脸数据集发布。
首次包含数百万ID和数亿图片。
这就是由芯翌科技与清华大学自动化系智能视觉实验室合作,所推出的 WebFace 260M,相关研究已被CVPR 2021接收。
并且,基于其所清洗的数据集 WebFace42M,在最具挑战IJBC测试集上,也已经达到了SOTA水平。
而它所带来的“全球之最”还不止于此。
以这项数据集为基础,芯翌科技在最新一期的NIST-FRVT榜单上,戴口罩人脸识别评测中斩获世界第一。
全球之最的人脸数据集,长什么样?
WebFace260M这个数据集,是完全基于全球互联网公开人脸数据。
它的问世,一举打破了此前人脸数据集的规模:
不仅规模最大,也是首次在人脸ID数目和图片数,分别达到了400万和2.6亿的规模。
此外,研究人员还提出了基于自训练全自动迭代的清洗流程 (Cleaning Automatically by Self-Training, CAST)。这种方法的灵感来自于对互联网人脸数据的观察和分析。
WebFace260M数据提供了粗糙的分类,可以基于此作为清洗算法的初始结构。另外,研究人员发现,在大规模含噪声人脸数据清洗中,嵌入特征显得十分重要,而这个特征可以通过同时迭代数据和模型得到增强。因此,整个清洗流程如下图所示:
首先,利用名为MS1M的公开数据集训练一个“教师模型”,并对原始WebFace260M进行清洗。
其次,利用一个“学生模型”,在上一步清洗过的图像上进行训练。
最后,让“学生模型”切换为“教师模型”,并进行迭代,直到获得高质量的WebFace42M。
通过这种方式,在对WebFace260M进行清洗操作后,便得到了WebFace42M。
据介绍,它是目前全球规模最大、可直接用于训练的干净人脸数据集:
包含200万ID、4200万图片。
关于WebFace260M和WebFace42M的“世界之最”,一张表格的数据对比,便可一目了然:
同时,针对目前人脸识别的评测问题,研究人员发布了更贴近实际应用的“时间受限人脸识别评测准则”-FRUITS (Face Recognition Under Inference Time conStraint),和分布更广泛、更具挑战性、分类更细致的人脸测试集,这将推动人脸识别评测更靠近真实场景。
同时,研究人员将持续维护、迭代和升级该测试集以及评测系统,持续助力行业技术发展。
这样的数据集,好用吗?
对于这个问题,答案是肯定,而且是得到了非常专业的实践和认可的那种。
以WebFace42M为例,它能够在目前公开的、最具挑战性的IJBC测试集上,达到新的SOTA,相对错误率还降低了40%。
除此之外,有一个叫做NIST-FRVT的比赛,是由美国国家标准与技术研究院主办,素来有着“人脸识别黄金赛事”的别称。
因为它具有测评集非对外公开、提交频率严格限制、计算时间严格限制等诸多严苛要求,所以可以称得上是全球标准最严、最具权威的人脸识别算法评测。
那么当WebFace42M的数据,遇到如此棘手的赛事,又会擦出怎样的火花呢?
早在去年10月份,仅用WebFace42M的数据,芯翌科技便在NIST-FRVT的榜单上取得了前三名的成绩。
而在刚刚最新一期的NIST-FRVT榜单上,以WebFace42M为基础,在“戴口罩人脸识别评测”中又一次创造了“世界之最”——夺得比赛冠军。
而且从数据中不难看出,与第二名的成绩可以说是两个量级。
除此之外,在1:1人脸识别评测中,也取得了综合排名世界前三的成绩。
为什么要做这样的数据集?
人脸识别,这项技术可以说是真的火。
火到已经步入人们日常生活,打卡、开门禁、解锁手机等等,都成了它大展拳脚的地方。
也正因如此,学术、工业界的科研工作者,在人脸识别的精度和速度上,形成了竞相追逐的状态。
而据研究表明,人脸数据集对于上述的影响是最大的。特别是在目前以深度学习为核心的人工智能研发模式下,软件开发会逐渐从传统的软件1.0,过渡到以数据为核心的“数据即代码,模型即软件”的软件2.0时代。
然而在数据集这块,目前的现状却是:
公开数据规模和实际人脸识别系统所需数据规模,差距过大。
怎么说?
例如在WebFace260M发布之前,公开的数据规模都是较小,此前规模最大的就是MegaFace2和MS1M。
MegaFace2拥有67.2万ID和470万图片,MS1M拥有10万 ID和1000万图片。
如此规模的公开数据,对于科研人员来说,是远远无法满足实际人脸识别系统的数据需求。
同时这也只是限制人脸识别技术发展的瓶颈之一,评测准则和测试集也是重要因素。
目前公开的人脸识别评测集,包括LFW、CFP、AgeDB、RFW、MegaFace、IJB系列等,在精度上基本已经比较饱和。
同时,还存在不同场景下表现不够细致的情况。
因此,WebFace260M和WebFace42M以及相关Benchmark的推出,在一定程度上可以说是拉近了公开数据集规模与实际应用产业界的这条鸿沟,进一步推动以深度学习为核心的人脸识别相关技术的进步,促进智能化行业的繁荣发展。
而比起规模的上突破,更大的意义应该在于“科技向善”、“数据生态”。
经过过去几年的发展,人脸识别以及人工智能技术取得了巨大的进步,也产生了显著的社会经济价值,但是也出现了很多由于技术发展带来的社会问题。
团队希望通过这个数据集的建立和相关工作,和产业界以及社会各界一起,构建人脸识别测试和应用标准,规范人脸识别应用市场,治理人脸识别应用乱象,科技向善,凸显人工智能技术的价值和温度。
更进一步来讲,在现今数字经济和智能化高速发展的当下,数字资源已然成为像水、电一样的必需品;同时又像石油一般的宝贵,需要有规划地去生产、使用、分享和交易等。
但现在目前的状况是,国内外普遍对此的重视程度不够,具体而言包括行业规范不标准、分享程度不足,也没有长期的规划,由此便反过来抑制了数字经济和智能化的发展进程。
目前国家层面非常鼓励和重视数据集的创新和规范,清华大学和芯翌科技的研究人员也积极响应国家的号召和政策的要求,希望和国家、政府机构、学术界以及产业界一起,打造智能化时代开放、共享、安全的数据生态。
网站地址:
https://www.face-benchmark.org
论文地址:
https://arxiv.org/abs/2103.04098
— 完 —
福利来了|AI算力免费领
500元 卡时GPU资源「限时」免费领!并行®AI云面向AI深度学习和高性能计算,提供A100、V100、T4等丰富的云算力资源;预置TensorFlow、PyTorch等环境,开箱即用;三线专家团队7*24小时在线提供多元化服务,助开发者提升科研效率,降低科研成本。欢迎扫码免费体验~:
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见~
全球最大的公开人脸数据集 | 清华大学芯翌科技联合发布相关推荐
- 中国队拿下口罩人脸识别世界第一!还将推出全球最大公开人脸数据集
允中 发自 凹非寺 量子位 编辑 | 公众号 QbitAI 在新冠疫情全球大流行的背景下,佩戴口罩几乎是所有国家和地区居民出行的必备选项.但严重的面部遮挡会对人脸识别技术构成严重挑战,受此影响,类似手 ...
- 常见公开人脸数据集的获取和制作自定义人脸数据集
原文博客:Doi技术团队 链接地址:https://blog.doiduoyi.com/authors/1584446358138 初心:记录优秀的Doi技术团队学习经历 前言 开发人脸识别系统,人脸 ...
- 10万人的1000万张图像,微软悄然删除最大公开人脸数据集
作者 | 神经小姐姐 转载自HyperAI超神经(ID:HyperAI) 前几日,微软静悄悄地删除了一个公开的名人图片数据集.这个本为世界上最大的公开人脸识别数据集,现在已经不能通过微软的渠道访问. ...
- 常用公开人脸数据集汇总,持续更新中~~
转载请注明作者和出处: http://blog.csdn.net/john_bh/ 文章目录 一. 人脸数据汇总表 1.人脸检测 2.人脸关键点检测 3.人脸表情 4.年龄与性别 5.人脸姿态 6.人 ...
- 36万类别、1800万图像,国内机构创建全球最大人脸数据集
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 这项研究基于现有公开人脸数据集创建了目前全球最大的人脸数据集,并实现了一个高效的分布式采样算法 ...
- 人脸识别: 人脸数据集大全
转自:http://blog.csdn.net/chenriwei2/article/details/50631212 公开人脸数据集 本页面收集到目前为止可以下载到的人脸数据库,可用于训练人脸深度学 ...
- ▲芯驰科技CEO仇雨菁
在智能汽车的大潮之中,汽车的核心部件不再局限于发动机.底盘.变速箱,以智能座舱.自动驾驶为主的智能化体验成为了汽车的核心.在这些智能化体验的背后,则是由芯片做支撑.行业内有观点称,芯片已经成为汽车的数 ...
- 芯动科技取消 Grin 矿机销售计划 愿意出售产品完整设计方案
矿机生产商芯动科技昨日发布官方消息表示因定制芯片复杂度高等原因,第三方工厂无法按时完成量产,因此芯动决定取消 Grin 矿机销售计划.对于此前已经进行交钱订购的用户,芯动将先为第一批从官方渠道直接订购 ...
- 武汉大学提出全球最大的口罩遮挡人脸数据集(附下载地址):RMFD
前言 近期受 COVID-19(新型冠状病毒肺炎)疫情影响,学术界.工业界陆续用AI技术帮助人类解决问题,并取得重大突破.其中关于口罩遮挡人脸识别.检测以及CT图像分析更是热门的研究方向. RMFD: ...
最新文章
- if you want to reserve a place at the college library
- 从Deepwalk到Node2vec
- Navicat数据库非常实用的技巧 (create_time、edit_time 设置默认值和自动更新)
- strncasecmp的使用
- 第五章 面向方面编程___AOP入门
- B75经典门户商业版discuz模板
- 国土空间规划基数转换初探
- cmake编译安装MySQL5.5.32
- 双十二心动礼遇,送你3本算法好书
- 图像标注,三倍加速:谷歌AI新方案,数据民工的福音 | Demo可玩耍
- keil_4/MDK各种数据类型占用的字节数
- Xenon构建MySQL高可用
- 使用Nexus3搭建Maven私服+上传第三方jar包到本地maven仓库
- linux 2.6 内核配置说明
- Excel多个工作簿合成为一个工作表
- 网络安全笔记-14-网络层-路由
- 常州大学 计算机与人工智能学院,常熟理工学院新闻网
- 怎么用手机记笔记?安卓手机超实用的笔记app
- arw是什么格式?arw格式用什么软件打开?arw格式怎么转换成jpg
- (二)MySQL数据库-库的创建和删除
热门文章
- “ px”,“ dip”,“ dp”和“ sp”有什么区别?
- PM2 进程管理工具使用总结
- Python 面向对象、封装
- 三分钟学会css3中的flexbox布局
- 如何解决SQL Server 2008 R2中“阻止保存要求重新创建表的更改”的问题!
- 如何检测出定制服务器中预装的恶意软件?
- 手机摇一摇效果-html5
- EBS FORM(10g)开发步骤
- 如何理解JavaScript原型
- 新年新气象,祝所有朋友心想事成