作者 | 神经小姐姐

责编 | 郭芮

本文经授权转自HyperAI超神经(ID:HyperAI)

前几日,微软静悄悄地删除了一个公开的名人图片数据集。这个本为世界上最大的公开人脸识别数据集,现在已经不能通过微软的渠道访问。

这个数据集包含了 10 万张名人面部图像,常被用来作为人脸识别的训练。对于微软删除的真实原因,我们不得而知,但其背后牵扯到的数据隐私问题,包括人脸识别技术的安全规范,都值得一番深思。

在这次「静默」删除行为背后,又牵扯到了哪些问题呢?

微软想解决的麻烦:MS Celeb 名人数据集

MS Celeb 1M 数据集,最早是微软在 2016 年发布,其中共包含了 10 万个名人,近 1000 万张面部图片,而这些数据都是从网络上搜集而来。

从网络中 100 万个名人中,根据受欢迎程选出 10 万个,然后利用搜索引擎,跳出每个人的大约 100 张图片,就得到了这个庞大的数据集。

MS Celeb 数据集中的 Jobs 图片,其中绿色是年轻时代的图片,红色是合成图像

而这个数据集最初是用来服务比赛的。MSR IRC 是世界上最高水平的图像识别赛事之一,MS Celeb 1M 数据集最初就是这个赛事所用。

MS Celeb 1M 常被用来做面部识别的训练。但对于这些图片均来自网络,所以也曾受到了质疑。而微软则表示,是根据「知识共享许可 C.C 协议」,来抓取和获得这些图像的。

根据协议,可以将照片重新用于学术研究,(照片中的人物并不一定授权许可,而是版权所有者授权。)但微软发布数据集后,却并不能掌管它的使用。英国「金融时报」进行了一项深入调查,结果表明数据被大量的用在了多个企业测试中。

包括 IBM,松下,阿里巴巴,Nvidia 和日立等公司,都存在使用这个数据集的情况。

而这就涉及到了数据集使用的一些规范性问题,一位研究人员还指出,这涉及到人脸识别图像数据集的伦理,起源和个人隐私等问题。

删除原因:负责该数据集的员工离职?

微软已经在线上默默地删除了MS Celeb 1M,并没有特别的说明。

Github 上数据集的下载页面已经变成了 404

在金融时报的报道中,微软表示「该网站主要目的是用于学术」,而删除它的原因是,「负责运营这个项目的员工离职了,不再与微软合作,所以进行了删除。」

我们都相信肯定有其他原因,可能也有数据集图片存在的问题。虽然微软称数据集均来自于公众人物的照片。但其中还包括少量非知名人物。这部分人脸照片的所有者,对微软使用他们的名称和图像信息,曾提出过质疑和批评。

还有技术人员推测,微软可能会因违反欧盟《通用数据保护条例》(GDPR)而删除数据,该法规于去年生效,旨在建立起数据安全的保护措施。

GDPR对个人信息的保护及其监管,达到了前所未有的高度

但微软表示,它们没有涉及到 GDPR 的条款,数据集相关网站退役只是因为,「曾经的竞赛已经结束」。

当然,此次微软移除 MS Celeb 数据集,并不妨碍它在学术研究等途径的正常使用。那些用于处理数据库的工具,现在也可正常访问。

常用公开数据集,也可能有隐私问题

在英国「金融时报」调查之后,还有另外两个学术单位也删除了相关的数据集:分别是杜克大学的 Duke MTMC 监控数据集,和斯坦福大学的 Brainwash 数据集。

关于数据集和隐私问题,这不是第一次进入人们的视野。在今年 1 月底,IBM 发布了百万级别的无偏见「人脸多样性」数据集,就曾引发了广泛的争议。

虽然 IBM 强调此举是为减少面部识别中的「偏见」问题,但数据集的来源,人物的是知情度等问题,都引发了不少质疑声。

有媒体还报道, IBM 表示会按照被摄影者的意愿,删除数据集里的相关照片,但都只是一面之词,并没有实际的行动。

今年 5 月,旧金山曾颁布法令,禁止政府机构使用人脸识别技术

对于数据集的采集和使用规则,还是一个很不太明确的区域,尤其是网络便利之后,很多机构都能轻易地获得大量图片,用于面部识别等用途。

其实,对于数据集涉及的隐私问题,解决方案可以很简单:关乎到用户个人隐私信息时,应保证用户的知情权,确保用户是否愿意贡献数据。

但似乎缺少的从来都不是方法,而是意识。

5G之后,中国的人工智能发展趋势如何?

https://edu.csdn.net/topic/ai30?utm_source=csdn_bw

【END】

6月29-30日,2019以太坊技术及应用大会特邀以太坊创始人V神与以太坊基金会核心成员,以及海内外知名专家齐聚北京,聚焦前沿技术,把握时代机遇,深耕行业应用,共话以太坊2.0新生态。扫码即享优惠购票!

 热 文 推 荐 

他是浙大 19 岁大一新生,三个月斩获 WWDC 19 奖学金!

TIOBE 6 月编程语言排行榜:Python 势不可挡,或在四年之内超越 Java、C

无良老板拖欠程序员工资,一怒开源冲上 GitHub TOP1

☞ 9 年前他用 1 万个比特币买了两个披萨, 9 年后他把当年的代码卖给了苹果,成为了 GPU 挖矿之父

17 岁的程序员告诉你关于编程的 7 个重要教训!

Bert时代的创新:Bert在NLP各领域的应用进展 | 技术头条

Lambda 表达式有何用处?

Python编写循环的两个建议 | 鹅厂实战

漫威金刚狼男主弃影炒币了?

☞“是!互联网从此没有 BAT!”

你点的每个“在看”,我都认真当成了喜欢

微软删除最大的公开人脸识别数据集,只因员工离职?!相关推荐

  1. 苹果宣布加入CNCF;华为要求美国运营商支付专利费;微软删除最大的公开人脸识别数据集...

    戳蓝字"CSDN云计算"关注我们哦! 嗨,大家好,重磅君带来的[云重磅]特别栏目,如期而至,每周五第一时间为大家带来重磅新闻.把握技术风向标,了解行业应用与实践,就交给我重磅君吧! ...

  2. 【每日新闻】微软悄然删除世界上最大的公共人脸识别数据库

    点击蓝字 关注我们 更多精彩,请点击上方蓝字关注我们! 每日新闻播报 第06-11期 1 趋势洞察 刘庆峰:未来10年将看到三大不可阻挡的趋势 科大讯飞董事长刘庆峰在在科大讯飞20周年之际的内部线中表 ...

  3. 人脸识别数据集精粹(上)

    人脸识别数据集精粹(上) 人脸识别 人脸检测和关键点检测都是比较底层的任务,而人脸识别是更高层的任务,它就是要识别出检测出来的人脸是谁,完成身份比对等任务,也是人脸领域里被研究最多的任务. 1.1 人 ...

  4. 人脸识别数据集精粹(下)

    人脸识别数据集精粹(下) 人脸检测数据集 所谓人脸检测任务,就是要定位出图像中人脸的大概位置.通常检测完之后根据得到的框再进行特征的提取,包括关键点等信息,然后做一系列后续的分析. (1) Calte ...

  5. 【数据集NO.3】人脸识别数据集汇总

    文章目录 前言 一.IMDB-WIKI人脸数据集 二.WiderFace人脸检测数据集 三.GENKI 人脸图像数据集 四.哥伦比亚大学公众人物脸部数据库 五.CelebA人脸数据集 六.美国国防部人 ...

  6. python构造自定义数据包_构建自定义人脸识别数据集的三种训练方法

    在接下来的几篇文章中,我们将训练计算机视觉+深度学习模型来进行面部识别.在此之前,我们首先需要收集脸部数据集. 如果你已经在使用预先准备好的数据集,比如Labeled Faces in the Wil ...

  7. 南京大学发布WebCaricature漫画人脸识别数据集

    近日,南京大学推理与学习研究组(R&L Group)发布了一个新的漫画人脸识别数据集 WebCaricature.该数据集包含了 252 个名人的 6042 幅漫画图像以及 5974 幅人脸图 ...

  8. 人脸识别数据集整理以及下载

    人脸识别数据集整理 下方是整理的人脸识别数据集列表,有需要的小伙伴下载获取,仅限学习交流,不能用作他处,感谢理解. 下载链接:https://download.csdn.net/download/m0 ...

  9. 人脸识别数据集的建立及应用

    目录 一.相关文件下载及配置 二.数据集的建立 1.录入图片 2. 提取每张图片的特征值和特征均值 三.应用 四.参考 一.相关文件下载及配置 dlib 的配置 参考python3+opencv3.4 ...

最新文章

  1. docker 与tomcat整合
  2. ue编辑器拖拽上传图片_editor.md实现拖拽剪切复制粘贴上传图片,文件插件
  3. python 梯度下降_Python解释的闭合形式和梯度下降回归
  4. python读取二进制数据转整形,在python中读取二进制数据(替换C代码)
  5. spring-boot-maven-plugin多模块install问题解决办法
  6. 【linux】常用网络操作
  7. validators配置要点及No result defined for action报错解决方案
  8. Atitit  自动化gui 与 发帖机 技术
  9. 360安全卫士加速球误关闭某个应用软件
  10. 中间件学习——J2EE中间件四步曲
  11. cpu高对计算机有什么影响吗,电脑CPU性能高低有什么影响 怎么提高电脑CPU性能...
  12. Red5服务器搭建,流媒体rtmp推流实现H5在线直播以及遇到的坑
  13. 双系统linux开机黑屏,解决双系统中ubuntu开关机异常,黑屏,出现“nouveau , SCHED_ERROR”字样等的问题...
  14. 高一到高三计算机笔记,高中数学笔记总结高一至高三,很全.doc
  15. 美国国土安全部试图商业化的八种网络安全新技术
  16. 【react】react18的学习(三)--hooks组件
  17. 人大金仓数据库-表的定义
  18. hrbust 2155 钱多多【水题】
  19. 《MLB棒球创造营》:走近棒球运动·西雅图水手队
  20. SEO搜索引擎方案制作与数字货币交易所SEO方案模版制作

热门文章

  1. 《Webservice的应用与开发》学习笔记 ·002【XML进阶、XML Schema】
  2. android bitmap 替换指定颜色,Android 实现把bitmap图片的某一部分的颜色改成其他颜色...
  3. 矩池云上如何安装nvcc
  4. leetcode python3 简单题231. Power of Two
  5. leetcode python3 简单题119. Pascal's Triangle II
  6. CV2/PIL/Matplotlib读取图片注意事项
  7. php curl header 下载_PHP通过curl下载文件到浏览器
  8. Flutter基础—常用控件之文本
  9. 专用集装箱行业调研报告 - 市场现状分析与发展前景预测(2021-2027年)
  10. 揭晓AI算力池化的五大场景