作者 | 神经小姐姐

转载自HyperAI超神经(ID:HyperAI)

前几日,微软静悄悄地删除了一个公开的名人图片数据集。这个本为世界上最大的公开人脸识别数据集,现在已经不能通过微软的渠道访问。

这个数据集包含了 10 万张名人面部图像,常被用来作为人脸识别的训练。对于微软删除的真实原因,我们不得而知,但其背后牵扯到的数据隐私问题,包括人脸识别技术的安全规范,都值得一番深思。

在这次「静默」删除行为背后,又牵扯到了哪些问题呢?

微软想解决的麻烦:MS Celeb 名人数据集

MS Celeb 1M 数据集,最早是微软在 2016 年发布,其中共包含了 10 万个名人,近 1000 万张面部图片,而这些数据都是从网络上搜集而来。

从网络中 100 万个名人中,根据受欢迎程选出 10 万个,然后利用搜索引擎,跳出每个人的大约 100 张图片,就得到了这个庞大的数据集。

MS Celeb 数据集中的 Jobs 图片,其中绿色是年轻时代的图片,红色是合成图像

而这个数据集最初是用来服务比赛的。MSR IRC 是世界上最高水平的图像识别赛事之一,MS Celeb 1M 数据集最初就是这个赛事所用。

MS Celeb 1M 常被用来做面部识别的训练。但对于这些图片均来自网络,所以也曾受到了质疑。而微软则表示,是根据「知识共享许可 C.C 协议」,来抓取和获得这些图像的。

根据协议,可以将照片重新用于学术研究,(照片中的人物并不一定授权许可,而是版权所有者授权。)但微软发布数据集后,却并不能掌管它的使用。英国「金融时报」进行了一项深入调查,结果表明数据被大量的用在了多个企业测试中。

包括 IBM,松下,阿里巴巴,Nvidia 和日立等公司,都存在使用这个数据集的情况。

而这就涉及到了数据集使用的一些规范性问题,一位研究人员还指出,这涉及到人脸识别图像数据集的伦理,起源和个人隐私等问题。

微软为何悄然删除公开人脸识别数据集

微软已经在线上默默地删除了MS Celeb 1M,并没有特别的说明原因。

Github 上数据集的下载页面已经变成了 404

在金融时报的报道中,微软表示,「该网站主要目的是用于学术,由一名前员工负责运营,之后我们移除了该网站。」

我们都相信肯定有其他原因,可能也有数据集图片存在的问题。虽然微软称数据集均来自于公众人物的照片。但其中还包括少量非知名人物。这部分人脸照片的所有者,对微软使用他们的名称和图像信息,曾提出过质疑和批评。

还有技术人员推测,微软可能会因违反欧盟《通用数据保护条例》(GDPR)而删除数据,该法规于去年生效,旨在建立起数据安全的保护措施。

GDPR对个人信息的保护及其监管,达到了前所未有的高度

但微软表示,它们没有涉及到 GDPR 的条款,数据集相关网站退役只是因为,「曾经的竞赛已经结束」。

当然,此次微软移除 MS Celeb 数据集,并不妨碍它在学术研究等途径的正常使用。那些用于处理数据库的工具,现在也可正常访问。

常用公开数据集,也可能有隐私问题

在英国「金融时报」调查之后,还有另外两个学术单位也删除了相关的数据集:分别是杜克大学的 Duke MTMC 监控数据集,和斯坦福大学的 Brainwash 数据集。

关于数据集和隐私问题,这不是第一次进入人们的视野。在今年 1 月底,IBM 发布了百万级别的无偏见「人脸多样性」数据集,就曾引发了广泛的争议。

虽然 IBM 强调此举是为减少面部识别中的「偏见」问题,但数据集的来源,人物的是知情度等问题,都引发了不少质疑声。

有媒体还报道, IBM 表示会按照被摄影者的意愿,删除数据集里的相关照片,但都只是一面之词,并没有实际的行动。

今年 5 月,旧金山曾颁布法令,禁止政府机构使用人脸识别技术

对于数据集的采集和使用规则,还是一个很不太明确的区域,尤其是网络便利之后,很多机构都能轻易地获得大量图片,用于面部识别等用途。

其实,对于数据集涉及的隐私问题,解决方案可以很简单:关乎到用户个人隐私信息时,应保证用户的知情权,确保用户是否愿意贡献数据。

但似乎缺少的从来都不是方法,而是意识。

(*本文为 AI科技大本营转载文章,转载请联系原作者)

精彩推荐

参与投稿加入作者群,成为全宇宙最优秀的技术人~

6月29-30日,2019以太坊技术及应用大会 特邀以太坊创始人V神与以太坊基金会核心成员,以及海内外知名专家齐聚北京,聚焦前沿技术,把握时代机遇,深耕行业应用,共话以太坊2.0新生态。

扫码或点击阅读原文,既享优惠购票!

推荐阅读

  • 谷歌用1.2万个模型“推翻”现有无监督研究成果!斩获ICML 2019最佳论文

  • “篡改”视频脚本,让特朗普轻松“变脸”?AI Deepfake再升级

  • 从0到1:Web开发绕不开的WSGI到底是什么?

  • 24式,加速你的Python

  • 基于智能演化算法,Ta在重新定义知识社交

  • 回报率850%? 这个用Python优化的比特币交易机器人简直太烧脑了...

  • Spark精华问答 | RDD的核心概念是什么?

  • 阿里腾讯进击韩国互联网

  • 面试阿里技术岗,竟然挂在第4 轮……

你点的每个“在看”,我都认真当成了喜欢

10万人的1000万张图像,微软悄然删除最大公开人脸数据集相关推荐

  1. 最新!数字人民币横空出世,5万深圳人瓜分1000万红包!

    导读:数字人民币来了! 10月12日晚18时,"礼享罗湖数字人民币红包"摇号结果出炉,5万深圳人(无户籍限制)成为"幸运儿",瓜分1000万元数字人民币红包,每 ...

  2. 1000万个“AI名师”:用机器算法“解剖”应试教育 | AI聚变

    栏目简介:自动驾驶.教育.金融.医疗-如你所知,AI 如毛细血管一般正渗透到各行各业,人们为"AI+"可能带来的爆炸性能量而奔走呼号,但也更愿意看到脚踏实地的技术实现和商业落地.为 ...

  3. 36万类别、1800万图像,国内机构创建全球最大人脸数据集

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 这项研究基于现有公开人脸数据集创建了目前全球最大的人脸数据集,并实现了一个高效的分布式采样算法 ...

  4. 2018 中国人口研究,净增长500多万人。5年后注定人口负增长

    公报显示,年末全国大陆总人口139538万人,比上年末增加530万人,其中城镇常住人口83137万人,占总人口比重(常住人口城镇化率)为59.58%,比上年末提高1.06个百分点.户籍人口城镇化率为4 ...

  5. 银行存1000万,可以享受什么待遇?银行职员一不小心说了真相

    在我们日常生活中,基本上每个月都会和银行有交集.对于那些有钱人来说,如果一次性在银行存1000万,可以享受什么待遇?银行职员一不小心说出了真相,下面一起来看看吧! 对于一般人来说,去银行的存款机里存钱 ...

  6. 上线7天获得1000万保险用户 支付宝相互保究竟释放了怎样的信号?

    最近,相信大家的朋友圈都被支付宝推出的"相互保"刷频了吧!作为一款由蚂蚁保险和信美联合推出的相互保险新产品,在过去短短的7天时间内,相互保已经成功吸引了超过1000万用户的加入. ...

  7. 苹果公司投资1000万美元用于无温室气体铝冶炼

    加拿大总理贾斯汀特鲁多和魁北克总理菲利普Couillard加入苹果公司和工业制造商美铝和力拓的主要高管宣布一种新的铝冶炼工艺,从温室气体中去除. 美国铝业公司和力拓公司正在蒙特利尔成立一家名为Elys ...

  8. 【seeprettyface.com】数据集:黄种人/动漫人物/自拍照/网红脸人脸数据集

    完整数据集下载地址:http://www.seeprettyface.com/mydataset_page2.html --------------------------------   这一批数据 ...

  9. 1万亿次、10亿人、10亿张,科技给生活带来多少改变?

    云栖大会精彩进行中,今天,是 Day-2. 一早,阿里技术明星团闪亮登场! 贾扬清:阿里巴巴副总裁.阿里云智能计算平台事业部总经理.高级研究员 李飞飞:阿里巴巴副总裁.阿里云智能数据库产品事业部总经理 ...

最新文章

  1. Java进阶之自动拆箱与自动装箱
  2. 单片微型计算机系统应用和开发特点,单片微机原理及应用 徐春辉 电子工业出版社习题答案.doc...
  3. linux 磁盘扩容_当LINUX服务器磁盘空间不够时如何进行磁盘扩容?
  4. IntelliJ IDEA 关闭多余项目
  5. 【回环检测】如何理解loopClosing中的连续性检测
  6. 初识delphi-spring-framework
  7. iOS---UIScrollView实现相册循环
  8. 请求示例代码_新版云效:代码托管初体验
  9. 最常用的五种PDF阅读器,你都用过了吗!
  10. 深度学习 轻量级卷积神经网络设计综述
  11. 装机必备:微软常用运行库合集,2022版
  12. 扩展GridView控件(3) - 根据按钮的CommandName设置其客户端属性
  13. 钢板弹簧matlab,Matlab/GUI在钢板弹簧悬架设计中的应用
  14. 脚本精灵for+android,脚本精灵 v3.0.8
  15. 深入理解Java虚拟机读书笔记之垃圾收集器与内存分配策略
  16. 将字体变成红色加粗字体
  17. iphone红外传感器
  18. 2018程序员拜年的奇思妙想,涨姿势了
  19. 智慧环保可视化决策系统
  20. 7-44 [0508]个人所得税

热门文章

  1. 基于Virtual DOM与Diff DOM的测试代码生成
  2. 2015_8_21作业——有自翻译有复制他人的英语太差
  3. 转:入侵网站必备-sql server
  4. MOSS 2010:Visual Studio 2010开发体验(14)——列表开发之事件接收器
  5. java实现在pdf文档上填充内容
  6. Java XML解析工具 dom4j介绍及使用实例
  7. 关于计算机网络传输介质 下列叙述正确的是,《计算机基础》习题1-7
  8. ajax post 参数说明
  9. docker 笔记 (6)搭建本地registry
  10. 【自考】信息系统开发与管理(二)——章节详读