本文来自AI新媒体量子位(QbitAI)

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

在性别和种族问题上,人工智能能够消除人类的偏见吗?

《科学》上发表的一项最新研究给我们泼了一盆冷水。普林斯顿大学信息技术政策中心计算机科学家Arvind Narayanan和他的同事们发现,机器学习算法会轻易模仿其训练数据集中隐含的偏见。

他们从网上用爬虫收集了220万词的英语文本,用来训练一个机器学习系统。结果,系统也会展示出了与这些文本相同的偏见。

在较为中性的例子中,人工智能系统更有可能将“花朵”和“音乐”与“愉快”联系起来,而“昆虫”或“武器”等不太愉快的词不太可能建立这种联系。但人工智能也也更有可能将欧洲裔美国人的名字与“快乐”联系起来,非洲裔美国人的概率较低。同样地,这种算法往往会将“妇女”和“女孩”与艺术关联,而不会与数学关联。

“在机器学习执行的所有感知任务中,都应该担心它是否会体现人类的偏见。”Narayanan说,“这可能会进一步创造一种反馈回路,延续这些偏见。”

为了展示自然语言学习所能引发的偏见,Narayanan和他的同事根据心理学家揭示人类偏见时使用的内隐联想测验(IAT),创造了新的统计学测验。他们的成果发表在2017年4月14日出版的《科学》杂志上,这也是首份展示“文字嵌入”(word embedding)中体现的人类偏见的科研成果。

所谓“文字嵌入”,其实是一种普遍应用于机器学习和自然语言处理过程的统计建模技术。文字嵌入需要了解一个人的语言在空间上的不同点,并通过重现几何关系的方式来分析这些点之间的语义关系。

犹他大学计算机科学家Suresh Venkatasubramanian表示,人工智能从训练数据集中学会了偏见或许算不上令人震惊的发现,但这项研究驳斥了之前的一个论调:人工智能天生比人类更加客观。

由于人工智能在硅谷和世界各地的科技巨头中十分流行,所以这项结果意义重大。

要理解潜在的影响,可能需要阅读一下普利策奖获奖文章《机器偏见》(Machine Bias),这个系列的文章展示了原本用来预测潜在犯罪分子的电脑程序是如何对黑形成偏见的。有鉴于此,一些研究人员考虑在部署机器学习算法的过程中,识别并减轻人类偏见所产生的负面影响。

“训练流程和训练数据的好坏决定了最终的算法。”Venkatasubramanian说,“它们不会生来就自动获得客观立场。”

哈弗福特学院计算机科学家Sorelle Friedler表示,这项新的研究迈出了重要的一步,揭示出各种机器学习中可能存在的语言偏见。作为机器学习公平、负责、透明小组的组织者,Friedler指出,过去的研究主要调查了已经使用的特定机器学习算法的偏见。

“我很喜欢这项研究,因为他们没有试图调查单一的‘活跃’系统,而是分析了很多活跃系统的一块基石。”他说。

Narayanan和他在普林斯顿大学及英国巴斯大学的同事首先采用了文字嵌入联想测验(WEAT),以此复制以往的心理学研究中的种族和性别歧视例子。但他们还开发了文字嵌入事实联想测验(WEFAT),不仅仅局限于文字联想。第二项测试显示,机器学习语言联想的统计学强度,与女性2015年在50种不同工作中占据的比例相关性极强。

就连研究人员都对语言使用和美国劳工部统计数据之间的强相关性感到意外。“完全根据语言使用来看,考虑职业与性别词汇的使用关系,我们发现女性在任何一个职位上的相关性都达到90%。”Narayanan说。

针对这项新研究开发的统计测试,不仅暴露了机器学习领域的潜在偏见问题,还可以成为一项有用的工具,用来分析特定社会偏见在文字发展史上的演变过程。正如研究人员证明的那样,这些测试也有助于心理学实验室测试所揭露的偏见与现实世界的实际影响之间的相关性。(Narayanan将此归功于他的同事多样化的学术背景,该团队包括机器学习专家Aylin Caliskan和认知科学家Joanna Bryson。)

使用机器学习技术——尤其是深度学习技术——的科技巨头和创业公司,都应该尽快克服其人工智能系统的潜在偏见。Friedler解释道,人们现在逐步意识到这个问题,并且开始展开针对性的讨论,但尚未就如何处理偏见达成系统性的一致意见。

可以考虑从数据集中去掉偏见因素,但可能因此失去一些有用的语言和文化意义。人们需要作出艰难的道德抉择,寻找具体的偏见和应对策略,避免这些偏见对日渐强大、越发普及的人工智能系统产生负面影响。

“我们需要判断哪些偏见在语言上有用,哪些会产生社会问题。”Friedler说,“如果我们认为存在社会问题,就应该有意识地移除这些信息。”

本文作者:李杉 
原文发布时间:2017-04-14

AI没有偏见?它们从人类的语言中学会了性别和种族歧视相关推荐

  1. 谷歌机器智能大牛:AI模型要真正理解人类语言,关键是「序列学习」

    来源:新智元 编辑:David 如果计算机给了你所有正确的答案,是否意味着它和你一样了解世界? 这是人工智能科学家几十年来一直争论不休的谜题.随着深度神经网络在与语言相关的任务中取得了令人瞩目的进步, ...

  2. Google I/O 2019 行纪 —— Google 要让 AI 消除偏见

    作者 | 袁滚滚,CSDN 特约记者 出品 | CSDN 资讯(ID:CSDNnews) 每年的五六月,是全球众多的开发者颇为期待的月份.因为在这两个月中,科技巨头们的年度开发者大会如微软的 Buil ...

  3. AI的艺术创造力超越人类?绝不是痴人说梦

    全文共6066字,预计学习时长12分钟 VR欧泊蝴蝶/Pamela Davis Kivelson 人类的艺术体验(绘画.音乐.雕塑.诗歌)往往融入了各种感官.联想.记忆和情感,并涉及人们所谓的&quo ...

  4. AI与偏见:从当代新“相面术”说起

    相面术,无疑是一门古老而又生命力旺盛的学问. 说它古老,是因为其历史悠久.源远流长.中国相面术的起源,最早可以上溯至氏族社会时期,到了春秋战国时期就已十分流行,<麻衣神相>是相面术的集大成 ...

  5. 【重磅】人工智能长篇报告:1.5万字告诉你AI的应用究竟对人类社会经济有哪些影响...

    雷锋网(公众号:雷锋网)按:本报告为2016年7月7日由白宫和纽约大学信息法律协会联合举办的"AI Now"人工智能研讨会内容之总结.文章来源 The AI Now Report, ...

  6. 语音和面部识别技术能帮助AI在情商上超越人类吗

    长期以来,我一直把研究情商作为一种业余爱好.直到最近,我依然相信,即使人工智能(AI)接手所有需要记忆和逻辑推理能力的任务之后,情商仍将是我们人类的核心优势之一. 在过去的几年里,我将主要精力放在研究 ...

  7. 斯坦福NLP名课带学详解 | CS224n 第19讲 - AI安全偏见与公平(NLP通关指南·完结)

    作者:韩信子@ShowMeAI,路遥@ShowMeAI,奇异果@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://ww ...

  8. 央视315让AI主播预热,人类主播会失业吗?

    今年315晚会多家科技公司被点名过堂,骚扰电话.网络贷款.电子烟--搜狗也在315晚会成功登陆央视,不过却有不同角色. 315晚会开播前,搜狗与央视财经频道联合推出的AI主播"姚小松&quo ...

  9. 阿里打破自然语言理解世界纪录,AI常识推理水平正在逼近人类

    https://www.toutiao.com/a6714097810150523400/ 近日,阿里AI在常识QA领域的权威数据集CommonsenseQA上刷新世界纪录,超过微软取得第一名,显著提 ...

最新文章

  1. 分离硬件和代码、稳定 API,PyTorch Lightning 1.0.0 版本正式发布
  2. php登录失败后,php – X尝试失败后阻止登录
  3. 把项目发到github
  4. 北大OJ百练——4073:最长公共字符串后缀(C语言)
  5. 关于SAP Cloud for Customer Cloud Application Studio登录失败的问题
  6. python网址太长_python中url太长怎么解决
  7. Linux上,最常用的一批命令解析
  8. 将pdf转换成excel能用的转换软件
  9. MATLAB打开USB摄像头的操作以及常见问题
  10. Adobe CS3教程安装问题
  11. 企业风险管理的基本流程
  12. iOS--HealthKit简单使用
  13. 微信公号DIY:一小时搭建微信聊天机器人
  14. python正则表达式代码_python正则表达式实例代码
  15. 好用的计算属性clac
  16. Unity组件:Lens Flare 镜头光晕
  17. 贪吃蛇项目Java实现
  18. 轻松完成word格式的接口文档
  19. 婴儿体重不用计算机怎么算,测量宝宝体重计算器
  20. 安装centos7系统 服务器安装系统

热门文章

  1. altium恢复所有默认设置_windows10技巧 恢复出厂状态的4种方法
  2. nodeJS 事件绑定
  3. 如何改变请求的host以及referer抓取做了host以及referer限制的接口数据
  4. 时序分析:HMM模型(状态空间)
  5. 安卓JNI使用C++类
  6. Boost正则表达式
  7. 微信小程序支付,带java源码
  8. [Django青铜修炼手册] 初识Django
  9. 自建Yum源并与科大开源镜像站进行同步
  10. 记一次mogodb占用cpu高问题