nlp自然语言处理

Natural language processing (NLP) is one of the biggest areas of machine learning research, and although current linguistic machine learning models achieve numerically-high performance on many language-understanding tasks, they often lack optimization for reducing implicit biases.

自然语言处理(NLP)是机器学习研究的最大领域之一,尽管当前的语言机器学习模型在许多理解语言的任务上实现了数值上的高性能,但它们通常缺乏优化以减少隐性偏差。

Let’s start from the beginning.

让我们从头开始。

What is bias in machine learning models? Essentially, it’s when machine learning algorithms express implicit biases that often pass undetected during testing because most papers test their models for raw accuracy. Take, for example, the following instances of deep learning models expressing gender bias. According to our deep learning models,

机器学习模型中的偏见是什么? 从本质上讲,这是机器学习算法表达隐性偏差的时候,该偏差通常在测试过程中未被发现,因为大多数论文都在测试其模型的原始准确性。 以下列表示性别偏见的深度学习模型为例。 根据我们的深度学习模型,

  • “He is doctor” has a higher likelihood than “She is doctor.” [Source]

    “他是医生”比“她是医生”的可能性更高。 [ 来源 ]

  • Man is to woman as computer programmer is to homemaker. [Source]

    男人是女人,计算机程序员是家庭主妇。 [ 来源 ]

  • Sentences with female nouns are more indicative of anger. [Source]

    带有女性名词的句子更能表示愤怒。 [ 来源 ]

  • Translating “He is a nurse. She is a doctor” into Hungarian and back to English results in “She is a nurse. He is a doctor.” [Source]

    翻译“他是一名护士。 她是匈牙利的一名医生”,而英语为“她是一名护士”。 他是一个医生。” [ 来源 ]

In these examples, the algorithm is essentially expressing stereotypes, which differs from an example such as “man is to woman as king is to queen” because king and queen have a literal gender definition. Kings are defined to be male and queens are defined to be female. Computer programmers are not defined to be male and homemakers are not defined to be female, so “Man is to woman as computer programmer is to homemaker” is biased.

在这些示例中,算法本质上是在表达刻板印象,这与“男人是女人,国王是王后”这样的示例有所不同,因为国王和王后都有字面上的性别定义。 国王被定义为男性,女王被定义为女性。 没有将计算机程序员定义为男性,而将家庭佣工未定义为女性,因此,“男人对女人就像对计算机编程员对家庭主妇一样”是有偏见的。

Other forms of bias other than gender bias are also prominent in our models. Here are examples of some other forms of bias:

在我们的模型中,除性别偏见外的其他偏见也很突出。 以下是一些其他形式的偏见的示例:

  • According to machine learning models, black is to criminal as Caucasian is to police. [Source]

    根据机器学习模型,黑人是罪犯,白种人是警察。 [ 来源 ]

  • According to machine learning models, lawful is to Christianity as terrorist is to Islamic. [Source]

    根据机器学习模型,合法对基督教来说就像恐怖分子对伊斯兰教一样。 [ 来源 ]

  • Tweets written by African Americans are more likely to be flagged as offensive by AI. [Source]

    非裔美国人撰写的推文更有可能被AI标记为令人反感。 [ 来源 ]

Now if you’re anything like me, you’re probably thinking: But how can machines be biased if they don’t have emotions?

现在,如果您像我一样,您可能会在想: 但是,如果机器没有情感,该如何偏见呢?

The key is that machine learning models learn patterns in the data. So let’s say our data tends to put female pronouns around the word “nurse” and male pronouns around the word “doctor.” Our model will learn those patterns from and learn that nurse is usually female and doctor is usually male. Whoops. By no fault of our own, we’ve accidentally trained our model to think doctors are male and nurses are female.

关键在于机器学习模型可以学习数据中的模式 。 因此,可以说我们的数据倾向于在“护士”一词旁加上女性代词,在“医生”一词旁加上男性代词。 我们的模型将从中学习这些模式,并了解护士通常是女性,医生通常是男性。 哎呀 。 毫无疑问,我们无意中训练了我们的模型,以为医生是男性,护士是女性。

So how do you address this? Like many problems, bias in NLP can be addressed at the early stage or at the late stages. In this instance, the early stage would be debiasing the dataset, and the late stage would be debiasing the model.

那么您如何解决这个问题? 像许多问题一样,可以在早期或后期解决NLP中的偏见。 在这种情况下,早期将对数据集进行反偏,而晚期将对模型进行反偏。

Tiny Images, a popular computer vision dataset, was withdrawn after it was discovered that the dataset was filled with social biases. Image from (Torralba et al. 2008).
发现流行的计算机视觉数据集Tiny Images充满了社会偏见后,就撤回了该数据集。 图片来自(Torralba et al.2008)。

Solution A: debias the datasets. For this to be successful, we first have to remove existing datasets that contain biases. For example, MIT recently withdrew a popular computer vision dataset called Tiny Images after learning that it was filled with social biases, including racist, misogynistic, and demeaning labels. This doesn’t mean we can’t use those datasets, but it means that we should remove them and edit them to account for bias. Similarly, new datasets must be checked to account for bias. As of now, the most agreed-upon way to debias datasets is diversifying the dataset. For example, if a dataset consistently puts female pronouns around the word “nurse,” it can be debiased by adding data in which nurses are male.

解决方案A:对数据集进行除偏。 为使此成功,我们首先必须删除包含偏差的现有数据集。 例如,麻省理工学院(MIT)在得知流行的计算机视觉数据集充斥着社会偏见之后,就撤回了该数据集,其中包括种族主义,厌女症和贬低性标签。 这并不意味着我们不能使用这些数据集,而是意味着我们应该删除它们并进行编辑以解决偏差。 同样,必须检查新的数据集以解决偏差。 到目前为止,最公认的去偏斜数据集的方法是使数据集多样化。 例如,如果数据集始终在“护士”一词周围放置女性代词,则可以通过添加护士是男性的数据来​​消除偏见。

Solution B: debias the models. This is done by modifying the actual vector-representations of words. For example, the Hard Debias algorithm and Double-Hard Debias algorithm modify the vector-representations to remove stereotyping-information (such as the link between “receptionist” and “female”) while maintaining useful gender information (such as the link between “queen” and “female”). These algorithms show promising results and are definitely a good step in addressing NLP bias.

解决方案B:对模型进行偏移。 这是通过修改单词的实际矢量表示来完成的。 例如, Hard Debias算法和Double-Hard Debias算法修改矢量表示以删除定型信息(例如“接待员”和“女性”之间的链接),同时保持有用的性别信息(例如“ queen”之间的链接) ”和“女性”)。 这些算法显示出令人鼓舞的结果,并且绝对是解决NLP偏差的好一步。

Do we still have time to address bias? Though NLP has progressed rapidly as a field, it’s never too late to address bias in NLP models. No matter how we address these bias issues, however, we still have to address them as early as possible, preferably before the models reach a real-world setting. Here’s an example where bias wasn’t caught, and a biased model ended up reaching real-world application and having big consequences:

我们还有时间解决偏见吗? 尽管NLP作为一个领域发展Swift,但解决NLP模型中的偏差永远不会太晚。 但是,无论我们如何解决这些偏差问题,我们仍然必须尽早解决它们,最好是在模型达到实际设置之前。 这是一个示例,其中的偏见没有被发现,有偏见的模型最终进入了现实世界的应用程序并产生了严重的后果:

COMPAS, an artificial intelligence system used in various states, is designed to predict whether or not a perpetrator is likely to commit another crime. The system, however, turned out to have an implicit bias against African Americans, predicting double the amount of false positives for African Americans than for Caucasians. Because this implicit bias was not caught before the system was deployed, many African Americans were unfairly and incorrectly predicted to re-offend.

COMPAS是一种在各个州使用的人工智能系统,旨在预测犯罪者是否有可能再次犯罪。 然而,事实证明,该系统对非裔美国人有隐性偏见,预测非裔美国人的假阳性数量是高加索人的两倍。 由于在部署系统之前并未发现这种隐性偏见,因此许多非裔美国人被不公平且错误地预测会再次冒犯。

Photo by Denise Jans on Unsplash
丹尼斯·詹斯 ( Denise Jans)在Unsplash上拍摄的照片

COMPAS, an AI to help law enforcement identify low-risk and high-risk criminals, turned out to be implicitly biased against African Americans. Image obtained from ProPublica, the organization that discovered these biases.

COMPAS是帮助执法机构识别低风险和高风险罪犯的AI,事实证明它隐含地偏向非裔美国人。 发现这些偏见的组织 ProPublica 获得的图像

Bias in NLP is a pressing issue that must be addressed as soon as possible. The consequences of letting biased models enter real-world settings are steep, and the good news is that research on ways to address NLP bias is increasing rapidly. Hopefully, with enough effort, we can ensure that deep learning models can avoid the trap of implicit biases and make sure that machines are able to make fair decisions.

NLP中的偏差是一个紧迫的问题,必须尽快解决。 让有偏见的模型进入现实世界的后果非常严峻,而且好消息是,解决NLP偏见的方法的研究正在Swift增加。 希望我们能够通过足够的努力来确保深度学习模型能够避免隐式偏差的陷阱,并确保机器能够做出公平的决策。

Further reading:

进一步阅读:

  • This group of researchers has a bunch of papers on bias in NLP.

    这组研究人员有大量关于NLP偏见的论文。

  • The full article by ProPublica on the biases in the COMPAS system.

    ProPublica撰写的有关COMPAS系统偏差的全文。

翻译自: https://towardsdatascience.com/bias-in-natural-language-processing-nlp-a-dangerous-but-fixable-problem-7d01a12cf0f7

nlp自然语言处理


http://www.taodudu.cc/news/show-4081800.html

相关文章:

  • 浅谈自然语言处理(NLP)学习路线(一)--- 概述
  • 自然语言处理(NLP)知识结构总结
  • 自然语言处理概述 NLP基本流程
  • 01 自然语言处理NLP介绍
  • 【NLP】自然语言处理的语料库与词库
  • 自然语言处理(NLP)概论
  • 【NLP技术】:NLP简单介绍
  • 【NLP】常见的自然语言处理任务和技术
  • 【NLP】NLP基础知识
  • 什么是 NLP (自然语言处理)
  • ubuntu/deepin安装配置mysql
  • 新公司入职 从零开始搭建环境
  • HashMap的七种遍历方式
  • Ubuntu 20.04 + mysql 8.0.27 用户名和密码修改(非常实用)
  • Mysql复制原理以及流程
  • fmt/core.h:1711:3: error: static assertion failed: Cannot format an argument.解决方案
  • Docker创建容器后无法update更新以及Job for docker.service failed because the control……错误
  • docker容器技术之虚拟化网络概述(四)
  • 通过 Docker 化一个博客网站来开启我们的 Docker 之旅
  • 【Spring Cloud 基础设施搭建系列】Spring Cloud Demo项目 整合Spring Data JPA
  • 让博客Docker化,轻松上手Docker
  • docke网络之bridge、host、none
  • 树形DP·1771仓库选址
  • width:100%和width:auto的区别
  • ViewportWidth,Width,MeasuredWidth
  • 详解meta-viewport标签中的width和initial-scale属性
  • viewport的width值应该怎么设置
  • Flutter Container设置 width 无效
  • css flex布局问题width:auto
  • canvas的width和style.width的区别

nlp自然语言处理_自然语言处理中的偏见nlp是一个危险但可解决的问题相关推荐

  1. nlp自然语言处理_自然语言处理(NLP):不要重新发明轮子

    nlp自然语言处理 介绍 (Introduction) Natural language processing (NLP) is an intimidating name for an intimid ...

  2. NLP之BoWNLTK:自然语言处理中常用的技术——词袋法Bow、NLTK库

    NLP之BoW&NLTK:自然语言处理中常用的技术--词袋法Bow.NLTK库 目录 输出结果 实现代码 输出结果 [[0 1 1 0 1 0 0 0 1 1 1 1 1 1 1 1 1 0 ...

  3. nlp自然语言处理_不要被NLP Research淹没

    nlp自然语言处理 自然语言处理 (Natural Language Processing) 到底是怎么回事? (What is going on?) NLP is the new Computer ...

  4. vue 随机显示数组的其中一个_两个显示器组建双屏其中一个屏幕出现重影解决方法...

    两个显示器组建双屏其中一个屏幕出现重影,通过测试,将两台显示器的缩放布局中的缩放比例调至一致并没有任何效果,那么还有什么原因可以导致这个问题?下面分享一下两个显示器组建双屏其中一个屏幕出现重影解决方法 ...

  5. rust进去弹出steam的对话框_电脑打开steam平台弹出一个英文框怎么办_电脑打开steam平台弹出一个英文框如何解决-系统城...

    现在玩绝地求生的人越来越多了,想要玩吃鸡游戏,首先要启动Steam平台.很多朋友下载Steam之后总提示无法在非英文文件夹运行,造成游戏无法继续运行,这要怎么解决?针对此疑问,小编来和大家说说一招解决 ...

  6. 《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记:08 自然语言处理中的机器学习方法

    08 自然语言处理中的机器学习方法 8.1 机器学习的基本概念 8.1.1 ML类型 8.1.2 ML 监督学习 8.1.3 无监督学习 8.1.4 强化学习 8.2 自然语言处理应用的开发步骤 8. ...

  7. 【NLP】从WE、ELMo、GPT到Bert模型—自然语言处理中的预训练技术发展史

    Bert最近很火,应该是最近最火爆的AI进展,网上的评价很高,那么Bert值得这么高的评价吗?我个人判断是值得.那为什么会有这么高的评价呢?是因为它有重大的理论或者模型创新吗?其实并没有,从模型创新角 ...

  8. NLP——day37 读论文:自然语言处理中的文本表示研究(综述类 2022 软件学报)

    自然语言处理中的文本表示研究 资源下载地址(原论文和笔记) INTRODUCTION chap1文本表示基础 1.1 什么是文本表示? 1.2 为什么进行文本表示 chap2 主流技术和方法 文本的离 ...

  9. vs需要迁移_赛尔笔记 | 自然语言处理中的迁移学习(上)

    点击上方"MLNLP",选择"星标"公众号 重磅干货,第一时间送达 作者:哈工大SCIR 徐啸 转载自公众号:哈工大SCIR 来源:Transfer Learn ...

  10. 自然语言处理情感分析matlab,自然语言处理中的情感分析

    原标题:自然语言处理中的情感分析 情感分析是一种常见的自然语言处理(NLP)方法的应用,特别是在以提取文本的情感内容为目标的分类方法中.通过这种方式,情感分析可以被视为利用一些情感得分指标来量化定性数 ...

最新文章

  1. Entity Framework教程
  2. 彻底理解webservice SOAP WSDL
  3. 创建应用服务器连接客户端
  4. redis连接池操作
  5. 最重要的7个Drupal内核模板文件
  6. python dll 混合_Python | 条线混合图
  7. AHK 中的字符串拼接和遍历操作
  8. idea关闭当前项目
  9. 如何减少mysql的连接时间_mysql连接的空闲时间超过8小时后 MySQL自动断开该连接解决方案...
  10. dubbo 2.8.4(dubbox)的jar包制作【添加到maven本地仓库】
  11. linux设备驱动原理与本质
  12. android移动应用开发实践教程,分享一些行业经验,成功入职阿里
  13. codesys 轴程序
  14. 应用数学软件测试题,数学与应用数学专业试题.doc
  15. 上周四的复盘 | 市场回暖了?割肉吗?
  16. 随笔—醒悟篇之考研调剂
  17. (附源码)springboot电商系统前端界面设计与浏览器兼容性研究 毕业设计 231058
  18. 高斯消元法求解方程组
  19. 学习Unity需要学习哪些编程语言
  20. pytorch distiller filter channel剪枝

热门文章

  1. 【读书笔记】-最优状态估计 Optimal State Estimation Kalman, H,, and Nonlinear Approaches 【Dan Simon】
  2. Java迷宫小游戏,老程序员花一天时间完成,你可以吗?
  3. 暗影精灵6触摸板驱动安装
  4. java publisher_Publisher/Subscriber(发布/订阅者)消息模式开发流程
  5. ROS学习之发布消息——Publisher_代码分析
  6. voyage java_Voyage:Java 实现的基于 Netty 的轻量、高性能分布式 RPC 服务框架
  7. Python计算思维训练——数组和曲线绘制练习(三)
  8. 别再费劲去找后台的前端框架了,2021 年就用 Fantastic-admin 吧
  9. Html5 视频播放之video标签的使用(包含注意事项,例如视频无法正常展示,只显示音频等问题)
  10. win10备份(win10备份的系统怎么还原)