一文读懂机器学习中的模型偏差

http://blog.sina.com.cn/s/blog_cfa68e330102yz2c.html

在人工智能(AI)和机器学习(ML)领域,将预测模型参与决策过程的手段越来越常见,但难点是决策者需要确保这些模型不会根据模型预测做出偏见或者不公平的决策(有意或无意的歧视)。设想一下银行业、保险业和就业等行业,在确定面试候选人、批准贷款/信贷、额定保险费等环节中使用模型作为解决方案,如果最终决策出现偏差,对最终用户造成的伤害有多大?因此,对于研究ML问题的产品经理、业务分析师和数据科学家来说,理解模型预测偏差的不同细微差至关重要。

什么是ML模型的公平和偏差

机器学习模型中的偏差是由缺乏足够的特征和用于训练模型的相关数据集不全面引起的。鉴于用于训练模型的特征和相关数据是由人类设计和收集的,数据科学家和产品经理的偏见可能会影响训练模型的数据准备。例如:在收集数据特征的过程中,遗漏掉一个或多个特征 ,或者用于训练的数据集的覆盖范围不够。换句话说,模型可能无法正确捕获数据集中存在的基本规则,由此产生的机器学习模型最终将出现偏差(高偏差)。

可以通过以下几个方面进一步理解机器学习模型偏差:
• 缺乏适当的功能可能会产生偏差。这样的模型是欠拟合的,即模型表现出高偏差和底方差。
• 缺乏适当的数据集:尽管功能是适当的,但缺乏适当的数据也会导致偏见。大量不同性质的(覆盖不同场景的)数据可以解决偏差问题。然而,必须注意避免过度高方差,这可能会影响模型性能,因为模型无法推广所有类型的数据集。
如果发现模型具有高偏差,则该模型将被称为不公平,反之亦然。需注意的是,减少偏差的尝试可能会导致具有高方差的高复杂度模型。下图代表了模型在偏差和方差方面的复杂性。

注意:随着偏差的减小,模型越来越复杂,可能会出现高方差。

如何测试ML模型的公平/偏差

想要测试ML模型是公平的还是存在偏见的,首先要了解模型的偏见程度。常见的方法是确定输入值(与特征相关)在模型预测/输出上的相对重要性。确定输入值的相对重要性将有助于使模型不过度依赖于讨论部分的受保护属性(年龄、性别、颜色、教育等)。其他技术包括审计数据分析、ML建模流水线等。
为了确定模型偏差和相关的公平性,可以使用以下框架:
• Lime
• FairML
• SHAP
• Google What-If
• IBM Bias Assessment Toolkit

偏差的特征和属性

以下是导致偏差的常见属性和特征
• 种族
• 性别
• 颜色
• 宗教
• 国籍
• 婚姻状况
• 性取向
• 教育背景
• 收入来源
• 年龄
考虑到上述特性相关的数据可能导致的偏差,我们希望采用适当的策略来训练和测试模型和相关性能。

AI偏见在行业中的示例

银行业务:由于系统中引入的模型,其训练数据(如性别、教育、种族、地点等)存在偏见,导致一个有效的贷款申请人贷款请求被拒。或者一个申请人的贷款请求被批准,但其实他并不符合批准标准。
保险:因为预测模型数据集涵盖的特征不齐全,导致一个人被要求支付高额的保险费。
就业:一个存在偏见的机器学习模型,根据候选人的种族、肤色等属性错误的筛选候选人的简历,导致有资质的候选人被筛选掉,致使公司错失聘用优秀候选人的机会。
住房:在住房领域,可能会因为位置、社区、地理等相关数据,在引入过程中出现偏差,导致模型具有高偏见,对房价做出了错误的预测,最后致使业主和客户(买方)失去交易机会。
欺诈(刑事/恐怖分子):由于训练模型对种族、宗教、国籍等特征存在偏见,将一个没有犯过罪行的人归类为潜在罪犯且进行审问。例如,在某些国家或地区,某一宗教人士被怀疑成恐怖组织。目前,这变成了个人偏见的一部分,而这种偏见在模型中反应了出来。
政府:假设政府给某一特定人群设定政策,机器学习负责对这些计划中的收益人群进行分类。模型偏见可能会导致本应该享受相关政策的人群没有享受到政策,而没有资格享受相关政策的人却成为政策受益人。
教育:假设一位学生的入学申请因为基础的机器学习模型偏见被拒绝,而原因是因为使用模型训练的数据集不全。
金融:在金融行业中,使用有偏差的数据建立的模型会导致误批申请者的贷款请求,而违反《平等信贷机会法》。而且,误批之后,用户会对最终结果提出质疑,要求公司对未批准原因进行解释。

1974年,法律规定,禁止金融信用因为种族、肤色、宗教、性别等属性歧视任何人和组织。在模型构建的过程中,产品经理(业务分析师)和数据科学家需要尽可能考虑所有可能情况,确保构建模型(训练或测试)的数据的通用和准确,无意中的一丝细节就可能导致偏见。

总结
通过阅读本文,您了解了机器学习模型偏差、偏差相关的属性和特征以及模型偏差在不同行业中的示例。导致偏差的原因可能是因为产品经理或数据科学家在研究机器学习问题时,对数据特征、属性以及用于模型训练的数据集概括不全面,导致机器学习模型无法捕获重要特征并覆盖所有类型的数据来训练模型。具有高偏见的机器学习模型可能导致利益相关者采取不公平/有偏见的决策,会严重影响整个交易过程甚至是最终客户的利益。

来自 “ DZone ”,原文链接:http://blog.itpub.net/31545819/viewspace-2216526/,如需转载,请注明出处,否则将追究法律责任。

一文读懂机器学习中的模型偏差相关推荐

  1. 一文读懂机器学习中奇异值分解SVD

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 目录: 矩阵分解 1.1 矩阵分解作用 1.2 矩阵分解的方法一文 ...

  2. 原创 | 一文读懂机器学习中的shapley值方法

    作者:贾恩东本文约2000字,建议阅读9分钟本文为你介绍更公平分配利益权重的一种算法--Shapley值方法. 本篇文章是数据派一文读懂系列的新年第一篇原创,在这里祝贺大家新年学业有新成就,生活有新气 ...

  3. 独家 | 一文读懂机器学习中的贝叶斯统计学

    作者:Matthew Stewart, PhD Researcher 翻译:吴金笛 校对:丁楠雅 本文约4300字,建议阅读15分钟. 本文主要是向新手介绍贝叶斯方法并将其与频率方法进行比较. 你有没 ...

  4. 一文读懂机器学习中的贝叶斯统计学

    作者:Matthew Stewart, PhD Researcher  翻译:吴金笛  校对:丁楠雅 本文约4300字,建议阅读15分钟. 本文主要是向新手介绍贝叶斯方法并将其与频率方法进行比较. 你 ...

  5. 一文读懂机器学习中的正则化

    来源:Poll的笔记 本文约2600字,建议阅读5分钟 还在被正则化困扰?本文为你答疑解惑! 目录 LP范数 L1范数 L2范数 L1范数和L2范数的区别 Dropout Batch Normaliz ...

  6. 收藏 | 一文读懂机器学习中的正则化

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:作者丨Poll的笔记 来源丨数据派THU 编辑丨极市平台 A ...

  7. 一文读懂机器学习的常用模型评价指标

    分类任务 TP,TN,FN,FP 这是个很直觉的分类,T在开头说明这个是完全正确的.F开头就说明是完全错误的. 真正例(True Positive, TP):被模型预测为正的正样本: 假正例(Fals ...

  8. 【深度学习】一文读懂机器学习常用损失函数(Loss Function)

    [深度学习]一文读懂机器学习常用损失函数(Loss Function) 最近太忙已经好久没有写博客了,今天整理分享一篇关于损失函数的文章吧,以前对损失函数的理解不够深入,没有真正理解每个损失函数的特点 ...

  9. 一文读懂SpringBoot中的事件机制

    一文读懂SpringBoot中的事件机制?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法. 要"监听"事件,我们总是 ...

最新文章

  1. 文曲星猜数游戏的非TDD实现
  2. JDK 是如何判断两个对象是否相同的?判断的流程是什么?
  3. 框架升级后某个类型所在程序集发生转移,应用还能正常运行吗?
  4. 2021-06-15
  5. html 引入wav,如何通过javascript/html5播放wav音频字节数组?
  6. S7-200SMART案例分析——伺服接线(二)
  7. MAX30102 模拟IIC读取程序(C语言)
  8. 初学者如何快速入门深度学习?
  9. 档案管理学川大972 | 档案信息资源开发与利用
  10. 企业邮箱设置,企业邮箱服务器怎么设置?
  11. fdisk:Linux 下管理磁盘分区的利器
  12. 《计算机系统与维护》— CPU的主要技术指标
  13. Descriptors cannot not be created directly
  14. 阿里云服务器的ECS和RDS和OSS和SLB是什么意思?
  15. 激光计算机基本原理,技巧:三分钟了解激光雕刻机的工作原理
  16. kindle只显示电池加感叹号,该怎么办呢 !
  17. 竞彩足球混合过关赔率API调用示例代码2020版
  18. 408计算机组成原理历年真题
  19. SuperPoint特征检测算法TrainEvaluate教程
  20. js大数字类型(超过16位)失真问题

热门文章

  1. java对象序列化克隆_JAVA 对象克隆和序列化
  2. 就在明天!对话晶泰科技赖力鹏:AI制药独角兽的崛起之路
  3. 微软亚研院副院长周明:从语言智能到代码智能
  4. 图灵访谈:柳泽大辅谈如何想出好创意
  5. COCO API的克隆 - http://cocodataset.org/
  6. TensorFLow能够识别的图像文件,可以通过numpy
  7. 清北顶会学霸:“表情”与“认知”引发的科学思辨 | 清华AI Time PHD
  8. 机器学习算法清单!附Python和R代码
  9. 《大数据系统基础》课程实践项目中期答辩顺利举行,清华持续探索大数据人才教育创新之路
  10. 解读万方学术检索——SimCSE、Sentence-BERT…