ai项目实施步骤

这是官方的:人工智能(AI)并不是我们想要成为的公正的天才。

Google的母公司Alphabet(Alphabet)使用其最新的年度报告来警告称,对其产品的道德顾虑可能会损害未来的收入。 企业家Joy Buolamwini建立了Safe Face Pledge,以防止滥用面部分析技术。

在发现伦敦圣乔治医院医学院使用AI疏忽筛选出合格女性候选人的 AI数年后,去年秋天,在机器学习(ML)专家发现它做同样的事情之后,亚马逊取消了招聘工具。

我们已经了解了使用AI构建的技术像人一样有偏见的艰难方式。 如果不加以检查,用于训练此类产品的数据集可能会对最终用户造成生死攸关的后果 。

例如,假设有一辆自动驾驶汽车无法识别具有特定口音的人的命令。 如果用于训练为汽车提供动力的技术的数据集没有足够的语音变化和偏斜,则可能会导致无法将所有用户识别为完全人类。

这是个好消息:不可避免地会出现AI中的机器偏差,但这并不是无法解决的。 就像产品和开发团队致力于减少技术债务一样,您也可以减少道德债务的风险 。

您的技术团队今天可以开始执行以下六个步骤:

1.预先记录您的优先事项

减少产品中的道德债务将需要您在产品规格说明阶段回答两个关键问题:

  • 您将使用哪种公平方法?
  • 您将如何确定它们的优先级?

如果您的团队正在构建基于ML的产品,那么仅仅以错误的方式修复错误或从货架上撤出产品是不够的。 而是在您的技术规范中回答这些问题,以便从产品生命周期的开始就将它们包括在内。

2.在公平约束下训练您的数据

这一步很艰难,因为当您尝试控制或消除直接和间接偏差时,您会发现自己陷入了Catch-22。

如果仅针对非敏感属性进行训练,则可以消除直接歧视,但可以引入或加强间接偏见。

但是,如果为每个敏感功能训练单独的分类器,则会重新引入直接区分。

另一个挑战是,只有在训练模型后才能进行检测。 发生这种情况时,唯一的办法就是取消模型并从头开始对其进行重新训练。

为了降低这些风险,不仅要衡量敏感群体的平均接受和拒绝的强度。 相反,使用限制来确定您正在训练的模型中包含或不包含的内容。 当您这样做时,歧视测试表示为学习过程的限制。

3.在整个产品生命周期中监控数据集

开发人员根据他们希望模型会遇到的数据来构建训练集。 但是许多人并不监视他们的作品从现实世界中获得的数据。

机器学习产品的独特之处在于它们不断吸收数据。 新数据使支持这些产品的算法能够不断完善其结果。

但是,此类产品在部署中经常会遇到与生产中经过培训的数据不同的数据。 在不重新验证模型本身的情况下更新算法的情况也很常见。

如果您指定某人来监视算法中数据的来源,历史记录和上下文,则这种风险将降低。 此人应进行连续审核以发现不可接受的行为。

偏差应尽可能减少,同时保持产品规格中定义的可接受的精度水平。 如果检测到不可接受的偏差或行为,则应在第一次看到偏差之前将模型回滚到较早的状态。

4.使用加标签的训练数据

我们生活在一个触手可及的数以万亿计的图像和视频的世界中,但是大多数神经网络由于以下原因而无法使用此数据:大多数数据都没有标记。

标记是指图像中存在哪些类及其位置。 标记图像时,您可以共享存在的类以及它们的位置。

这听起来很简单-直到您意识到在人群的照片中包围每个人的形状或在高速公路上围绕每个人的盒子上需要花费多少工作。

即使您成功了,也可能会匆忙加标签并草率地绘制形状,从而导致训练有素的神经网络欠佳。

好消息是,更多产品即将投放市场,因此它们可以减少标记时间和成本。

例如, Brain Builder是Neurala的数据注释产品,它使用TensorFlow和Caffe等开源框架。 其目标是帮助用户管理和注释他们的训练数据 。 它还旨在将各种课堂示例引入数据集,这是数据培训中的另一个关键步骤。

5.使用各种课堂例子

培训数据需要正面和负面的课堂实例。 如果需要特定类别的对象,则还需要否定示例。 (希望)模拟算法在野外将遇到的数据。

考虑数据集中的“房屋”示例。 如果算法仅包含北美房屋的图像,它将不知道如何识别日本,摩洛哥或其他国际位置的房屋。 因此,其“家”的概念受到限制。

Neurala警告说:“大多数AI应用程序都需要标记成千上万张图像,并且由于数据标记成本与标记时间成正比,因此仅此步骤每个项目通常就要花费数万至数十万美元。”

幸运的是,2018年开源AI数据集的数量大幅增加。 Synced 总结了去年开放源的10个数据集(从多标签图像到语义解析)的有用信息。 如果您要按行业查找数据集,则GitHub 的列表较长 。

6.专注于主题,而不是上下文

监视ML数据集的技术领导者应致力于了解算法如何对数据进行分类。 这是因为AI有时会专注于训练集中几个目标共享的不相关属性。

让我们从下面的偏见训练开始。 狼被标记为站在雪中,但没有向模型显示狗的图像。 因此,当引入狗时,该模型开始将它们标记为狼,因为两只动物都站在雪中。 在这种情况下,AI过于强调上下文(白雪皑皑的背景)。

资料来源: Gartner (可为客户提供全面研究)

相比之下,这是Brain Builder的训练集中于受训狗的训练集。 监视自己的训练集时,请确保AI对每个图像的主体都赋予更多的权重。 如果您看到图像分类器指出以下狗中的一只是狼,则需要知道输入的哪些方面导致了这种错误分类。 这是检查您的训练集并确认数据正确的标志。

资料来源: Brain Builder

减少道德债务不仅是“正确的做法”,还可以减少技术债务。 由于程序偏差很难检测到,因此从生命周期开始就努力降低偏差,将节省您从头开始重新训练模型的需要。

这不是一件容易或完美的工作。 技术团队将不得不在公平性和准确性之间做出权衡。 但这是产品管理的本质:基于对产品及其最终用户的最佳折衷方案。

战略是所有强大产品的灵魂。 如果您的团队从一开始就考虑到公平性和算法优先级的衡量标准,那么您将在竞争中遥遥领先。


劳伦·马菲(Lauren Maffeo)将于 2019年4月8日至12日在西雅图的DrupalCon上 展示 从您的AI数据 集中 清除擦除无意识的偏见


接下来要读什么

翻译自: https://opensource.com/article/19/3/ethical-debt-ai-product-development

ai项目实施步骤

ai项目实施步骤_停止AI产品开发中道德责任的6个步骤相关推荐

  1. ai项目实施_公司在实施AI时必须避免的6个最大陷阱

    ai项目实施 The age of AI is upon us and many companies begin to start their AI journey and reap the full ...

  2. 产品开发中,TR是技术评审节点。

    在工作中,我们经常可以听到以下的声音: "我们不进行评审,是因为我们项目比较特殊,没有时间--". "我们的项目已经进行了测试,不需要再进行评审了". &quo ...

  3. 制造业产品开发中应用敏捷Scrum的思考 (下篇)

    上篇作者作为一名机械制造业的从业者,简单介绍了敏捷Scrum,并分享了一些对Scrum理念的理解.下篇以制造业产品开发中应用敏捷Scrum的思考进行了一系列的分享. 点击链接阅读: 敏捷Scrum理念 ...

  4. android开发分页查询,Android开发中实现分页效果的简单步骤

    分页加载在程序开发中是必备的,但是我们实现这个功能并不仅仅为了美观,用户体验也是很重要的,爱站技术频道下面就带大家了解Android开发中实现分页效果的简单步骤,感兴趣的小伙伴们参考看看吧! 具体内容 ...

  5. 产品开发中的经验教训

    产品开发是一项有趣的活动. 它涉及很多挑战和很多学习. 但是随着时间的流逝,我们将获得很多重要的经验教训. 在这篇文章中,我将根据我在产品开发方面的经验来分享一些经验. 寻求MVP而非完整的产品 根据 ...

  6. 如何在产品开发中讨论概念设计?

    每当你看到一辆在路上行驶的汽车.书桌上的笔记本电脑.工业包装生产线.医院设备.家用仪器和其他形式的概念设计创意产品会感到难以置信,这就是我们在产品开发中讨论概念设计的原因. 概念设计是一个尚未解决或到 ...

  7. 一个程序员产品开发中的吐槽和体会

    一个好的产品就是一个公司的方向,一个公司的未来.我根据我参与过的产品,谈谈一个程序员眼中产品开发的历程和体会. 开始初期阶段就是有公司的高层制定产品的方向,宗旨就是以用户为基础,以获得盈利为目的.当方 ...

  8. java GUI开发中关于卡片式布局详细步骤讲解

    java GUI开发中关于卡片式布局详细步骤讲解 JFrame frame = new JFrame("调课");//首先要申明一个JFrame. JPanel p1 = new ...

  9. 做AI项目,找有三AI,200+研发人员为你服务

    有三AI研发团队介绍 有三AI社区从2019年算起已经三年了,我们社区积累了大量算法人员,精心打造了由200余名专业人员组成的研发团队,一个专注于解决个人AI项目需求的专业社群. 有三AI研发团队成员 ...

最新文章

  1. CSMA/CD在全双工和半双工模式下的区别
  2. oracle中ci是什么意思,enq: CI - contention(附AWR)
  3. 五、“或许平凡与伟大,才是我们最美的样子。”
  4. MyBatis-Plus 高级功能 —— 乐观锁插件
  5. [转贴]电视和显示器的相关语言
  6. JMeter扩展JMeter插件获取更多监听器
  7. 最大化窗口设置_打开表格总是默认窗口最小化?适用Word、PPT等其他应用
  8. seaborn限制x与y的取值范围
  9. 【map分组求和】map集合根据某一key分组,再对某一key对应的所有值求和
  10. TypeScript学习(六):函数的定义及特性
  11. 红帽linux安装vnc,redhat企业7.0安装VNC
  12. DOS命令tree的用法
  13. 油猴(Tampermonkey)插件+脚本+IDM=百度网盘高速下载
  14. CST材料库相关问题
  15. 程序员值得收藏的41个电子书搜索网站
  16. Python基于django的图书商城管理系统毕业设计源码110938
  17. Echarts的x,y网格线样式
  18. lnmp安装tpshop
  19. 浮点数除0和余0、定义
  20. 电脑wps可以语音录入吗_怎样用word进行语音录入文字

热门文章

  1. kibana-7.3.0安装配置
  2. Python学习(14)--内置函数
  3. jQuery扩展实现复选框批操作
  4. Java 8 特性 – 终极手册(一)
  5. zzuliOJ 1894: 985的方格难题 【dp】
  6. LabView中,下拉列表和枚举有什么区别?
  7. 使用scriptreference使你的页面加载更快
  8. 动态链接库实现COM(COM技术内幕笔记之二)
  9. 事务学习总结(2)——spring事务
  10. 程序员的进阶课-架构师之路(9)-平衡二叉树(AVL树)