机器学习的教训:5家公司分享的错误经验

http://blog.itpub.net/29829936/viewspace-2286686/

2018-12-27 13:23:41

 

机器学习也可能会出现严重的问题,以至于可能会让你后悔当初如此匆忙地采用它。

机器学习是当下的热门技术之一,许多业务和技术高管都在争相了解他们的组织可以如何参与其中。如果操作得当,机器学习可以帮助您创建更有效的销售和营销活动,改进财务模型,更轻松地检测欺诈,提高设备的预测性维护,好处不一而足。

但是机器学习也可能会出严重的错误,让你悔不该当初。根据采用机器学习的公司的实际经验,这里有五种机器学习可能出错的方式。他们分享了他们的经验,希望你可以吸取经验以避免同样的失败。

教训1:错误的假设使机器学习偏离了轨道

Projector PSA是美国一家设计和制造专业服务自动化软件的公司,并帮助咨询公司经营业务。当它试图用机器学习来预测人员配置计划的差异时,它惨痛地吸取了这一教训。

因为咨询公司里面都是专业的、训练有素的顾问,能有效地利用他们的才能,所以公司经常需要雇佣项目经理来评估和预测他们项目的人员需求。

然后,他们跟踪顾问花在每个项目上的时间,以便向客户收取费用。如果组织在单一系统(例如专业的服务自动化工具)中同时管理这两项活动,则有一些明显的优势,例如能够将预测与实际时间进行比较,从而了解不同的项目经理在规划方面的准确性。

Projector PSA的首席运营官Steve Chong回忆说,该公司与一位客户开始了一项研究,该客户雇佣了数百名的项目经理。它建立的模型比较了在不断增加的规划范围内实际工作的平均小时数与预测小时数之间的差异。它还在几个月的时间里研究了项目经理预测的一致性以及可变性。

也就是说,如果在一周内预测过高,而在下一周预测过低(高可变性),Projector PSA希望知道这两者是否能够相互抵消,让预测的平均值差异很小,或者说方差很小。

“最初的前提是低方差和低可变性是好的,而高方差和高可变性是坏的,”Chong说。基于这一前提,Projector PSA实现了一种机器学习算法,将项目经理分为不同的群体,比如“囤积者”和“乐观主义者”,基于这些数据,该算法使用公司项目经理的样本作为训练集。

然后,公司让机器学习算法根据学到的知识对剩下的项目经理进行分类。事实证明,它将一些公司最有经验和受过良好培训的项目经理列为了最糟糕的违规者,因为他们具有高的方差和高的可变性。

他说:“事实上,这些项目经理是公司能够针对那些已经陷入困境的项目提出解决方案的人,他们希望这些项目能够得到控制。”

类似地,最初的机器学习算法对一个项目经理的评价很高,因为她的方差和可变性几乎为零。但事实证明,她将预测的时间发送给她的团队,隐含着一种期望,即他们会将这些时间报告为他们实际工作的时间。Chong表示,这导致了她从未超出预算或出现预算不足的局面,但这样做实际上鼓励了她的团队以不利于大局的方式行事。

“这些错误不是机器学习算法本身造成的,而是我们最初训练它们时的假设造成的,”Chong说。“它们只是还原了完全依赖于数据而没有充分了解数据所代表的现实。”

一旦该公司训练其机器学习算法识别了这些新的配置文件,它就会觉得它能更好地反映现实。

教训2:无监督的机器学习可能会有意想不到的偏差

虽然许多任务可以通过机器学习来完成,但是因为有些情况在项目开始时并没有被考虑到,从而导致机器学习产生了错误的结果。这就是巴西金融服务公司Mejor Trato的遭遇,该公司将机器学习作为人力资源部门数字化转型的一部分。

该项目涉及让潜在的新员工通过实时聊天和使用公司内部开发的机器学习聊天机器人来回答一系列问题。

最初使用聊天机器人时出现了两个关键问题。一个是要求求职者填写了错误的个人资料/职业表格。另一个问题是,给出了与人力资源员工会议重叠的面试时间,这意味着人力资源员工无法根据需要监控聊天机器人。

CTO Cristian Rennella表示,在最初几周,HR团队中的一些人需要对每一次对话进行监控,以便在必要时纠正机器人,这一点至关重要。“我们犯了一个错误,以为一切都解决了,没有监督就离开了聊天机器人,”她说。教训是“不要忘记在几个月内持续监控聊天机器人的全职工作。”

由于没有对聊天机器人进行微调,该公司断定,收集到的数据中有10%是错误的。

Rennella说:“机器学习在一开始可能会对90%的答案有用,但是剩下的10%应该由人工监督来修正算法。”随着时间的推移,可用性将从90%增加到99%,“但我们不能停止关注可能出现的偏差甚至新情况,当我们开始这个项目时,这是出乎意料的,”她说。

教训3:糟糕的数据标注会损害机器学习的结果

俄罗斯的两家关联公司Ashmanov神经网络和SOVA(智能开放式虚拟助理)在为其商业客户开发基于机器学习的产品。其内容包括了视频分析、自然语言处理、信号处理和神经网络。

两家公司的首席执行官Stanislav Ashmanov表示,公司在机器学习方面遇到的最大问题之一是基于标签难度的糟糕数据。 “提供高质量的数据标签是非常困难的,”Ashmanov说。“通常情况下,从事数据标识工作的人都很草率,因为他们经常只是匆忙地工作着。更重要的是,以一种每个人都能以同样的方式和理解任务的方式来传递任务是非常困难的。”

因此,这些数据可能包含多个标记的样本,比如图片中错误识别的轮廓,这些样本对训练后的神经网络的性能多少产生了一些影响。

在短时间内收集所需的大量数据也很有挑战性。Ashmanov说,数据收集可能需要几个月的时间。此外,从公开渠道收集的数据,比如在互联网上找到的数据,并不总是能够准确地反映现实。例如,在工作室或实验室拍摄的照片可能与现实生活中的街景或工厂生产单元快照截然不同。结果,这样训练出的神经网络的性能会很低。

作为客户项目的一部分,当公司训练神经网络来识别在线自拍中的眼镜时,就出现了一个可能出错的例子。他们从社交媒体上收集了一些照片并贴上标签。Ashmanov说,神经网络的表现质量很低,因为它把眼睛下面有黑眼圈的人误认为戴着眼镜。

另一个客户提交了一个城市的两幅卫星图像。任务是在图像中标记汽车,并教神经网络识别它们并计算它们的近似数量。在这个例子中,问题是神经网络将建筑屋顶上的壁架也识别为汽车,因为它们在外观上相似——它们都是小的、矩形的,而且大多是深色的。

“这一切都取决于对特殊案例的仔细研究,创建启发式方法,以及改进初步数据处理和后处理证明检查,”Ashmanov说。

教训4:过于细微的分类问题可能会混淆机器学习

Casepoint是美国一家为法律行业和其他市场提供电子发现技术的公司,它也经历了机器学习算法的缺陷问题。该公司使用机器学习来进行文档分类和预测分析。通过使用这项技术,法律团队可以大大减少审查和分类文件的时间。

首席战略官David Carns表示,利用机器学习对文件进行分类是有效的,但并非完美无缺。该公司发现的一个弱点是,人们会过度依赖机器学习来解决微妙、复杂的分类问题。

例如,在法律领域,机器学习文档分类器经常用于识别响应“生成文档请求”的文档。甲方要求提供与特定主题或内容相关的文档,乙方可以使用机器学习文档分类器进行分类来帮助筛选文档存储库以获取响应文档。

Carns说,这种方法非常有效,律师已经开始定期使用这种技术来辅助审查(TAR)文件。“这种成功导致人们希望能够盲目地使用机器学习文档分类器来进行更细微的分类,例如识别受律师-客户特权保护的文档,”他说。

虽然使用机器学习对文档分类器进行特权文档内容的训练很容易,但是如何使文档具有合法特权在很大程度上取决于文档的受众、保密性、接收时间以及与法律咨询或诉讼的关系。Carns说,大多数机器学习文档分类器无法对这些额外的上下文线索进行充分分类。

Carns说:“这并不意味着机器学习文档分类器不能帮助对潜在的特权文档进行选择和分类。但法律专业人士不应仅仅依靠机器学习来确定特权。”他说,如今,人类律师需要手动审查潜在的特权文件,以便最终决定是否适用法律特权。

教训5:测试/训练数据的污染可能会影响机器学习

美国自动化公司Indico多年来一直在为客户提供企业人工智能和深度学习服务,它不断遇到的最大问题之一是机器学习测试和训练数据的污染。

CTO Slater Victoroff说,一个客户正在创建一个模型来确定一条新闻是否会影响其股价。由于很难准确地确定影响时间,所以公司创建了一个模型来预测第二天的影响。

“他们没有意识到的是,他们忽略了确保测试/训练数据完全分开的数据科学基础,”Victoroff说。“因此,在预测第二天的影响方面,他们给出了接近100%的准确率,而实际上,这个模型并不会比随机的模型更好。”

另一次体验则涉及到一名客户查看其内部自然语言处理( NLP )系统。客户有一个团队,多年来一直在为机器学习模型创建和更新功能,并根据同一组搜索结果不断测试这些功能。该团队也经历了测试/训练数据污染的影响。Victoroff说:“如果你看到你的测试错误就改变你的算法来改进你的测试错误,你的数字就不再准确了。”

在一些特殊情况下,人们对该问题的理解往往不足。在内部,该模型对于特定任务实现了接近100%的准确性。“但在生产过程中,该系统往往无法正常运行,因为他们无意中污染了他们的结果,”Victoroff说。“任何组织在机器学习中最关键的错误都是测试/训练数据的污染问题。”

机器学习的教训:5家公司分享的错误经验相关推荐

  1. 面试了8家公司,他们问了我这些机器学习题目……

    导读:今年年初以来,作者一直在印度找数据科学.机器学习以及深度学习领域的工作.在找工作的这三十四天里,他面试了8到10家公司,其中也包括初创公司.基于服务的公司以及基于产品的公司.作者希望他的面试经验 ...

  2. 机器学习面试(作者面了8家公司,它们问了如下题目......)

    导读:今年年初以来,作者一直在印度找数据科学.机器学习以及深度学习领域的工作.在找工作的这三十四天里,他面试了8到10家公司,其中也包括初创公司.基于服务的公司以及基于产品的公司.作者希望他的面试经验 ...

  3. 华为、中兴、阿里...硬件工程师分享24家公司的面试经历

    硬件工程师分享24家公司的面试经历 一.百度 "硬件与系统开发"岗位.总共有5道大题: 1.1)CMOS反向器及其说明:2)典型的计算机结构:3)VLIW和SIMD的区别与定义: ...

  4. 全球机器学习领域顶尖的16家公司

    来源:网络大数据   作者:Andy Patrizio 摘要:机器学习是众多公司颇感兴趣的一个新兴领域.本文介绍了几大领先的机器学习公司,包括老牌技术厂商和后起之秀. 机器学习是与人工智能一同急剧发展 ...

  5. 经验分享!java程序员面试十多家公司后的经验心得

    最近换了个公司,从三月底开始面,面到四月底,面了有快二十家公司.我是一个喜欢总结经验的人,每经过一场面试,我在回来的路上都会仔细回想今天哪些问题可以答的更好,或者哪些问题是自己之前没遇到过的,或者是哪 ...

  6. 干货丨机器学习/算法19家公司面试心经(内含薪资待遇)

    从今年的8月1号正式开启秋招到现在,过去三个多月了,发生了很多事情,经历了N多场笔试和面试,深深感慨到本硕双非的学生找算法岗的艰辛... 奇怪的数字: 对于我的整个秋招情况,有下面几组数据,我感觉很有 ...

  7. OncoImmunity成为获得机器学习新抗原预测技术临床应用CE-IVD标记的首家公司

    挪威奥斯陆 -- (美国商业资讯) -- OncoImmunity成为获得机器学习新抗原预测技术临床应用CE-IVD标记的首家公司.此项品质保障认证代表了个体化癌症疫苗及细胞疗法设计中提高新抗原预测技 ...

  8. BAT三家公司面经分享。只要一直努力,总有走运的那一次。

    前言:最近的半个月都在面试BAT三家公司,自己也比较幸运,面试畅通无阻.遇到的面试官人也都很好,尤其腾讯和阿里一面的面试官,点赞好评.我之所以面试比较顺畅除了些许运气外,还跟我个人准备有关,去年十二月 ...

  9. 算法工程师面试问题及资料超详细合集(多家公司算法岗面经/代码实战/网课/竞赛等)

    这里是算法江湖,传授AI武林秘籍. 资源目录: 一.算法工程师 Github.牛客网.知乎.个人博客.微信公众号.其他 二.机器学习 面试问题.资料.代码实战 三.深度学习 面试.资料.代码实战Pyt ...

最新文章

  1. 类属性的存储和this指针
  2. shell命令直接分区
  3. $http中文乱码|param乱码|angular提交后台乱码|
  4. java jtable应用源码_JTable的应用(一)
  5. oracle语句优化pl sql语句,求oracle插入初始数据pl/sql语句优化,该怎么处理(2)
  6. 使用生成器创建新的迭代模式
  7. Bash字符串处理(与Java对照) - 19.查找字符的位置
  8. 【剑指offer】面试题31:栈的压入、弹出序列(Java)
  9. 转帖:对linux中半增加半连接数量和防止服务器被dos***
  10. 提交日期表单状态操作_奇怪的知识又增加了,表单还能查寝?
  11. 机器人softmove_ABB 工业机器人 SoftMove功能介绍
  12. Linux之telnet命令
  13. 计算机的组成 —— 鼠标
  14. vba调JAVA并接收返回值_如何从VBA函数返回结果
  15. Unity3D图像后处理特效——Crease
  16. 红linux系统,红帽linux系统下载(iso)
  17. 一文详述 Python 中的 property 语法
  18. JavaWeb 如何从FTP服务器下载文件 页面如何获取到FTP服务器上的图片进行显示
  19. Sun Studio 12 Update 1:C++ 用户指南
  20. 【wxGlade学习】wxGlade环境配置

热门文章

  1. 2020人工智能全球女性榜发布,致敬这些杰出的女科学家
  2. 热门专业没那么难,文科生打开统计学的正确方式!
  3. 什么样的数学问题可以“下金蛋”?
  4. 【连载】Scala程序设计:Java虚拟机多核编程实战——简介
  5. 机器学习 | 数据从哪里找?手把手教你构建数据集
  6. 一个神经元顶5到8层神经网络,深度学习的计算复杂度被生物碾压了
  7. 对神经网络某一层做了小改进,效果却提升显著,可以发论文吗?
  8. 你的代码会被GitHub埋在北极,保存1000年,用二维码胶片备份人类文明
  9. android 叉叉助手 弹幕原理
  10. 最新:2022校友会中国大学排名发布!