1 缺乏有经验的人才

截至2020年,数据科学和机器学习工程都是比较新的学科。目前仍然没有标准的方法来教授它们。一方面,大多数组织机构不知道如何聘请机器学习方面的专家,也不知道如何比较他们。市场上大多数可用的人才都是完成了一门或几门在线课程的人,他们并不具备丰富的实践经验。相当一部分劳动力在机器学习方面拥有肤浅的专业知识,这些知识是在课堂上的玩具数据集上获得的。许多人没有整个机器学习项目生命周期的经验。另一方面,组织机构中可能存在一些有经验的软件工程师,但他们不具备处理数据和机器学习模型的相应专业知识。

2 缺乏领导层的支持

正如2.4节关于两种文化的讨论,科学家和软件工程师常有不同的目标、动机和成功标准。一方面,他们的工作方式也非常不同。在一个典型的敏捷组织中,软件工程团队以短跑的方式工作,有明确的预期交付物,不确定性很小。

另一方面,科学家则是在高度不确定的情况下工作,并通过多个实验来推进工作。大多数这样的实验都不会产生任何可交付的成果,因此,没有经验的领导可能会认为没有进展。有时,在模型建立和部署后,整个过程不得不重新开始,因为模型并没有带来企业关心的指标的预期增长。这又会导致领导层认为科学家的工作是在浪费时间和资源。

此外,在许多组织机构中,负责数据科学和人工智能(AI)的领导,尤其是副总裁级别的领导,都具有非科学甚至非工程背景。他们不知道人工智能是如何运作的,或者对人工智能的理解来自于流行的资料,非常肤浅或过于乐观。他们可能会有这样的心态,认为只要有足够的资源、技术和人力,人工智能可以在短时间内解决任何问题。如果快速的进展没有发生,他们很容易责怪科学家,或者完全失去对人工智能的兴趣,认为人工智能是一种难以预测和不确定结果的无效工具。

很多时候,问题在于科学家无法将结果和挑战传达给上层管理人员。因为他们没有共同语言,而且技术专长水平也很不相同,即使是成功的成果,如果展现得不好,也会被视为失败。

这就是为什么在成功的组织机构中,数据科学家是很好的普及者,而负责人工智能和分析的高层管理者,往往具有技术或科学背景。

3 数据基础设施缺失

数据分析师和科学家与数据打交道。数据的质量对机器学习项目的成败至关重要。企业数据基础设施必须向分析师提供简单的方法来获取训练模型的高质量数据。同时,基础设施必须确保一旦模型在生产环境中部署,类似的高质量数据就可以得到。

然而在实践中,情况往往并非如此。科学家通过使用各种临时脚本来获取训练数据;他们还使用不同的脚本和工具来组合各种数据源。一旦模型准备好了,就会发现,通过使用现有的生产环境基础设施,不可能足够快地(或者根本不可能)为模型生成输入样本。第3章和第4章将广泛地讨论数据和特征的存储问题。

4 数据标签的挑战

在大多数机器学习项目中,分析师使用的是标签数据。这些数据通常是定制的,所以贴标签是针对每个项目专门执行的。一些报告 [5]显示,截至2019年,多达76%的AI和数据科学团队自行对训练数据贴标签,而63%的团队自行构建标签和注释自动化技术。

这导致熟练的数据科学家在数据标签和标签工具开发上花费了大量时间。这对于人工智能项目的有效执行是一大挑战。

一些公司将数据标签外包给第三方供应商。然而,如果没有适当的质量验证,这种标签数据可能变得质量低下或完全错误。组织机构为了保持各数据集的质量和一致性,必须投资于内部或第三方贴标员的正式和标准化培训。这反过来又会拖慢机器学习项目的进度。虽然根据同样的报告,外包数据标签的公司更有可能让他们的机器学习项目投入生产。

5 谷仓式组织和缺乏协作

机器学习项目所需的数据通常存在于一个组织机构内不同的地方,有不同的所有权、安全限制和不同的格式。在谷仓式组织中,负责不同数据资产的人员可能互不相识。当一个部门需要访问存储在不同部门的数据时,缺乏信任和协作会导致摩擦。此外,一个组织机构的不同分支有自己的预算,因此协作变得复杂,因为没有一方有兴趣将自己的预算用于帮助另一方。

即使在一个组织的一个分支中,也经常有几个团队在不同阶段参与到一个机器学习项目中。例如,数据工程团队提供对数据或单个特征的访问,数据科学团队致力于建模,ETL或DevOps致力于部署和监测的工程方面,而自动化和内部工具团队则为持续的模型更新开发工具和流程。任何一对参与团队之间缺乏协作,都可能导致项目被长期冻结。团队之间不信任的典型原因是工程师对科学家使用的工具和方法缺乏了解,科学家对软件工程的良好做法和设计模式缺乏了解(或完全不了解)。

6 技术上不可行的项目

由于许多机器学习项目的成本很高(因为专业技术和基础设施成本很高),一些组织机构为了“收回投资”,可能会将目标定得非常远大:彻底改变组织或产品,或者提供不切实际的回报或投资。这就导致了非常大规模的项目,涉及多个团队、部门和第三方之间的合作,并将这些团队推向能力极限。

因此,这种过于雄心勃勃的项目可能需要几个月甚至几年的时间才能完成。一些关键人物,包括领导者和关键科学家,可能会对项目失去兴趣,甚至离开组织。项目最终可能会被取消优先级,或者,即使完成了,也会因为太晚而无法进入市场。至少在开始的时候,最好把重点放在能够实现的项目上,涉及团队之间的简单合作,容易确定范围,并针对一个简单的商业目标。

7 技术团队和业务团队之间缺乏协调

许多机器学习项目在开始时,技术团队对业务目标没有明确的理解。科学家通常将问题框定为分类或回归,并设定一个技术目标,如高准确率或低均方误差。如果没有来自业务团队对业务目标实现情况的持续反馈(如增加点击率或用户保留率),科学家通常会达到模型表现的初级水平(根据技术目标),然后他们不确定是否取得了任何有用的进展,以及额外的努力是否值得。在这种情况下,项目最终会被搁置,因为时间和资源都消耗了,但业务团队并不接受这个结果。

本文摘自《机器学习工程实战》

本书侧重于对机器学习应用和工程实践的关注,是对机器学习工程实践和设计模式的全面回顾。全书共 10 章,在概述之后,分别从项目开始前的准备,数据收集和准备,特征工程,监督模型训练,模型评估,模型部署,模型服务、监测和维护方面进行讲解,最后做了简短的总结。

本书适合想要从事机器学习项目的数据分析师、机器学习工程师以及机器学习相关专业的学生阅读,也可供需要处理一些模型的软件架构师参考。

机器学习项目失败最大的原因的有这7种,你认同吗?相关推荐

  1. 机器学习项目失败的9个原因

    机器学习项目失败的9个原因 https://www.cnblogs.com/DicksonJYL/p/9633951.html 作者|Alberto Artasanchez 译者|刘志勇 编辑|Deb ...

  2. 软件项目失败的心理原因

    这是一篇有关软件工程领域中事务状态的评论文章.它讨论了程序员的实际挑战和实际职责.它把程序员分为四个类别:聪明.强盗.无助和愚蠢,另外两个类别是天真和无知.它讨论了程序员必须如何熟悉特定领域,不仅能够 ...

  3. 为什么获取crm服务器信息失败,CRM项目失败的七大原因

    国内企业经常只关注CRM的成功失败率,而很少关注为什么会成功?为什么会失败? 失败乃成功之母.研究失败原因,是为了避免更多的失败. 就目前而言,CRM尚为一项新技术,多数企业还处于初期建设状态.倘若企 ...

  4. 造成机器学习项目失败的7个原因

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 机器学习是一个伟大的工具,它正在改变我们的世界.在许多伟大的应用中 ...

  5. SOA项目失败十大原因及完善建议(转)

    最近有许多文章都讨论了为什么许多面向服务架构(SOA)行动都以失败告终.7月初,Burton集团副总裁兼研究总监Anne Thomas Manes 在其公司的动员大会上表示:"大多数SOA案 ...

  6. 讨论:有多少项目是因为程序的原因而失败的

    导读:外刊IT评论翻译了一篇<关于程序成本的讨论>以下是文章全部内容: 昨天在#SCNA(北美2010软件技术大会)的一个专题小组讨论会上,@chadfowler 提出了这个问题:&quo ...

  7. 多数大数据项目都以失败而告终的原因

    多数大数据项目都以失败而告终的原因 摘要:核心提示:几乎每个人的心目中,大数据就是企业IT部门的大大小小的结构化和非结构化数据,而且其量正在成倍的增长. [...] 核心提示:几乎每个人的心目中,大数 ...

  8. 「项目管理」项目失败的原因有哪些?

    项目的成功项目可能有这共通点,失败的项目也有,这些原因在某种程度上影响到项目的交付. 1.没有明确的项目目标 在目标没有明确的情况下开始工作很容易导致项目失败. 比如:你要出去旅游,你要确定目的地或者 ...

  9. 数据治理项目失败,90%都是被这29条骚操作搞垮的

    数字化时代,数据作为新的生产要素受到了各界前所未有的重视. 随着数据越来越多,怎么管好.用好数据,让数据发挥价值,成为了很多企业的一个难题,而且还是一个必选题! 这就引出了数据治理. 有效的数据治理可 ...

  10. 企业如何避免项目失败

    虽然项目管理并非纯科学,没法保证绝对成功.但项目经理的成功与否是相对而言.这如同三个人被一头狮子追,心里认为自己不可能跑得比狮子快的人自然会腿软,心里认为只要跑得比旁边那人快就有机会生存,自然就会加把 ...

最新文章

  1. PowerDesigner生成数据库建表sql脚本
  2. [Ljava.lang.String和java.lang.String区别
  3. opengl环境配置
  4. phpstrom正则替换
  5. 牛客网 【每日一题】5月9日 过河
  6. 任意阶魔方阵matlab程序,【精品】任意阶魔方阵算法(c语言)
  7. 6个重要的.NET概念:栈,堆,值类型,引用类型,装箱,拆箱
  8. Elasticsearch整理笔记(五)
  9. 常用类中的方法 —— java.util.Map
  10. 关于APP性能测试脚本录制的四种方法
  11. 如何自定义已有架构的css样式
  12. rtabmap_ros安装---43
  13. batch norm参数
  14. paip.解决 Gtk-CRITICAL **: IA__gtk_widget_show: assertion `GTK_IS_WIDGET (widget)' failed
  15. ASCLL码对照表01(控制字符)
  16. 区块链赋能数字交通建设 PPT
  17. Windows_5种方法解除Windows密码
  18. 中控考勤机-C#操作
  19. hdoj-2567 寻梦
  20. 《奇葩说》救猫还是救画,我做了认真的分析

热门文章

  1. python 词云图
  2. 安利一款全网最牛还是免费的群控软件
  3. pytho读文件| python文件去重 | python去除重复行
  4. 菜鸟shell脚本教程读后感
  5. 关于EmmyLua插件创建Lua脚本Require失败的问题
  6. snakeyaml java_JAVA使用SnakeYAML解析与序列化YAML
  7. pioneer软件VoLTE测试步骤,世纪鼎利Pioneer连接移动平台进行VoLTE测试操作说明综述...
  8. jq UI中的dialog属性设置
  9. PHP 类似time控件功能,最新火车头免费伪原创插件,多功能秒杀市面上所有同类工具...
  10. 基于51单片机+SYN6288语音播报