https://www.toutiao.com/a6689746284917555715/

只有不到20%的机器学习PoC(概念验证)项目能够顺利投产,而这其中的大部分也可能会止步于其方案的“产品化”阶段。从概念验证到实际产品,人工智能应用落地到底要跨越多大的鸿沟呢?来看看这篇文章怎么说。注意:文中可能存在“机器学习”和“人工智能”概念混用的情况,不必纠结于此。

今年,虽然不少公司都在部署人工智能解决方案,也取得了一定的成果,但只有少数公司做到了全面部署人工智能,从而为公司带来真正的附加价值。

据我所知,只有不到20%的机器学习PoC(概念验证)项目能够顺利投产,而这其中的大部分也可能会止步于其方案的“产品化”阶段。

PoC的困境

大多数公司首先通过概念验证(proof of concept , PoC)项目来证明人工智能方案可以削减成本,改善客户体验,或者在某种程度上形成业务差异化。

PoC通常采用相对简单的算法,训练数据也是即时可用的或内部标记的,其主要目标是证明可以用少量的数据训练算法以解决特定场景的问题。

如果PoC获得成功,那么项目将继续进入产品化阶段。

进入产品化阶段意味着AI项目将变得更加复杂。这个阶段不再需要证明该解决方案的有效性,而是要将AI项目集成到公司的基础架构中,并保证它在真实环境下能够很好地工作。

为了使项目取得成功,机器学习项目需要从一开始就将公司结构、客户、公司规模和内部工作流程等考虑在内。

PoC往往会影响系统基础架构的性能以及知识和数据管理等,这些都将阻碍它们进入下一阶段——产品化。在AI项目中,产品化阶段的困难程度往往容易被低估。在这个阶段里,系统的工作方式很有可能需要完全改变,并且当我们越来越接近解决方案的最终版本时,新的问题也会不时出现。

在人工智能集成的最后阶段,AI项目可能会跨多个业务线,甚至可能直面普通用户/客户,面临着来自企业级基础架构、安全性和技术支持等多方面的挑战。

产品:在现实生活中使用的系统。它不像PoC那样是为了测试某些东西是否有效,也不像用样本数据做的简单实验。它是用真实数据来解决现实问题的系统。

很多时候,AI方案提供商都未能证明其初始方案的有效性。为什么AI项目的实施过程会变成一场噩梦呢?其实,大多数时候,AI项目没能进入产品化阶段是因为以下因素:

  • PoC项目没有产生期望的结果
  • 运营成本过高
  • 操作过于复杂
  • 缺乏数据
  • PoC项目没能达到利益相关者的要求

比如,某公司有一个业务问题,刚好可以用人工智能来解决,但如果需要提供核心数据或必须使用新的工作流程,那么这个公司可能就会放弃该项目。实际上,在AI项目产品化之前,必须先处理好它与软件、数据安全和大规模的新的训练数据等一系列相关的问题。

另一个原因可能是低估了构建一个具有实际功能的AI所需的成本。将原型进行产品化需要很大的投资!公司管理层要确保他们能够负担得起。

机器学习的概念验证(PoC)是漫长实践过程中的第一步。当你将其扩展到实际规模的应用时,你需要站在更高的角度来看待所出现的问题。

为什么会失败?

AI项目的概念验证(PoC)路线图上存在某些挑战,比如数据的缺乏,法律上的问题,公司员工对AI相关应用的畏惧以及系统集成能力是否足够等,因此任何公司都必须在将模型产品化之前先分析相关影响因素。

在我看来,公司应该同时开展多个PoC项目,因为这样有助于了解公司的潜力,改善内部行为方式,快速终止那些没有前景的人工智能PoC,并发掘出最有前景的项目以便继续监控和投入资源。我看到有些公司指望用他们的第一个PoC来赚钱并且解决复杂问题,这么做十有八九会失败!

公司还应该考虑到,进行概念验证所需的技能与将其转化为产品所需的技能是大不相同的。如果没有一个支持AI集成的架构,那么即使是最有前景的项目也会夭折。

人工智能项目还需要得到管理层的支持,如果没有长期投资的恒心,AI应用就只能是小打小闹,永远达不到任何有意义的规模或实用性水平。这类项目的成功需要时间和耐心。

为了使PoC获得成功,必须进行广泛的研究,建立一个跨职能部门的团队,并调研和测试各种硬件规格,此外还可能需要请外部专家对模型进行微调。虽然我们在最初研究的2-3周内就做可以做出原型,但接下来的开发需要更长的时间,并且需要大量的资金和时间投入。

根据我的经验,一个好的PoC需要大约半个月时间。事实上,整个数据收集过程是非常耗时的。更不必说,大多数公司在提到使用AI都有惊奇的想法,但往往得不到对的数据。

举个例子,如果在做PoC的时候,算法可以识别在相同光线、距离和角度下拍摄到的人脸,那么在试点项目中该算法就需要适应不同的光线、距离、角度、肤色、性别,等等。这自然意味着更多的数据。

PoC中的机器学习模型所需的输入数据与产品中持续大规模的输入数据之间存在很大差别,能认识到这一点很重要,但这经常被公司或者项目组所忽视。

我在几个项目中使用了不一样的和不完善的数据集,这使我意识到:人们在将小规模的ML算法转移到生产过程中时,可能会大大低估为获取数据而投入的时间和精力,而这些数据是扩展原有ML算法所必不可少的。

关键之处在于将实际需求和POC数据集之间的“差距”最小化。因此,我强烈建议使用真实场景的数据。

构建一个可靠且相关的数据集需要很多时间。为了正确地训练一个预测模型,必须遵循特定的流程来生成符合标准的数据。

当PoC成功后,一些AI团队会考虑独立完成整个项目的数据准备工作。我相信,他们低估了公司提供所需数据的难度(信息孤岛,效率低下等)。在这一步,我们通常会开始了解公司的运作方式。

实际上,生产系统中会包含许多未知案例,训练算法会产生对大量数据的需求(通常是压倒性的)。

试点阶段

一个成功的POC将说服项目所有者交付试点阶段(a pilot phase)的资金。试点是POC与生产项目之间的一个项目步骤,组织不会关停任何其他系统或更改人员配置。在对算法进行调整和训练的过程中,试点与现有系统一起运行。这是一个必要的步骤,因为在此过程中会面临许多问题或工作流程挑战。

生产的持续时间在某种程度上是由生产所需的人工智能精度水平决定的。显然,一些项目需要更多的时间来达到一定的成熟水平(自动驾驶汽车等)。其他项目可以在明显较低的置信水平下带来积极的投资回报率(Return On Investment, ROI)。

大多数情况下,试点项目没有足够多样化的数据来进行大规模运作。

从PoC到产品

正如我们所说的,很少有项目团队能够成功地跨越这个阶段并继续下去。实际上,大多数项目从PoC到产品化需要大量不同的资源。在生产步骤中,当我们意识到可能存在的新的问题时,通常会发现项目需要更多的时间才能完全运行。此外,我们越多地涉及终端用户,就越发意识到PoCs离现实应用还有很远的距离。

PoC所有形式的数据建模都必须简化但又要反映真实情况,而在这个过程中,总会丢失一些真实性。这为ML带来了风险,因为实际数据可能比概念验证(POC)所用的训练数据更容易出现建模问题。

对此,明显的解决方案是为模型添加更多细节,并拥有更多字段、表格、关系等。但是,模型越精细,就越难以使用和理解。这也是建立在你可以获得更多数据的假设之下。我见过许多项目因为缺乏数据而失败,还有一些项目使用了数据增广技术(在图像识别项目中,这是一种减少过拟合的好方法)。

Source

部署常规的软件应用程序本就是困难的——但是如果软件是基于机器学习的,情况可能会更糟!ML具有一些特性,将使得大规模部署变得更加困难。

在我最近的一个项目中,我意识到一旦你的算法训练好后,它们就不会一直被使用。例如,你的客户/终端用户只会在需要的时候调用它们。

管理API调用的想法是关键。实际上,你需要确保免为不需要的服务器付费。一旦AI解决方案的运行成本过高,公司可能会忧心于继续使用它。

进入生产阶段后,从数据的角度来看,事情将开始变得更加复杂。除非算法的问题空间非常简单或是完全静态的,否则训练永远不会结束。问题空间在演变,新的使用案例也在不断变化,以及来自竞争对手的压力——他们也试图实施差异化ML策略,所有这些意味着组织必须使他们的模型胜任更加模糊的特定案例。而在已经很高的模型置信水平下,就训练数据而言,每1%的增量增长都相当昂贵。

信息系统中的AI集成

AI解决方案可能已准备就绪,但是还有一步工作要做。事实上,实际规模的实现还包括将AI与信息系统和架构连接起来。根据经验,我得出的结论是——人工智能部署中最大的问题是难以将认知项目与现有流程和系统进行集成。最佳选择是提供机器学习模型的API,或将其作为现有系统中的程序代码模块。

当涉及到AI项目时,无论是否成功,PoC都非常有用。我相信,通过一个特别的过程(数据分析,组织调整等),我们有可能增加PoC进入生产阶段的机会。

企业需要为与AI供应商的合作做好准备,这种合作方式应当既不会让企业的数据面临风险,也不会造成长期依赖,反而会增强其竞争优势。

人工智能落地之路:从概念验证到产品相关推荐

  1. 清华孵化、张钹加盟的这家公司,现在把“第三代人工智能”落地了

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 转载自:量子位 一家清华孵化的公司,最近"口出狂言"了. 回顾2020的A ...

  2. 人工智能落地,商业化比技术更重要

    近几年人工智能再次走到了风口浪尖上,大众.开发者.企业对人工智能的关注度都极速上升.从政府.学术界.企业界.投资界到创业者们,无一不将人工智能视为未来方向:而媒体铺天盖地的报道,更是让人工智能快速占领 ...

  3. 无人驾驶频频碰壁,AI产品落地之路为何走的如此糟心?

    无人驾驶在全球是炙手可热的技术,而身在其中的工程师们却在开发过程中屡屡遭遇瓶颈,还要面临很多来自社会各界的压力.时至2020年,硅谷的无人驾驶公司已达60多家,却仍然没有一个公司能将无人车正式规模性地 ...

  4. 一线专家谈2020年人工智能落地趋势

    来源:海豚大数据及人工智能实验室 转眼间,2019年只剩下不到两个月了.人工智能的热度依旧,只是在资本市场,看空的投资人也越来越多了.从当年大数据的发展趋势看,这种情况反而对产业发展是有利的.因为这意 ...

  5. 如何应对“吴恩达:人工智能落地最重要的挑战之一是小数据”的困境?

    这是傅一平的第302篇原创 作者:傅一平 个人微信:fuyipingmnb 众所周知,在数据量非常小的时候,深度学习的复杂网络无法取得很好的效果,辩证的讲,数据不是一种无限的资源,而人工智能所需的数据 ...

  6. 人工智能产业化之路何去何从?清华博士、一流科技CEO在线分享,快来报名 | 量子位·视点...

    伴随着深度学习.大数据和GPU算力的发展,人工智能产业在最近10年经历了一段突飞猛进的发展,吸引了学界.产业界及资本的极大关注,各行各业都对AI抱有"灵丹妙药"一般的期待. 最近一 ...

  7. 2019年机器学习:追踪人工智能发展之路

    2019年机器学习:追踪人工智能发展之路 https://www.cnblogs.com/DicksonJYL/p/9809748.html [导读]"智能助理"的时代已经到来了. ...

  8. AI:人工智能领域之AI基础概念术语之机器学习、深度学习、数据挖掘中常见关键词、参数等5000多个单词中英文对照(绝对干货)

    AI:人工智能领域之AI基础概念术语之机器学习.深度学习.数据挖掘中常见关键词.参数等5000多个单词中英文对照(绝对干货) 导读      本博主基本收集了网上所有有关于ML.DL的中文解释词汇,机 ...

  9. 大龄程序员的人工智能学习之路

    我大学本科学的并非计算机相关专业,毕业后在外面工作了三年之后,考研重返校园,专业是计算机应用,算是半个科班出身.硕士毕业之后留在了武汉,然后就一直在武汉工作.在二线城市工作有一件比较尴尬的事情,就是跳 ...

最新文章

  1. 重磅!Facebook公布PyTorch 1.0预览版!
  2. 小红书去水印代码_小红书关键词排名如何进行优化
  3. 《Linux内核设计与实现》读书笔记(十三)- 虚拟文件系统
  4. 如何写出高性能SQL语句
  5. Java BIO、NIO、AIO的区别
  6. js的字符串和变量拼接
  7. java list遍历添加元素_java遍历List过程中添加和删除元素的问题
  8. 返回高于平均分的人数,并将高于平均分的分数存放到另外一个数组中
  9. Leetcode重点题
  10. 图解设计模式:责任链模式
  11. spring注入sessionfactory
  12. GUI GUIDER 应用笔记
  13. SQL Server 2008 远程过程调用失败的问题解决方法
  14. 微信玩这个 存款惊人_英语的8个惊人新趋势
  15. 智能音箱里小度、小爱、天猫精灵哪个更加好?(上)
  16. 软件测试常用linux命令
  17. Java 比较字符串之间大小
  18. (学习记录)Win32开发之键盘
  19. python爬取肯德基店面数据
  20. matlab动刚度仿真,精彩案例|最好的abaqus结构动刚度分析

热门文章

  1. 高斯混合模型理解汇总
  2. 进来在看《How Tomcat Works》这本书,将读书笔记贴在这里,好记性不如烂笔头。
  3. Chapter 1 快速搭建-服务的注册与发现(Eureka)
  4. 《强化学习周刊》第6期:强化学习应用之推荐系统
  5. 深度学习三大谜团:集成、知识蒸馏和自蒸馏
  6. 每个设计师应该阅读的8本书
  7. Attention的相关工作
  8. 独家|OpenCV 1.4 对图像的操作
  9. 手把手教 | 使用Keras构造日文的神经网络语言模型(内附源码)
  10. 刘念宏:道与术,怎样才能真正学好大数据?I 优秀毕业生专访