机器学习模型管理平台

Michael Berthold是KNIME的创始人兼首席执行官。

在当今快节奏的分析开发环境中,数据科学家通常承担的任务远不只是建立机器学习模型并将其部署到生产中。 现在,他们负责定期监视,微调,更新,再培训,替换和快速启动模型,在某些情况下,甚至是数百个甚至数千个模型。

结果,出现了不同级别的模型管理。 在下文中,我将重点介绍从单一模型管理到构建整个模型工厂的各个过程。

[避免机器学习失败: 使机器学习失败的6种方法 。 • 机器学习课程:5家公司分享了他们的错误 。 ]

机器学习工作流基础

您可能想知道,如何使用训练过程的结果对新的传入数据进行评分? 有很多选项,例如在用于训练和导出标准格式的模型的同一系统中进行评分。 或者,您可以将模型推入其他系统,例如在数据库中对作为SQL语句的模型进行评分或对模型进行容器化以在完全不同的运行时环境中进行处理。 从模型管理的角度来看,您只需要能够支持所有必需的选项。

标准过程如下所示:

尼米

注意:实际上,除非通常至少一部分数据处理(转换/集成)是生产中“模型”的一部分,否则仅靠模型本身并不是很有用。 这就是许多部署选项显示出令人惊讶的弱点的地方,因为它们仅支持仅对预测模型进行部署。

机器学习模型评估和监控

模型管理的重要一环是确保模型保持应有的性能。 像许多数据科学家被迫那样,定期收集过去的数据只能保证模型不会突然改变。 连续监控使您能够测量模型是否开始“漂移”,即由于现实变化而变得过时。 有时也建议包括手动注释的数据以测试边界案例,或者只是确保模型没有犯严重错误。

最终,模型评估应得出一个分数,用于衡量某种形式的模型质量,例如分类准确性。 有时,您将需要更依赖于应用程序的度量,例如预期成本或风险度量。 但是,您使用该分数所做的却是另一回事。

更新和重新训练机器学习模型

在下一阶段,我们将从监视转向实际管理某些事情。 假设您的监视解决方案开始报告越来越多的错误。 您可以触发自动模型更新,重新训练,甚至完全替换模型。

一些模型管理设置仅训练新模型然后进行部署。 但是,由于培训可能会占用大量资源和时间,因此更明智的方法是使此切换取决于性能。 性能阈值可确保实际上值得替换现有模型。 运行评估程序以采用先前的模型(通常称为冠军)和新的(经过重新训练的)模型(挑战者); 给他们打分,然后决定是应该部署新模型还是保留旧模型。 在某些情况下,您可能只想在新模型明显优于旧模型时经历模型部署的麻烦。

即使在不间断地进行监视,再培训和更换的情况下,如果您在管理系统中的其他地方未采取预防措施,则机器学习模型仍然会遇到季节性问题。 例如,如果模型正在预测服装的销售配额,则季节将极大地影响这些预测。 如果您每年逐年进行监视和重新训练,则可以有效地训练模型以适应当前季节。 您还可以手动设置各种季节模型,这些模型的权重因季节而异。

有时模型需要保证在某些情况下的特定行为。 将专家知识注入模型学习中是实现此目的的一种方法,但是拥有一个单独的规则模型可以覆盖训练后的模型的输出是一个更透明的解决方案。

尽管可以更新某些模型,但是许多算法可能会遗忘。 很久以前的数据在确定模型参数中的作用越来越小。 有时这是合乎需要的,但很难正确地调整遗忘率。

一种替代方法是重新训练模型,从头开始构建新模型。 这使您可以使用适当的数据采样(和评分)策略来确保新模型是根据过去和最近数据的正确组合进行训练的。

现在,管理过程看起来更像这样:

尼米

管理多种机器学习模型

假设您现在要连续监视和更新/重新训练整个模型集。 您可以按照与单模型案例相同的方式来处理此问题,但是如果有多个模型,则会出现与接口和实际管理相关的问题。 您如何将许多模型的状态传达给用户,并让她与他们互动,以及由谁控制所有这些过程的执行? 必须具有所有模型的仪表板视图,并且具有管理和控制单个模型的能力。

大多数工作流程工具都允许其内部作为服务公开,因此您可以预想一个单独的程序,以确保正确调用您的各个模型管理过程。 您可以构建单独的应用程序,也可以使用现有的开源软件来编排建模工作流,监督这些过程并总结其输出。

将它们分为不同的模型系列时,管理大量机器学习模型变得更加有趣。 您可以类似地处理预测非常相似行为的模型。 如果您经常需要新模型,这将特别有用。 当模型相似时,您可以通过从系列中现有模型初始化新模型来节省时间和精力,而不是从头开始或仅对孤立的过去数据进行训练。 您可以使用最相似的模型(通过某种程度的对象相似性确定)或混合使用多种模型进行初始化。

现在,模型管理设置如下所示:

尼米

如果您充分抽象了模型族之间的接口,则应该能够随意混合和匹配。 这允许新模型重用负载,转换,(重新)培训,评估和部署策略,并以任意方式将它们组合在一起。 对于每个模型,您只需要定义在此通用模型管理管道的每个阶段中使用了哪些特定处理步骤。

看一看:

尼米

可能只有两种不同的方式来部署模型,但是有十二种不同的方式来访问数据。 如果必须将其划分为不同的模型流程族,那么最终会有一百多种变化。

机器学习模型工厂

机器学习模型管理的最后一步是创建模型工厂。 例如,可以通过仅从上方定义各个部分(过程步骤)并将它们以配置文件中定义的灵活方式进行组合来完成。 然后,每当有人要在以后更改数据访问权限或首选模型部署时,您只需要调整该特定流程步骤,而不必修复使用该流程的所有流程。 这是一个梦幻般的节省时间。

在此阶段,将评估步骤分为两部分是有意义的,这两个部分用于计算模型的分数,而第二部分则决定如何处理该分数。 后者可以包括处理冠军/挑战者场景的不同策略,并且与您计算实际得分的方式无关。

然后,使模型工厂正常工作很简单。 配置设置定义了每个流程步骤的哪个化身用于每个模型管道。 对于每个模型,您可以自动比较过去和当前的表现,并触发重新培训和更新。 本白皮书在企业规模模型流程中对此进行了详细描述。

这是很多信息,但是数据科学家可以掌握每个级别,因为他们必须这样做。 今天的大量信息不久将显得微不足道。 现在,我们必须开发合理,可靠的管理实践,以处理日益增长的海量数据和随之而来的大量模型,以最终使它们完全有意义。

Michael Berthold博士是 KNIME 的创始人兼首席执行官 他拥有25多年的研究和行业专业知识,涉及数据分析,机器学习,人工智能和规则归纳。 Michael在康斯坦茨大学,卡内基·梅隆大学和加州大学伯克利分校担任教授,在学术界工作很久,并在英特尔,Utopy和Tripos从事过行业工作。 Twitter LinkedIn KNIME博客 上关注Michael

-

新技术论坛提供了一个以前所未有的深度和广度探索和讨论新兴企业技术的场所。 选择是主观的,是基于我们选择的技术,我们认为这些技术对InfoWorld读者来说是重要的,也是他们最感兴趣的。 InfoWorld不接受发布的营销担保,并保留编辑所有贡献内容的权利。 将所有查询发送到 newtechforum@infoworld.com

翻译自: https://www.infoworld.com/article/3331980/how-to-manage-machine-learning-models.html

机器学习模型管理平台

机器学习模型管理平台_如何管理机器学习模型相关推荐

  1. 浙江污水处理厂数字孪生平台建模_三维激光扫描_吉优赛维三维可视化管理平台_三维建模_3D模型

    在污水处理行业如何节约成本并且把握未来的情况预测非常重要,但是通过人为的方式或者是原本的二维数据计算的方式,是很难满足现在人们的要求的.而且二维数据的不可预测性和非直观性也造成了很多非专业人士,没有办 ...

  2. 范数在机器学习中的作用_设计在机器学习中的作用

    范数在机器学习中的作用 Today, machine learning (ML) is a component of practically all new software products. Fo ...

  3. 机器学习 模型性能评估_如何评估机器学习模型的性能

    机器学习 模型性能评估 Table of contents: 目录: Why evaluation is necessary?为什么需要评估? Confusion Matrix混淆矩阵 Accurac ...

  4. python模型预测足球_采用 Python 机器学习预测足球比赛结果!买谁赢就谁赢!

    采用 Python 机器学习预测足球比赛结果 足球是世界上最火爆的运动之一,世界杯期间也往往是球迷们最亢奋的时刻.比赛狂欢季除了炸出了熬夜看球的铁杆粉丝,也让足球竞猜也成了大家茶余饭后最热衷的话题.甚 ...

  5. 用友政务知识管理平台_云创数字政务大数据平台,助力政务工作高效管理

    公众号:云创 官网戳→「云创」 传统的政务管理方式下,无论是覆盖范围,还是执行情况都很难把控,寻求技术支撑.普及数字化政务成为优化党建工作的关键. 云创政务把数字化理念融入到政务工作中,应用大数据技术 ...

  6. 颅骨管理平台_程序总结

    最近的两个礼拜,一直在完善一个颅面管理平台的项目,通过这个项目,我学到很多东西. 但是现在来不及细写了. 先列个提纲在下面, 慢慢来完善. 1.开发流程,关于SVN的使用 配SVN , 通过SVN来管 ...

  7. mysql统一管理平台_统一用户管理平台

    概述 统一用户管理平台是针对国内信息化发展现状而开发的基础软件平台.面对用户的重复登录,系统管理员繁琐的账号管理和系统设置工作,以及如何控制用户的访问权限等问题,统一用户管理平台提供了一个完美的解决方 ...

  8. python做流程管理平台_[译] Airflow: 一个工作流程管理平台

    Airflow: 一个工作流程管理平台 Airbnb 是一个快速增长的.数据启示型的公司.我们的数据团队和数据量都在快速地增长,同时我们所面临的挑战的复杂性也在同步增长.我们正在扩张的数据工程师.数据 ...

  9. 基于Java的农业生产管理平台_基于javaweb农业病虫害网站

    一.需求 该系统从整体上划分为前台信息展示和后台信息管理两部分.前台主要实现用户注册登录.病虫害查询.图谱对照.用户在线提问.专家答疑.农业资讯等功能:后台实现系统的维护,主要包括病害和虫害数据的维护 ...

最新文章

  1. 科普丨莫拉维克悖论(人工智能中最重要的发现之一)
  2. Quzrtz 使用oracle集群无法正常启动问题解决
  3. IPC$连接常见问答
  4. LeetCode 1060. 有序数组中的缺失元素(二分查找)
  5. 从没有C到ANSI C的认识
  6. 浅谈ES6中的rest参数
  7. 最新上架 App Store 全流程
  8. 中国历史上的牛顿+巴顿新解
  9. 【目标检测适用】Pascal Voc(07+12)联合训练并在07上测试
  10. 笔试面试常见逻辑题及答案
  11. Qt QLineEdit 信号函数总结
  12. 狗咬吕洞宾,不识好人心的来历
  13. java中国男篮动态网站设计与制作
  14. 007.复原 IP 地址
  15. 完美字符子串 单调队列预处理+DP线段树优化
  16. Oracle数据库查询数据语法
  17. word怎么打拼音声调的三种方法介绍
  18. 重温离散数学系列①之什么是证明
  19. 设计模式总是学不会?是时候换个姿势了
  20. 几种自动化测试工具的比较

热门文章

  1. linux 查看当前用户和组的信息,Linux查看所有用户和组信息
  2. 关于大数据技术的演讲_2020年大数据技术应用趋势与当前大数据技术实践反思...
  3. 从数据库取出的tup转换成dict
  4. jquery实现图片上传
  5. windows获取文件列表及文件夹结构
  6. 物联网行业中Mqtt的使用
  7. 计算机学院十四五工作规划,计算机学院举行教学指导委员会成立暨十四五规划修订会议...
  8. 算法图解(一):算法简介
  9. 2021-12-25 《聪明的投资者》学习笔记-18.对八组公司的比较
  10. 理解sparse coding