什么是AI管道和MLOps?
什么是 AI 管道?AI 管道是一种自动化机器学习工作流程的方法。AI 管道 一般包括四个主要阶段:
1.预处理
2.学习
3.评估
4.预言
一、什么是机器学习操作?
术语“Ops”是“操作”的简写,被附加到许多不同的术语中,以表示对适合单个学科的多个相互关联的流程进行精简。例如,这种框架设备更常见的用途之一是“DevOps”,或将多个流程(如测试、错误跟踪、监控和迭代敏捷开发)集成到单个管道中。
集成操作发挥巨大作用的另一个地方是机器学习。机器学习是一个包含多个关键组件的复杂过程,而最佳地执行这些组件可以证明是可靠机器学习平台的成败。
MLOps 是 AI 平台的关键部分,部分原因在于机器学习和 AI 之间的关系:
- 人工智能平台为智能机器提供动力:更大的机器,包括分析平台和制造系统,由可以持决策和优化的人工智能提供支持。人工智能通常包含几个组件,其中之一是机器学习。
- 神经网络大脑为人工智能提供动力:神经网络是根据我们在人脑中观察到的情况建模的——也就是说,思维过程由神经元等较小的组件组成,将输入处理成越来越复杂的过程。创造性思维是相对简单的任务完成的涌现结果。
- 机器学习算法教授神经网络:机器学习算法在机器学习管道的推动下,获取数据并通机器学习模型运行,以了解特定系统及其工作方式。机器学习算法使用的模型可能会改变它们的学习方式,但基线操作是算法优化战略思维,可以作为人工智能平台的基础。
因此,人工智能管道包括背景机器学习算法,这些算法向系统教授环境策略,形成一个更大的人工智能,可以驱动它所连接的任何系统或机器。人工智能管道本质上是一个机器学习管道。
二、什么是 AI 管道?
人工智能或机器学习管道是相互连接且流线型的操作集合。从数据收集到训练模型,这些信息会进入并通过机器学习系统。
AI 管道由“工作流”或交互路径组成,数据通过这些路径在机器学习平台中移动。一般来说,这些工作流程由以下阶段组成:
- 数据摄取:人工智能训练需要大量信息才能实际训练运行它的算法。在现代数据平台出现之前,收集这么多数据几乎是不可能的。现在,人工智能平台从数据库、用户输入和混合云系统等多个来源提取数据。
- 数据清理:通过这些方法收集的大多数数据都是非结构化的。它不是遵循相同的清除、识别和分类过程的数据。第一步是筛选出损坏或重复的数据,或简单的“虚拟数据”,这对机器学习没有帮助。
- 预处理:顾名思义,非结构化数据没有以适当处理所需的结构化方式进行分类、格式化或存储。预处理是在处理之前自动分类和存储以供使用。
- 建模:机器学习系统然后根据给定的应用领域创建或改进模型——本质上,系统是使用摄取的数据进行训练的。机器学习系统将创建和利用模型来推动智能决策并为未来的模型提供信息。
- 部署:人工智能可以被部署以供最终用户、业务用户或数据科学家使用。
工作流(以及管道)将信息从收集转移到最终部署,并代表一个迭代过程,该过程不断将新信息(来自数据收集阶段和用户交互)提供给机器学习和人工智能系统,以用于学习和处理目的。
三、ML工作流程如何塑造 AI 管道?
虽然我们了解 AI 管道的作用,但了解 AI 进程如何在这些管道中发挥作用也很重要。
人工智能有几个阶段,作为其“学习”过程的一部分。这些阶段包括:
(1)预处理
虽然我们已经介绍了这一部分,但重要的是要了解 ML 工作流的几个阶段用作 AI 应用程序的预处理。这包括清理数据、构建数据并为 AI 学习模型做好准备。
(2)学习
机器学习本身就是一门完整的学科,也是人工智能的一个子集。作为人工智能系统的一部分,机器学习算法将使用不同的模型来处理数据。
支持 AI 管道的一些最常见的机器学习形式包括:
- 监督学习:监督学习是数据科学家如何根据样本输入为机器学习算法提供所需输出的示例。然后,机器学习算法使用这种相关性来学习如何根据输入和输出之间的关系来最好地构建它们的行为。这就像一个代数方程,机器学习在其中学习如何最好地求解给定样本数的“X”。这种学习形式支持数据分类和分析等应用类型。
- 无监督学习:顾名思义,这种学习形式省略了任何结构化输出供机器学习学习。相反机器学习算法使用数据集来了解该数据中的固有模式以及如何最好地将其用于特定任务。这种机器学习支持数据挖掘和数据组织等高级战略行动。
- 强化学习:强化学习主要与数字或物理系统中的代理相关,并使用行动和奖励教学来帮助这些代理学习如何在这些环境中对战略行动进行建模。这种学习最常用于多人游戏中。
- 深度学习:深度学习是一种教学形式,它使用神经网络层来促进复杂任务的机器学习,例如物理系统的模式识别,例如图像和面部识别。这种学习形式并非排他性的,因为它由神经网络驱动,以促进更广泛的学习技术。因此,例如,您可以将深度学习技术与列出的任何方法一起使用。深度强化学习是非常先进的系统机器学习的一种常见形式。
(3)评估
人工智能系统由使用机器学习技术和技术创建的“训练有素”的大脑驱动,评估来自用户输入的传入数据。此阶段要求提供给 AI 的信息与其预期接收的信息相匹配,并且它已经接受过培训。
请注意,在构建用于 AI 平台的非结构化数据的过程中,必须以标准化的方式对其进行组织。无论您使用有监督还是无监督的数据,它都将以标准化的方式进行结构化。
(4)预测
基于通过学习过程学到的策略,人工智能将根据信息做出预测,从而为决策提供信息。这可以包括机器为用户提供的洞察力、它如何驾驶其他机器(如自动驾驶汽车或制造设备)或对风险管理表执行复杂的分析。
四、使用 WEKA 云基础架构为 AI 管道供电
AI 管道需要大量资源:计算能力、随时可用的存储、灾难恢复和备份、机器学习应用程序的专用硬件等。典型的云环境通常不具备这种能力。相反,数据科学家转向专门的混合云环境来运行他们复杂的 AI 管道。
WEKA 提供了这样一个环境,包括以下功能:
- 流线型和快速的云文件系统,将多个源组合到一个高性能计算系统中 业界最佳的 GPUDirect 性能(单个 DGX-2 为 113
- Gbps,单个 DGX A100 为 162 Gbps)
- 针对治理、风险和合规性要求的动态和静态加密
- 边缘、核心和云开发的敏捷访问和管理
- 可扩展至数十亿文件的 EB 级存储
什么是AI管道和MLOps?相关推荐
- 【视频回放与课件】Build your AI solution with MLOps
4月8日在Global AI Community on Vitural Tour与大家分享了Build your AI solution with MLOps的专题,本课程主要介绍了微软Azure M ...
- AI神经网络流水线MLOps machine learning pipline 华为和深信服 等公司的落地 QCon 大会2022
1. MLOps历史以及前瞻 2015 年的一篇论文强调了在应用程序中持续使用机器学习所面临的挑战.[4] 机器学习的预测增长包括从 2017 年到 2018 年,以及从 2018 年到 2020 年 ...
- 动荡的 2019:数据和 AI 生态圈
来源:云头条 这是数据领域又一个激烈动荡的年头,令人兴奋,但又错综复杂. 随着越来越多的人上网,一切继续在加快"数据化"的步伐.这个大趋势的发展势头越来越猛,归因于基础设施.云计算 ...
- Data + AI Summit 2022 超清视频下载
Data + AI Summit 2022 于2022年06月27日至30日举行.本次会议是在旧金山进行,中国的小伙伴是可以在线收听的,一共为期四天,第一天是培训,后面几天才是正式会议.本次会议有超过 ...
- “AI工厂”本质:AI基础设施及怎样将AI转化为运营动力
来源:TechTalks 作者:Ben Dickson 编译:科技行者 持续关注人工智能新闻的朋友肯定已经发现,AI这个字眼已经被异化成了两个截然不同的定义.媒体和影视作品喜欢把AI描述成已然具备人类 ...
- “宝藏”大会NVIDIA GTC Digital来袭!这些AI前沿课程不容错过
爱因斯坦认为,"想象力比知识更重要".在这个时代,能够满足人类最多想象的恐怕就是 AI(人工智能)了.而能够堪称当代"爱因斯坦"与"达芬奇" ...
- 克里斯·弗雷格利(Chris Fregly)在PANCAKE STACK研讨会和数据管道上
重要要点 完全沉浸式和交互式的研讨会,使与会者可以使用多合一Docker映像快速启动并运行. 这样一来, 参加者就可以在沙盒中进行游戏,并在研讨会期间详细介绍了许多集成. Apache Spark社区 ...
- 软件AI加速器:免费提升AI性能
目录 什么是"软件AI加速器",它与硬件AI加速器相比如何? 人工智能软件生态系统--高性能.高效和开放 深度学习.机器学习和图形分析中的软件AI加速器 深度学习 机器学习 图分析 ...
- Jina文章转载:多模态AI的范式变革多模态AI总结(2022年COLING会议)
文章目录 一.多模态AI的范式(Paradigm)变革 1.1 前言 1.2 AI行业已经向多模态AI时代 1.3 单模态人工智能 1.3.1 自然语言处理 1.3.2 计算机视觉 1.3.3 语音和 ...
最新文章
- 简单的按键控制LED
- (找水王)编程思维训练
- 苹果公司透露Siri新发音引擎的内部原理
- JEECG Framework 3.3.1 beta版本发布第一天战报(文档下载量破1300、...
- html表单中按钮添加超链接,JS 实现点击按钮实现超链接功能
- python中颜色介意用数字表示_利用Python实现颜色色值转换的小工具
- 【报告分享】中国在线教育师生教学行为和教学条件研究报告.pdf(附下载链接)
- Unity之如何从fbx提取Animation clip文件
- android:contentInsetStart android:contentInsetEnd contentInsetStart paddingstart paddingEnd
- CTO@全体成员,未经允许和评审不让用反射,Java反射到底慢在哪?
- 9款超级好用的在线PDF工具!
- 快速排序C语言代码+辅助图+注释
- SpringBoot分布式项目实现Session共享
- 安全防护工具之:ClamAV
- python如何爬虫股票数据_如何抓取股票数据_用Python抓取新浪的股票数据
- LeetCode 188. Best Time to Buy and Sell Stock IV(股票买卖)
- 关于面试的一些总结,仅供参考,希望大家指正投入学习
- 手工检测SQL注入漏洞
- 58同城CEO姚劲波:58成功上市的四大关键因素
- 如何学编程,我的一些学习感悟
热门文章
- 为什么互联网人不说“人话”?
- 内存分析工具MAT分析内存溢出问题
- 有了面容解锁忘记了锁屏密码
- 如何把视频放进图片指定区域的剪辑技巧
- MintUI 组件和Mui
- 论文阅读Super Edge 4-Points Congruent Sets-Based Point Cloud Global Registration
- 《作文的顿悟》:“中考高分”和“写作素养”一个都不能少
- 5个能让你15T硬盘立马爆满的黑科技网站,让你在工作中技高一筹
- 「蚂蚁金服」热搜的背后:「李开复」到底是不是口误?
- 伐木工和森林的故事(一)