本文转自:InfoQ

本文是对 2022 年 AI、ML 和数据工程 InfoQ 趋势报告播客的总结,涉及 AI、ML 和数据工程领域的关键趋势和技术。

在这份年度报告中,InfoQ 的编辑们讨论了 AI、ML 和数据工程的现状,以及软件工程师、架构师或数据科学家应该关注的新趋势。我们将讨论整理成技术采用曲线,并附带了评论,帮助读者了解这些领域技术的发展状况。

在今年的播客中,InfoQ 的编辑团队加入了一位外部小组成员 Einat Orr 博士,他是开源项目 LakeFS 的联合创始人,也是 Treeverse 的联合创始人兼 CEO,他在最近举行的伦敦 QCon 大会上发表了演讲。

下面的内容总结了其中的一些趋势,以及不同的技术在技术采用曲线中的位置。

自然语言理解和自然语言生成的崛起

我们认为自然语言理解(NLU)和自然语言生成(NLG)技术应该处于早期采用者阶段。InfoQ 团队已经报道了该领域的最新进展,包括百度基于信息实体的增强语言表示(ERNIE)、Meta AI 的 SIDE,以及特拉维夫大学的长语言序列标准化比较(SCROLLS)。

我们还报道了几个与 NLP 相关的开发成果,如谷歌研究团队的 Pathways Language Model(PaLM)、EleutherAI 的 GPT-NeoX-20B、Meta 的 Anticipative Video Transformer(AVT),以及 BigScience Research Workshop 的 T0 系列 NLP 模型。

深度学习进入早期大众阶段

去年,随着越来越多的公司使用深度学习算法,我们将深度学习从创新者阶段移到了早期采用者阶段。自去年以来,深度学习解决方案和技术已经被广泛应用在企业中,因此我们正在将其从早期采用者阶段移到早期大众阶段。

已经有一些关于这个主题的播客(无代码深度学习和可视化编程)、文章(基于机构增量学习的深度学习系统、松散耦合的深度学习服务、使用 Apache Spark 和 NVIDIA GPU 加速深度学习)和新闻(BigScience 的大型开放科学开放访问多语言模型、谷歌 AI 的深度学习语言模型 Minerva、OpenAI 的开源框架 Video PreTraining)。

视觉语言模型

与图像处理相关的 AI 模型发展还包括 DeepMind 的 Flamingo,这是一种 80B 参数的视觉语言模型(VLM),结合了单独预训练的视觉和语言模型,可以回答用户用通过图像和视频提出的问题。

谷歌的 Brain 团队发布了 Imagen,一个文本到图像的 AI 模型,可以根据文本描述生成逼真的场景图像。

另一个有趣的技术,数字助理,现在也进入到早期大众阶段。

流式数据分析:物联网和实时数据摄取

流式架构和流式数据分析已经被越来越多的公司采用,特别是在物联网和其他的实时数据摄取和处理场景中。

Sid Anand 关于构建高保真数据流的演讲和 Ricardo Ferreira 关于通过从批处理过渡到流式处理从动态数据中获取价值的演讲都是流式处理已成为战略数据架构必备要素的绝佳例子。此外,Chris Riccomini 在他的文章“数据工程的未来”中讨论了流式处理在整个数据工程中所扮演的重要角色。

Chip Huyen 在去年的 QCon Plus 在线大会上发表了关于实时机器学习流式基础设施的演讲,强调了实时机器学习流式基础设施的优势、实时机器学习的好处以及实现实时机器学习所面临的挑战。

作为对这一趋势的反映,流式数据分析和技术,如 Spark Streaming 已经进入了晚期大众阶段。数据湖即服务(Data Lake as a Service)也是如此,在去年获得了进一步的采用(如 Snowflake)。

AI/ML 基础设施:规模化构建

高度可伸缩、弹性、分布式、安全、高性能的基础设施可以成就或破坏企业的 AI/ML 战略。没有良好的基础设施作为基础,任何 AI/ML 计划都不可能长期取得成功。

在今年的 GTC 大会上,NVIDIA 发布了用于 AI 计算的下一代处理器 H100 GPU 和 Grace CPU Superchip。

资源协调器(如 YARN)和容器编排技术(如 Kubernetes)现在都处于晚期大众阶段。Kubernetes 已经成为云平台事实上的标准,在将应用程序部署到云端方面,多云计算受到了越来越多的关注。Kubernetes 等技术可以实现 AI/ML 数据管道整个生命周期的自动化,包括模型的生产部署和后期支持。

在创新者阶段也有一些新进入者,包括云不可知 AI 计算、知识图、AI 结对编程(如 Github Copilot)和合成数据生成。

知识图继续在企业数据管理领域占有一席之地,它为不同的场景(包括数据治理)提供了实际的应用。

基于 ML 的编码助手 GitHub Copilot

去年发布的 GitHub Copilot 现在已经准备就绪。Copilot 是一个基于 AI 的服务,通过分析现有代码和注释帮助开发人员编写新代码。它会为开发人员生成基本函数,开发人员不需要从头编写这些函数,从而提升了开发人员的工作效率。除了 Copilot,未来也会出现更多的解决方案,它们提供了基于 AI 的结对编程,并自动化软件开发生命周期中的大部分步骤。

Nikita Povarov 在“面向开发者的 AI:是未来还是现实”一文中谈到了 AI 开发工具的作用。AI 开发者试图使用算法来增强程序员的工作,让他们变得更有效率。在软件开发当中,我们可以清楚地看到 AI 既执行人工任务,又提升了程序员的工作效率。

合成数据生成:保护用户隐私

在数据工程方面,自去年以来,合成数据生成是另一个获得大量关注和兴趣的领域。合成数据生成工具可用于生成安全的合成业务数据,有助于保护用户隐私。

亚马逊云科技推出了 SageMaker Ground Truth 等技术,用户现在可以使用这些技术创建有标签的合成数据。Ground Truth 是一种数据标记服务,可以生成数百万张自动标记的合成图像。

在 AI/ML 应用的整个生命周期中,数据质量至关重要。Einat Orr 博士在伦敦 QCon 大会上发表了关于大规模数据版本控制的演讲,并讨论了数据质量和大型数据集版本控制的重要性。数据的版本控制有助于重现一个流程或模型的输入和输出数据集之间的沿袭,并为审计提供相关信息。

在这次大会上,Ismaël Mejía 讨论了如何在最新的数据管理方法(包括操作、共享和有助于我们创建和维护具有弹性和可靠性的数据架构的数据产品)中应用开源 API 和开放标准。

在另一篇文章“为现代数据系统构建端到端字段级沿袭”中,作者将数据沿袭作为数据管道根源和影响分析工作流的关键组件进行了讨论。为了更好地理解数据仓库源对象和目标对象之间的关系,数据团队可以使用字段级沿袭。对沿袭创建进行自动化,并将元数据抽象到字段级别可以减少进行根源分析所需的时间和资源。

新进入早期采用者阶段的包括与机器人和虚拟现实相关的技术(VR/AR/MR/XR)以及 MLOps。

MLOps:ML 和 DevOps 实践的结合体

MLOps 已经得到了很多公司的关注,因为它将 DevOps 的原则和最佳实践引入到了软件开发领域。

Francesca Lazzeri 在 QCon Plus 大会上提到,MLOps 是企业 AI 应用最重要的一个组成部分。她讨论了 MLOps 如何帮助数据科学家和应用程序开发人员将机器学习模型应用到生产环境中。MLOps 可以帮助我们跟踪、版本化、审计、认证、重用机器学习生命周期中的每一项资产,并提供编排服务以简化机器学习生命周期的管理。

MLOps 通过将人、流程和平台聚集在一起对融入了机器学习的软件交付进行自动化,为我们的用户提供持续的价值。

她还讨论了在生产环境中部署 ML 应用程序之前应该了解哪些东西,关键要点包括使用开源技术进行模型训练和部署,并通过机器学习管道自动化端到端 ML 生命周期。

Monte Zweben 谈到了将功能商店和模型部署等核心组件聚集在一起的 Unified MLOps。

在播客中讨论的其他主要趋势如下。

  • 在 AI/ML 应用中,转换器仍然是首选的架构。

  • ML 模型继续发展壮大,可以支持数十亿个参数(GPT-3、EleutherAI 的 GPT-J 和 GPT-Neo、Meta 的 OPT 模型)。

  • 用于机器学习训练的开源图像到文本数据集,如 CLIP 或 DALL-E,促进了数据民主化,人们都可以利用这些模型和数据集。

  • 机器人和虚拟现实的未来将主要出现在元宇宙中。

  • AI/ML 计算任务将受益于基础设施和云计算创新,如多云和云不可知计算。

要了解更多信息,请参考 2022 年 AI、ML 和数据工程播客录音和文本,以及 InfoQ 的 AI、ML 和数据工程专题内容。

InfoQ 2022 年趋势报告:人工智能、机器学习和数据工程篇相关推荐

  1. SolarWinds发布2022 IT趋势报告:混合IT增加网络复杂性,技术人表示缺乏信心

    <SolarWinds 2022 IT 趋势报告 - 扭转 IT 局势:管理混合 IT 复杂性>研究了在混合 IT 加速发展的背景下,负责管理日益复杂的 IT 环境的专业技术人员的现状以及 ...

  2. 2022漏洞趋势报告及解决方案-新冠让程序员写bug变多了?

    01 总览 本报告根据国内外一些著名的公开漏洞库以及商业漏洞库的数据及鸿渐科技的后台漏洞管理系统的综合分析功能统计而成.如图1所示,在新冠病毒(COVID)出现前,漏洞披露数量呈较为平稳的逐年递增态势 ...

  3. 《人工智能-机器学习》数据预处理和机器学习算法(以企鹅penguins数据集为例)

    文章目录 一.数据预处理 1 内容和目标: 2 加载和分析数据 2.1 导入基本库和加载数据 2.2 分析数据 3 数据清洗 3.1 重复值处理 3.2 数据脱敏-提取重要特征 3.3 缺失值处理 3 ...

  4. Unity人工智能机器学习(环境安装篇)

    Unity人工智能学习,需要搭建一个机器学习的环境(Python环境和tensorboard) 使用Anaconda便可快速搭建 以下是汽车自动驾驶绕开障碍物的机器学习演示: 机器学习前: 机器学习训 ...

  5. sqlserver安装目录_Jira试用报告(安装及数据迁移篇)

    Jira安装 安装准备 数据库 Jira支持SQLserver.MySQL.Oracle.PostgreSQL.H2(内置)等数据库,其中SQL server建议安装2012以上版本.数据库安装完成后 ...

  6. 2022年四季度人力资源趋势报告

    导读: 报告显示,中国宏观经济正进入关键转折期,面临转折"四重奏".国内热门城市人才政策频出,关键人才有力支撑产业发展.目前国家重点支持产业,如工业制造.信心技术产业.电子技术/半 ...

  7. Veeam 发布 2022 年数据保护趋势报告,开发者需关注哪些点?

    如今数据作为重要的生产要素,成为数字经济高速发展的关键驱动力之一.越来越多开发者和企业认识到数据保护的重要性,关注数据保护发展趋势,以通过相关的技术解决方案来制定应对策略. 为帮助企业捋请思路,加快数 ...

  8. “互联网女皇”2012年互联网趋势报告全面更新

    "互联网女皇"2012年互联网趋势报告全面更新 今年5月份,被称为"互联网女皇"的Mary Meeker发布了2012互联网趋势报告.今天,她对2012年互联网 ...

  9. 人工智能与大数据-2018

    20181225 物联网(NB-IoT)芯片2018评测|PPT 智能摄像头评测--中国移动2018年智能硬件质量报告(第二期) 存储器产业链 AI芯片产业链! 车联网技术.标准与产业发展态势前沿报告 ...

最新文章

  1. window.external.JavaScriptCallCpp
  2. EOJ_1039_最长连续公共子序列
  3. 使用CLI模板 | Visual Studio 2019(16.10)新功能试用
  4. 深度学习(09)-- DenseNet
  5. LeetCode 1953. 你可以工作的最大周数
  6. 说干就干的p2psearcher2013
  7. 信息学奥赛C++语言: 队伍调整
  8. Codeigniter Grid 使用方法 (flexigrid)
  9. redis简述及安装
  10. C语言执行Linux的shell命令并获得返回值
  11. 垃圾回收机制,垃圾回收的几种方法以及
  12. MySQL · 性能优化 · SQL错误用法详解
  13. 详解 Python 字符串(一):字符串基础
  14. 万字长文综述:文本增强技术的研究进展及应用实践
  15. 简历制作课——如何写简历?
  16. flash小黄油安卓_体验谷歌的Windows、安卓、Linux三合一系统,一个U盘足以
  17. 防关联浏览器原理及对策
  18. 5.10.1 操作查询之生成表查询
  19. 贝叶斯公式和机器人的恩怨情仇
  20. 手机串号英文简称“IMEI”

热门文章

  1. Linux安装部署docker habor私服
  2. 大数据-Hadoop概论
  3. 欢迎来到Alex技术博客
  4. 【历史上的今天】6 月 9 日:苹果发布 iPhone 3G 和 MobileMe;匹兹堡超级计算机中心成立;IMesh 网站关闭
  5. java找出和最接近指定值_如何找到数组元素与特定值最接近的和?
  6. 窝囊少爷 第一章 人品问题
  7. 单片机学习笔记@阿布君
  8. 服务器ups后备式好还是在线式好,后备式UPS电源和在线式UPS工作原理和优缺点
  9. mysql查询1999年后出生的_1999年出生的属兔人2021年几岁了
  10. 机器学习反向传播的一些推导公式