作者:彭锋 宋文欣等

来源:智领云科技

大部分企业的数据平台建设要想顺利过渡到第三阶段,则离不开一个关键方法论—DataOps(数据运维)的帮助。

DataOps 与 DevOps 十分形似,也有着与 DevOps 类似的软件开发角色,它是数据工程师简化数据使用、实现以数据驱动企业的方法,也是企业顺利实现第三阶段的关键。因此,本节将介绍 DataOps 的概念,解释为什么它对于企业从数据中获取真正价值、实现数字化运营以及建设数据中台都非常重要。

图 1 Gartner 对 DataOps 的定位

什么是 DataOps

维基百科对 DataOps 的定义是:一种面向流程的自动化方法,由分析和数据团队使用,旨在提高数据分析的质量并缩短数据分析的周期。DataOps 的这一定义会随着时间的推移而变化,但其关键目标非常明确:提高数据分析的质量并缩短数据分析的周期。

在2018年Gartner发布的《数据管理技术成熟度曲线》报告中,DataOps 的概念被首次提出(图 1)。该报告指出,DataOps虽然可以降低数据分析的门槛,但并不会使数据分析变成一项简单的工作。与 DevOps 的落地一样,实施成功的数据项目也需要做大量的工作,例如深入了解数据和业务的关系、树立良好的数据使用规范和培养数据驱动的公司文化。当然,DataOps 将极大提高人们使用数据的效率并降低使用数据的门槛,公司可以更快、更早、更好地使用数据,且成本和风险更低。

DataOps 解决的问题

大数据的大多数应用可以分为 AI(人工智能)或 BI(商业智能)。此处的 AI 是指广义的人工智能,包括机器学习、数据挖掘以及其他从数据中获取以前未知知识的技术。BI 则更多地使用统计方法将大量数据汇总成更简单的报告,方便人们理解。简而言之,AI 使用各种数据算法来计算新的东西,BI 则是统计人们可以理解的数字。

编写 AI 或 BI 程序并不难,你可以基于 TensorFlow 在几个小时内写一个人脸识别程序,或者使用 MATLAB 绘制一些数据可视化图形,甚至用 Excel 也不难实现 AI 或 BI 程序。问题在于,要实际使用生产结果来支持面向用户的产品或根据这些神奇的数字来决定公司的命运,你需要做的就不只是手动工作了。 根据 Dimensional Research 在 2017 年做的一项调查,对于想要实施大数据应用的公司来说,图 2 中列出的问题最为困难。

图 2 大数据实施主要困难

在“ Hidden Technical Debt in Machine Learning Systems ”这篇论文中,Google 的数据分析师研究发现,对于大多数机器学习项目,只有 5% 的时间花在编写 ML 代码上,另外 95% 的时间用于设置运行 ML 代码所需的基础设施(见图 3)。

图 3 Google 关于机器学习中隐藏的技术债的研究

在这两项研究中,我们可以很容易地看到许多艰苦的工作实际上并不是在编写代码。整个基础设施的准备工作以及高效运行生产级别的代码是非常费时费力的,而且经常伴随着各种风险。在 Google 的研究中,他们引用了来自 Twitter 大数据团队Jimmy Lin 和 Dmitry Ryaboy 的话:“我们的大部分工作可以被描述为‘数据管道工’。”实际上,DataOps 的目的就是使管道工的工作更简单和高效。

DataOps 的目标功能

DataOps 旨在缩短整个数据分析的周期。它的主要使用对象是数据应用开发人员,包括数据工程师和数据科学家。因此,从搭建基础架构到使用数据应用的结果,通常需要实现以下功能。

  • 部署:包括基础架构和应用程序。无论底层硬件基础设施如何,配置新系统环境都应该快速而简单。部署新应用程序应该花费几秒而不是几小时或几天时间。

  • 运维:系统和应用程序的可扩展性、可用性、监控、恢复和可靠性。数据应用开发人员不必担心运维,可以专注于业务逻辑。

  • 治理:数据的安全性、质量和完整性,包括审计和访问控制。所有数据都在一个支持多租户的安全环境中以连贯和受控的方式进行管理。

  • 可用:用户应该能够选择他们想要用于数据开发和分析的工具,随时拿到他们可用的数据,并根据需要轻松开发和运行数据分析应用。应将对不同分析、ML、AI 框架的支持整合到系统中。

  • 生产:通过调度和数据监控,可以轻松地将分析程序转换为生产应用,构建从数据抽取到数据分析的生产级数据流水线,并且数据应该易于使用并由系统管理。

简而言之,DataOpsi 遵循类似于 DevOps 的方法:从编写代码到生产部署的路径(包括调度和监控)应由同一个人完成,并遵循系统管理的标准。与提供许多标准 CI、部署、监控工具以实现快速交付的 DevOps 类似,通过标准化大量大数据组件,新手可以快速建立生产级的大数据应用并充分利用数据的价值。

DataOps 的主要技术

DataOps 的主要方法论仍处于快速发展阶段。像 Facebook 和Twitter 这样的公司通常会有专门的数据平台团队(Data Platform Team)处理数据运营并实现数据项目。但是,它们的实现方式大多与公司现有的 Ops 基础设施集成,因而不适用于其他公司。不过我们可以从它们的成功中学习经验,并建立一个可以由每家公司轻松实施的通用大数据平台。要构建 DataOps 所需的通用平台,一般需要以下技术。

  • 云架构:必须使用基于云的基础架构来支持资源管理、可扩展性和运营效率。

  • 容器:容器在 DevOps 的实现中至关重要,在资源隔离和提供一致开发、测试、运维环境中的作用也至关重要。

  • 实时和流处理:目前来看,实时和流处理在数据驱动平台中变得越来越重要,它们应该是现代数据平台中的“一等公民”。

  • 多分析引擎:MapReduce 是传统的分布式处理框架,但Spark 和 TensorFlow 等框架日常使用越来越广泛,应该进行集成。

  • 集成的应用程序和数据管理:应用程序和数据管理(包括生命周期管理、调度、监控、日志记录支持)对于生产数据平台至关重要。DevOps 的常规实践可应用于应用程序管理,但是数据管理及应用程序与数据之间的交互需要很多额外的工作。

  • 多租户和安全性:数据安全性可以说是数据项目中最重要的问题,如果数据无法得到保护,数据使用也就无从谈起。该平台应为每个人提供一个安全的环境,使每个人都可以使用这些数据并对每个操作进行授权、验证和审核。

  • DevOps 工具:该平台应为数据科学家提供有效的工具,以分析数据并生成分析程序,为数据工程师提供大数据流水线的工具,并为其他人提供消费数据和结果的方法。

DataOps 与数据中台

DataOps 的核心任务是提高数据分析的质量并缩短数据分析的周期,是高效打造数据中台的必经之路,因此可以将 DataOps作为数据中台建设必须参考的一个方法论。要建设一个高效的业务 IT 系统,采用 DevOps 并不是必要条件,但是绝大部分公司会采取 DevOps 的方法论和技术体系,因为这是经过实践检验的高效和普适的方式。

与 DevOps 一样,DataOps 的使用与发展也是一个需要正确工具和正确思维加持的持续过程。DataOps 的目标是以正确的方式更容易地实现大数据项目,以达到用更少的工作量从数据中获得最大的价值的目的。

在过去几年中,随着云计算和容器技术的成熟,大数据操作的标准化成为可能。加之数据驱动的企业文化被广泛接受,DataOps 终于准备好进入大家的视野。我们相信这一运动将降低实施大数据项目的门槛,使每个企业和机构都能够更容易地获取数据的最大价值。

可以看到,DataOps 与数据中台需要解决的问题其实是类似的,都希望能够更快、更好地实现数据价值,支持数字化运营,但是二者强调的重点不同:

  • 数据中台强调的是数据的统一管理和避免重复开发,是数据能力的抽象、共享和复用;

  • DataOps 强调的是数据应用的开发和运维效率,就像DevOps 解放了开发人员的生产力一样,DataOps 希望通过提供一整套工具和方法论,来让数据应用的开发和管理更加高效。

不过,虽然如此,但二者都是解决现有大数据平台问题的必经之路。数据中台强调的是战略层次的布局,必须有一个中台来承担所有数据能力的管理和使用;DataOps 强调的是战术层面的优化,如何让各个开发和使用实际数据应用的人员更加高效。可以说数据中台描述了最终的目标,而 DataOps 提供了一条实现这个目标的最佳路径。

一文读懂DataOps相关推荐

  1. 从实验室走向大众,一文读懂Nanopore测序技术的发展及应用

    关键词/Nanopore测序技术    文/基因慧 随着基因测序技术不断突破,二代测序的发展也将基因检测成本大幅降低.理想的测序方法,是对原始DNA模板进行直接.准确的测序,消除PCR扩增带来的偏差, ...

  2. 一文读懂Faster RCNN

    来源:信息网络工程研究中心本文约7500字,建议阅读10+分钟 本文从四个切入点为你介绍Faster R-CNN网络. 经过R-CNN和Fast RCNN的积淀,Ross B. Girshick在20 ...

  3. 福利 | 一文读懂系列文章精选集发布啦!

    大数据时代已经悄然到来,越来越多的人希望学习一定的数据思维和技能来武装自己,虽然各种介绍大数据技术的文章每天都扑面而来,但纷繁又零散的知识常常让我们不知该从何入手:同时,为了感谢和回馈读者朋友对数据派 ...

  4. ​一文读懂EfficientDet

    一文读懂EfficientDet. 今年年初Google Brain团队在 CVPR 2020 上发布了 EfficientDet目标检测模型, EfficientDet是一系列可扩展的高效的目标检测 ...

  5. 一文读懂序列建模(deeplearning.ai)之序列模型与注意力机制

    https://www.toutiao.com/a6663809864260649485/ 作者:Pulkit Sharma,2019年1月21日 翻译:陈之炎 校对:丁楠雅 本文约11000字,建议 ...

  6. AI洞观 | 一文读懂英特尔的AI之路

    AI洞观 | 一文读懂英特尔的AI之路 https://mp.weixin.qq.com/s/E9NqeywzQ4H2XCFFOFcKXw 11月13日-14日,英特尔人工智能大会(AIDC)在北京召 ...

  7. 一文读懂机器学习中的模型偏差

    一文读懂机器学习中的模型偏差 http://blog.sina.com.cn/s/blog_cfa68e330102yz2c.html 在人工智能(AI)和机器学习(ML)领域,将预测模型参与决策过程 ...

  8. 一文读懂AI简史:当年各国烧钱许下的愿,有些至今仍未实现

    一文读懂AI简史:当年各国烧钱许下的愿,有些至今仍未实现 导读:近日,马云.马化腾.李彦宏等互联网大佬纷纷亮相2018世界人工智能大会,并登台演讲.关于人工智能的现状与未来,他们提出了各自的观点,也引 ...

  9. 一文读懂你该了解的5G知识:现在别买5G手机

    来源: 腾讯科技 2019年是中国全力布局5G的一年:三大运营商纷纷搭建基站,手机厂商发布5G手机,部分城市已经开启了5G测试--在电信日这天,腾讯科技联合知乎推出重磅策划,聚焦和5G相关的小知识,精 ...

最新文章

  1. Xtreme.Toolkit.Pro编译简单教程
  2. VS2013中使用git发布解决方案master分支的时候出现错误
  3. 视频大变革:需要技术,也需要情怀
  4. 解决 VSCode 配置 tab 空格数 Dart 语言无效的问题
  5. linux堡垒机开源软件,Jumpserver开源堡垒机
  6. ue4如何恢复初始状态_UnrealEngine4初始化流程
  7. 详解没有dSYM文件 如何解析iOS崩溃日志
  8. new方法、定制属性、描述符、装饰器
  9. /proc/sysrq-trigger的使用
  10. Word转换pdf技巧之pdf虚拟打印机怎么用教程
  11. 【转】一个程序员分享8年的开发经验
  12. Python基础7:文件操作
  13. python系列11:python的游戏引擎
  14. 关于服务器登录用户信息查看的若干命令
  15. 尝试一下LLJ大佬的理论AC大法
  16. 咕咚已上传服务器怎到不丁微信,微信运动怎样使用咕咚数据?
  17. kdj值应用口诀_KDJ指标应用口诀
  18. flink增量读文本数据
  19. 港科夜闻|中科院院士、深圳湾实验室常务副主任(主持工作)吴云东教授一行莅临香港科大(广州)参观访问...
  20. 斯阔谷冬奥会首次使用计算机,1960年斯阔谷冬季奥运会 - 纺织/服装 - 百科全书 - 价值网...

热门文章

  1. C++ STL 容器的一些总结 --- set(multiset)和map(multimap)
  2. java支持多线程吗_Java多线程之一
  3. ios jsonkit 报错_iOS开源项目:JSONKit
  4. 戴尔电脑怎么安装一级计算机,手把手教你戴尔笔记本电脑重装系统教程
  5. python字典遍历 没有顺序_Python中字典的顺序问题(为什么实践发现字典的遍历和方法popitem并不是随机的?)...
  6. 变化很大!2021年THE世界大学排名出炉,这些中国高校表现出色!
  7. 全球超算500强新榜发布:美国卫冕 中国力争
  8. iPDA“国际智能车联合道路演示”压轴,IEEE IV 2018 圆满落幕!
  9. matlab给plc发送命令,想学习下如何将PLC发送的指令让软件接收到?
  10. EWSN 2019 (待续)