简介: 企业大数据技术发展至今,历经了两次蜕变。第一次蜕变从最初的“小作坊”解决大数据问题,到后来企业用各类大数据技术搭建起属于自己的“大平台”,通过平台化的能力完成数据生产力的升级。 第二次蜕变让大数据从“大平台”向“敏捷制造”的开发范式演进。在2021阿里云峰会上,阿里巴巴集团副总裁、阿里云智能计算平台事业部高级研究员贾扬清发布基于DataWorks的一站式大数据开发治理的平台,就是这个蜕变最好的佐证。

企业大数据技术发展至今,历经了两次蜕变。第一次蜕变从最初的“小作坊”解决大数据问题,到后来企业用各类大数据技术搭建起属于自己的“大平台”,通过平台化的能力完成数据生产力的升级。

第二次蜕变让大数据从“大平台”向“敏捷制造”的开发范式演进。在2021阿里云峰会上,阿里巴巴集团副总裁、阿里云智能计算平台事业部高级研究员贾扬清发布基于DataWorks的一站式大数据开发治理的平台,就是这个蜕变最好的佐证。

值得一提的是, 诞生于2009年阿里巴巴集团内部的DataWorks,不仅见证了阿里巴巴十多年大数据几次蜕变发展,更是阿里巴巴数据中台建设的最佳实践之一。如今 DataWorks平台可以支撑阿里巴巴内部上百个业务团队的数据业务建设,每天稳定调度上千万数据处理任务。阿里巴巴每天有超过5万名员工在DataWorks上完成数据分析、数据开发和数据治理工作。

那么,DataWorks如何让大数据向 “敏捷制造” 演进,背后具备什么样的核心能力?在全链路数据服务—大数据与AI分论坛,DataWorks产品负责人黄博远透露了DataWorks核心的三个“ONE”能力。

简单来讲,DataWorks以一站式的理念,通过一条数据开发链路,一套数据标准架构,一套数据治理体系,与大数据计算引擎结合,让企业拥有一站式的数据开发与治理能力。

1、一条数据开发链路

很多的企业发展到一定阶段以后都会面临这种情况:
1)数据来自于不同地域的数据中心,比如阿里云上有公共云、专有云,对于企业来讲也有自己的私域,同时又要服务企业外部的客户与合作伙伴,数据非常分散。

2)大数据的引擎百花齐放,选择多样。不管是阿里自研的SaaS模式云数据仓库MaxCompute、交互式分析Hologres和分析型数据库AnalyticDB,还是开源的EMR、CDH、Flink、Elasticsearch等等,种类极为丰富,我们很难说哪一款产品是最好的,对于企业来说这种技术选型是多样的,按需的。

3)数据与AI及应用如何更好地结合?大数据加工处理完的数据还需要结合AI算法,以服务化的方式给到数据应用,如何实现BI与AI一体化,释放数据价值。

针对以上痛点,DataWorks可以帮助企业实现数据集成、数据开发、数据治理和数据服务,将大数据全生命周期管理整合到一条完整链路中。

首先满足企业在复杂网络条件下,DataWorks实现近50种异构数据源的离线/实时的同步,让企业更好地迈出大数据建设的“第一步”。其次,它的底层对接了MaxCompute、EMR、CDH、Hologres、AnalyticDB、实时计算Flink版等大数据引擎,让多种计算引擎的数据开发治理工作都可以在同一个平台一站式的完成。最后,大数据平台加工好的数据集可以无缝对接到机器学习平台中进行AI训练与在线预测服务,也可以通过数据服务以API方式给到BI、大屏等各类数据应用。

2、一套数据标准架构

对于企业而言,数据绝不是简单地堆积在一起,阿里巴巴通过数据中台建设,规范了集团统一的数据标准架构,将数据进行清晰的结构分层,每一层又有明确的范围与边界。在贴源层,企业将完成全域数据的汇聚,保留所有的原始数据。在整合层,企业通过数据标准、数据建模等方式确立数据的规范体系。在汇总层,企业将基于业务需求对数据进行汇总加工,提炼公共的数据指标。在应用层,面向前台业务应用构建数据集市,为应用提供源源不断的高质量数据服务。这一套架构本身不具备产品化能力,但企业可以基于DataWorks,快速复制这套数据标准架构。

3、一套数据治理体系

企业如何管理数据资产?如何保障数据质量?如何保障数据安全?如何有效地控制成本以及减少不必要浪费?这些问题都对数据治理提出了更高的要求。正常来讲,各类数据治理工作通过人工的方式其实也能够完成,但是阿里巴巴现在每天处理的数据超过1.7EB,每天调度的任务数在千万级,很难想象靠人工来完成所有的治理工作。DataWorks将阿里巴巴十多年数据治理的实践沉淀成产品化能力,完整覆盖模型设计、数据质量管理、元数据管理、安全管理等贯穿数据加工处理和使用的全链路所需的治理能力。一个平台,就具备一套完整的体系化的能力。

在分论坛现场,DataWorks全新发布数据建模产品,让企业从业务视角进行数仓规划、数据标准定义、维度建模和数据指标设计,用规范化的“图纸”指导大数据“建设”工作,提升企业数据中台建设的规范性和标准性,大大降低企业数据中台建设门槛和成本。同时DataWorks将持续加大与生态伙伴合作,推出具备不同行业属性和不同建模方法的数据建模类产品,以支撑不同行业不同场景的数仓模型设计。DataWorks数据建模产品将于2021年7月开启公测,届时欢迎大家在阿里云官网搜索“DataWorks”开通体验。

除了数据建模外,DataWorks覆盖了数据同步、元数据、数据资产、数据质量、数据地图、任务运维、数据安全、数据分析、数据服务等数据全生命周期的治理能力。

事实上,DataWorks已经应用到各行各业的数字化转型中。在工业行业,DataWorks帮助三一重工打通86个核心业务系统,处理每月50PB的各类图像、视频、物联网数据,建设业内场景最全的数据中台。在能源行业,DataWorks帮助企业建立10余种数据中台运营规范,完成四大场景50+指标产出,规范数据治理流程,提升数据可用率。在钢铁行业,DataWorks让数据在数据中台进行自由流动,保证数据准确、准时、一致,让企业综合成本削减1亿元。在互联网行业,得物APP通过DataWorks OpenAPI构建全链路数据血缘,自主研发全链路解析能力,下线2万张表与近千个计算任务,让企业成本降低20%。

未来企业的数字化转型将对数据的治理与分析提出更高的要求,DataWorks将帮助企业快速构建数据中台,通过全链路的数据治理提供高质量的数据底座,让数据的“敏捷制造”成为企业数字化的“敏捷转型”。

原文链接
本文为阿里云原创内容,未经允许不得转载。

数据的“敏捷制造”,DataWorks一站式数据开发治理范式演进相关推荐

  1. 开放下载!《一站式大数据开发治理DataWorks使用宝典》

    简介:零基础入门大数据开发治理,上手DataWorks 10大模块 DataWorks官方入门电子书出版啦,零基础入门大数据开发治理,全面了解DataWorks十大功能模块,快速上手DataWorks ...

  2. 阿里云大数据ACP(一)大数据开发平台 DataWorks

    文章目录 一.DataWorks 简介 1.1 DataWorks 的功能概述 1.2 DataWorks 产品特点 1.3 DataWorks 产品优势 1.4 应用场景 (助力企业搭建大数据信息平 ...

  3. 重磅发布 , 阿里云全链路数据湖开发治理解决方案

    阿里云重磅更新全链路数据湖解决方案,主要包含开源大数据平台E-MapReduce(EMR) + 一站式大数据数据开发治理平台DataWorks + 数据湖构建DLF + 对象存储OSS等核心产品. 近 ...

  4. 如何基于DataWorks构建数据中台?

    简介:为了应对众多业务部门千变万化的数据需求和高时效性的要求,阿里巴巴首次提出了数据中台的概念,经过众多项目的实践已经沉淀出了标准化的流程和方法论.如何构建一个数据中台?一个好的数据中台需要具备哪些功 ...

  5. 专注数据,打造阿里云Elasticsearch“一站式”数据服务体系

    众所周知,Elasticsearch的问世使得各种结构.非结构数据得以实现实时搜索.分析的可能,越来越多的用户使用ES集群(即Elasticseach集群,下文均简称ES集群)实现数据的升值与挖掘.而 ...

  6. 2021爱分析・数据智能平台实践报告—重构数据智能时代的数据基础设施

    报告编委 报告指导人 黄勇 爱分析 合伙人&首席分析师 报告执笔人 洪逸群 爱分析 高级分析师 莫业林 戴甜 爱分析 爱分析 分析师 分析师 外部专家(按姓氏拼音排序) 方磊 九章云极 董事长 ...

  7. 制造生产模式的演变与敏捷制造

    制造业是国民经济的基础产业,其发达程度体现了一个国家的科学技术和社会生产力发展水平.从十八世纪英国爆发工业革命开始,制造业走出手工作坊阶段,迅速发展壮大,逐渐成为世界各国国民经济中的主导产业.特别是本 ...

  8. 阿里:DataWorks一站式大数据开发治理平台

    官网: 大数据开发治理平台 DataWorks - 帮助中心 - 阿里云

  9. 案例分享 | 基于Linkis+DSS构建合合信息一站式数据开发平台

    目录指引 1. IDS 的简介 2. IDS 的诞生背景 3. IDS--合数据工坊的实践之路 3.1 用户权限 3.2 引擎增强 3.3 作业调度 3.4 数据治理 3.5 IDS 中一些小的功能改 ...

最新文章

  1. 算法基础知识科普:8大搜索算法之AVL树(上)
  2. jenkins搭建cc++自动化构建
  3. 如何用计算机弹出ink sans,INKSANS模拟器PC
  4. python教程:关于 [lambda x: x*i for i in range(4)] 理解
  5. OpenShift 4 之获取版本升级路径图
  6. 地方命令SqlServer2008中解决在表上点右键把【编辑前200行】变成【编辑前10000行】的方法!...
  7. oracle 知识点
  8. hdu 4323 Magic Number dp 多校联合赛(三)第四题
  9. 华为scp快充协议详解_1A1C多协议快充,倍思30W PD PPS双口充电器(BS-CH905)评测...
  10. matlab排序算法,相同位置返回元素排名
  11. jupyter notebook代码无法运行
  12. html embed函数爬取,HTML DOM Embed用法及代码示例
  13. 帮助睡眠最好的办法是什么?对睡眠好的东西分享
  14. 数据可视化-制作交易收盘价
  15. 错误:There was a problem confirming the ssl certificate: [SSL: CERTIFICATE_VERIFY_FAILED] certificate
  16. 银行信用卡客户价值分析(Python数据分析)
  17. 网易云易盾三款产品入选2018网络安全全景图
  18. 扬帆际海教育:跨境电商需要了解的主流社媒平台
  19. 2023最新SSM计算机毕业设计选题大全(附源码+LW)之java水果生鲜销售系统7826c
  20. 如何使用 WEB 技术编写前端代码,实现大屏展示和地图显示功能

热门文章

  1. java 文件通道_Java NIO(四)文件通道
  2. python 类和对象 经常用吗_python基础教程之对象和类的实际运用
  3. java 鼠标精灵_纯Java实现跨平台鼠标键盘模拟、找图找色,Java版按键精灵
  4. python创建access表_Access创建表
  5. putty保存用户名和密码_社保局官网搬家啦!忘记用户名、密码肿么办?自救指南来一波!...
  6. java 虚拟机 字节码,JAVA虚拟机:虚拟机字节码执行引擎
  7. 2019年Java编程开发值得学习的10大技术
  8. JAVA程序员已成为最疯狂的加班行业,没有之一?
  9. 查看计算机用户修改密码时间,使用ldap语句查询某时间后没改密码的用户
  10. 【LeetCode笔记】剑指 Offer 31. 栈的压入、弹出序列 (Java、栈)