2020年随着疫情爆发,企业开始转向了远程办公,云计算也成为了一种绝对的必需品。站在数据角度来看,每个人都会从不同的地方和系统来访问数据,因此数据安全和治理成为了一个非常重要的事项,同时更加智能的AI也变得更加有吸引力,对于历史模型来说也已经变得毫无意义。当然现代元数据的解决方案、DQC、基础设施、工种等等也发生了一些变化。通俗来讲,企业需要意识并要快速做出改变,增加数据方向的投资,升级系统并创建完美的数据栈来适应“新常态”。

今年,我们将看到几个新的数据趋势:新的数据角色和数据质量框架的出现,现代数据栈和现代元数据解决方案的崛起,以及数据湖和仓库的融合。接下来分别介绍下这几种趋势。

趋势一:数据湖仓融合

在过去的十年中,数据架构师围绕两个关键单元设计了数据运营:
1、 数据湖:通过廉价的存储设备来存储大量的原始甚至是非结构化的数据。数据湖架构通常适合临时探索和数据科学用例。
2、数据仓库:传统上的数据仓库通过优化计算和处理速度来提升商业智能,使得仓库成为分析团队的首选系统。
在今天,依旧有许多公司使用这两个系统--一个用于所有数据的数据湖,加上用于分析和报告用例的专门数据仓库。随着数据湖和仓库增加了更多的功能,我们开始看到这两个生态系统的融合。相信在不久的将来,我们会看到数据湖库这种架构。

像Snowflake这样的数据仓库已经将存储和计算的成本分开,大大降低了将所有数据存储在数据仓库的相关成本,目前一些数仓参与者已经开始增加对半结构化数据的支持。从另一方面来说,像 Databricks 这样的数据湖玩家已经开始转向“数据湖库”的概念(一种新兴的系统设计,将数据仓库的数据结构和管理功能与数据湖的低成本存储相结合),而且宣布支持 SQL 分析和 ACID 事务。

趋势二:“现代数据栈”成为主流

从2020年开始,"现代数据栈 "这个词在数据世界里随处可见。它指的是用于处理海量数据的新的、最好的现代数据架构。
现代数据栈的关键支柱之一是一个强大的云平台。它最初以云数据仓库为中心,现在也开始包括云数据湖和相关的数据湖引擎,今天,现代数据栈指的是数据工作流程中每一部分的一整套工具。如:
●数据摄取:例如Fivetran、Stitch、Hevodata
●数据仓库:例如Snowflake、BigQuery
●数据湖:例如Amazon S3
●数据湖处理:例如Presto、Dremio、Databricks、Starburst
●数据转换:例如dbt, Matillion
●元数据管理:例如Atlan
●BI 工具:例如Looker

趋势三:元数据3.0-元数据管理重生

随着现代数据栈的成熟,企业已经开展了雄心勃勃的项目来升级他们的数据基础设施,并整理出基本的数据需求(即摄取数据,完成云迁移项目,并建立新的BI工具)。 虽然这些都释放了大量的潜力,但也造成了混乱,比如我们平时常见的“字段名称的含义是什么意思”以及“为什么看板上的数据又出问题了”等等这样的问题,正因为我们平时大部分时间在解决上述问题,扼杀了团队的敏捷性。

虽然这些都不是新的问题,但我们正处于新的颠覆性解决方案的风口浪尖。由于现代数据平台正围绕五个主要参与者(AWS、Azure、Google Cloud Platform,、Snowflake和Databricks)进行融合,并且元数据本身正在成为大数据,因此未来元数据领域智能化和自动化的潜力巨大。未来我们会看到一个或多个为现代数据堆栈构建的现代元数据管理平台的兴起,这些平台解决了数据发现、数据编目、数据沿袭和可观察性问题。

趋势四: 新工种出现-分析工程师和数据平台负责人

从2020年开始,有两个角色的崛,比以往任何时候都更加主流。
1、数据平台负责人:企业越来越意识到,需要有一个中心团队负责开发数据平台,帮助企业的其他部门更好地开展工作。自然,这个团队需要一个领导者,过去,这是由数据仓库专家或数据架构师等更传统的角色来处理的。现在,拥有一名数据领导者来领导整个组织的数据计划已变得很普遍。所以这些人就有了一些头衔,比如“数据平台负责人”或者“数据平台总监”。那么数据平台领导者的主要工作是监督企业构建现代数据堆栈,这包括设置云数据湖和仓库、实施数据治理框架、选择 BI 工具等。当然这个新角色也伴随着一个新的KPI:那就是采用率。也就是评估企业中人员和团队在日常工作流程中使用数据(和数据平台)的能力。
2、分析工程师:在过去十年中,分析师都会有一种挫折感:那就是在产品化和建立数据管道方面都会依赖数据工程师。像DBT和Dataform这种基于SQL的管道构建工具的出现,通过赋予分析师超级权力,将整个数据转换过程都交到分析师手中以此来改善这种挫折感。这也就是和以前的数据分析师有所不同,现在他们拥有整个数据堆栈,从摄取和转换到最终向其他业务部门提供可用的数据集。

趋势五:数据质量框架的兴起

数据质量是一个在过去二十年中没有太多创新的领域。然而近几年有了很大的发展,而且数据质量的不同方面正在整个数据堆栈中融入。
1、数据质量分析:数据分析是审查数据的过程,以了解其内容和结构,检查其质量,并确定未来如何使用它,在数据资产的生命周期中,分析可以发生多次,从浅层到深入的评估。它包括计算缺失值、最小值和最大值、中值和众数、频率分布以及其他有助于用户了解基础数据质量的关键统计指标,虽然数据质量分析通常是数据堆栈中的独立产品,但公司越来越多地将其作为一项功能纳入现代数据目录,使最终用户能够理解和信任他们的数据。

2、业务驱动的数据质量规则:数据质量不仅仅是关于对数据的统计理解。它也是关于数据是否值得信赖,基于业务背景;例如,你的销售数字通常每周不应增加超过10%。销售额的100%激增应该提醒团队成员,并停止数据管道任务的运行,而不是让它直接提供给高管进行决策。
当然目前仍然没有一个很好的方法让数据团队与业务团队合作进行数据质量检查,但预计这个领域在未来几年会有很多创新。在未来,我们将看到更智能的解决方案,根据数据的趋势自动生成业务驱动的数据质量规则。
3、数据管道中的数据质量测试:数据质量变得普遍的第三种方式就是把它写进数据管道本身。这种思想借鉴了软件工程领域的 "单元测试 "的原则;多年来,软件工程一直包含单元测试框架。它们会自动测试每个单独的代码单元,以确保它可以使用。管道内的数据质量测试可以模仿单元测试框架,这样为数据工程带来同样的信心和速度;这也有助于团队在上游数据更改影响组织的工作流和报告之前发现数据质量问题。

CDO关注的5大趋势相关推荐

  1. 【人工智能AI大数据】AI 的未来:ChatGPT 世界中值得关注的 4 大趋势

    AI 的未来:ChatGPT 世界中值得关注的 4 大趋势 The future of AI: 4 trends to watch for in a ChatGPT world 目录 AI 的未来:C ...

  2. 2020年数据中心值得关注的8大趋势

    随着网络.云计算的发展,数据中心市场在以下方面正悄悄变化着:未来市场的所有者是谁.技术创新趋势.以及客户购买和管理数据中心产品的方式.由于新物联网设备和边缘计算需求的激增,数据中心正变得越来越重要,到 ...

  3. 【数据分析】搜索和非结构化数据分析值得关注的5大趋势

    大多数组织都很好地利用了结构化数据(表格.电子表格等),但是很多未开发的业务关键的见解都在非结构化数据中. 80%组织正在意识到他们80%的内容是非结构化的. 企业中近80%的数据是非结构化的--工作 ...

  4. 软件测试的未来:2021年需要关注的15大软件测试趋势

    原创  读芯术 图源:Google 随着最新趋势被引入IT领域,QA测试有了很大的进步和发展.创新技术的引入带来了软件测试.开发.设计.交付方面的最新更新,大部分IT领导者相信他们的组织能采取最新的I ...

  5. 2021年需要关注的15大软件测试趋势(一)

    2021年15大软件测试趋势列表.这些趋势给QA测试人员的生活带来了巨大的转变,并对软件测试的未来造成重大的影响. 随着IT领域服务的最新趋势的引入,QA测试领域有了很大的进步和发展.创新技术的引入使 ...

  6. 2023 年值得关注的十大人工智能趋势,还不快码住来看!

    人工智能--是全球科技市场最热门的词汇,它让这个繁忙的时间轴上的生活变得更轻松.AI模式正在为世界各地的多个行业提供自动系统.网络安全.自动化.RPA和许多其他好处.以技术和数据为中心的公司需要了解即 ...

  7. 2019年值得关注的区块链4大趋势

    2019年值得关注的区块链4大趋势 2019年,真正的赢家将是那些能够跨越加密和法定世界,实现两者之间的数字链接的公司. 随着2019年的临近,是时候反思2018年的事件了,但更重要的是,要考虑明年会 ...

  8. 2021年需要关注的15大软件测试趋势

    2021年15大软件测试趋势列表.这些趋势给QA测试人员的生活带来了巨大的转变,并对软件测试的未来造成重大的影响. 随着IT领域服务的最新趋势的引入,QA测试领域有了很大的进步和发展.创新技术的引入使 ...

  9. 2023年最值得关注的十大科技趋势,这些技术将迎来爆发,把握住风口和掘金机会!

    1 月 11 日,InfoQ获悉,达摩院 2023 十大科技趋势发布,生成式 AI.Chiplet 模块化设计封装.全新云计算体系架构等技术入选. 达摩院发布十大科技趋势 达摩院认为,全球科技日趋显现 ...

最新文章

  1. 强化学习入门教程(附学习大纲)
  2. 联想一体机用u盘装linux教程,联想ThinkCentre一体机如何u盘装系统教程
  3. 网站SEO优化之如何建设外链提升网站权重?
  4. supersr--时间显示逻辑--NSDate+NSCalendar
  5. 转自CSDNattilax的专栏 :自适应网页设计 跟 响应式 设计的区别跟原理and实践总结...
  6. Spring Security——SessionManagement中InvalidSessionStrategy自定义——简单跳过Fitter过滤刷新Session
  7. 关于「无人驾驶」的学习路线...
  8. bat java 启动脚本_bat批处理启动java程序通用脚本
  9. ubuntu搭建php开发环境记录
  10. JNCIS翻译文档之------接口3
  11. Python3列表推导不会再有变量泄露的问题
  12. 群体智能优化算法之烟花算法(Fireworks Algorithm,FWA)
  13. 《K-means聚类算法研究综述》笔记
  14. Winform/C#入门编程之第三部分容器(四:缩放控件SplitContainer)
  15. 数据结构与算法分析(C++语言版)张琨版 课后答案———第一章
  16. leetcode:买卖股票的最佳时机2(python)
  17. LINUX下的makefile学习(此文是我学习过程遇到问题时找到的所有回答,感谢其它大佬的回答,各个文章我都标明了原文链接)
  18. 《数据库系统》(六)物理数据库设计
  19. IDEA输入字母间距变大报红处理方法
  20. react 购物车组件

热门文章

  1. overfeat论文待续
  2. 如何摆脱打工人?注册申请163邮箱?尊享TOM VIP微信办公助手?
  3. 转:程序猿也爱学英语
  4. ZOJ Monthly, August 2012
  5. P7599 [APIO2021] 雨林跳跃
  6. 数据分析 | 数据可视化图表,BI工具构建逻辑
  7. 用python实现古诗文网个人主页爬取
  8. python期末试卷 答案_《python》期末考试卷A及答案
  9. 神舟笔记本“性能、娱乐、省电、安静”模式之间的区别
  10. C#练习题答案: 折叠用自己的方式去月球【难度:1级】--景越C#经典编程题库,1000道C#基础练习题等你来挑战