解读数据架构的 2020：开放、融合、简化

作者 | 李潇

策划 | 蔡芳芳

在数字时代，数据架构堪称企业 IT 架构的大动脉。这个架构里包括了诸多模块：数据导入导出、处理、存储、管理、查询、应用和可视化。过去十年，整个数据架构发生了大幅的更新和改变，尤其伴随着公有云崛起、数据爆炸、人工智能复兴等诸多大潮席卷而来，整个数据架构正在发生天翻地覆的变化。并且在未来十年，这个趋势仍会继续，原有的架构会不断被改良甚至颠覆。本文将简要谈谈笔者所看到的 2020 年数据架构现状和对未来趋势的展望。

现状：数据驱动、AI & ML、公有云、云原生、开源成为主流

毋庸置疑，2020 年是里程碑的一年。在全球疫情大流行的阴影笼罩下，传统经济形态受创严重，由于各国的封城政策，实体经济要不拥抱数字经济，与互联网融为一体，要不就歇业甚至倒闭。“ 两年的数字化转型在两个月完成了”，微软 CEO Staya Nadella 在年初如是说。阿里巴巴这几年也一直强调自己是一家 数据公司。

在数字化的大背景下，数据驱动、人工智能和机器学习已经成为公司能否脱颖而出的标配。智能推荐、异常检测、日志分析这些典型的智能应用已经成为数字架构的基本应用场景。根据领英的 2020 新兴职业报告，数据科学家、数据工程师和人工智能专家在各个国家都炙手可热。

与此同时，公有云在欧美国家已经成为主流，即使在数据架构最保守的金融业也是如此。美国信用卡行业巨擘 Capital One Bank 在 2020 年冬天完全关闭了所有的数据中心，全线进入公有云。无独有偶，美国国防部 100 亿美金的 JEDI 项目也在九月正式确认选择微软的云服务。由此可见，公有云已经成为数据架构平台的主流趋势，安全性问题不再是上云的拦路虎。各大公有云厂商的靓丽财报也充分说明了各大企业在用实际行动投票。

另外，在公有云的大背景下，云原生成为了新一代数据架构的主流标准。公有云所提供的对象存储、弹性计算、按需使用等特性在架构设计的考虑中需要重新设计。除了公有云厂商的标配服务外，跨云平台的第三方的服务提供商（比如，Snowflake 和 Databricks 等）也受到用户的追捧。云原生的数据仓库提供商 Snowflake 在 2020 年秋天上市，市值一度攀升至超过一千亿美金。相比之下，传统数据仓库的顶尖提供商（如 Teradata）市值还不到 30 亿美金。可见，华尔街的资本市场对云原生和公有云的前景信心十足。

最后，开源软件的战略意义，随着中美贸易摩擦加剧，被提到了前所未有的高度。作为企业的核心 IT 生命线，数据架构需要做到风险可控和成本可控。成熟的架构选型需要保证企业的数据架构不被特定国家的政策影响，不被特定软件锁定，不被特定云厂商锁定。因此，基于开源项目的产品和服务在架构选型中异常热门。在红帽公布的 2020 企业开源报告里，数据库和数据分析的开源软件使用高居第三和第四名。与此同时，各大 IT 企业也积极参与到了开源社区的工作中，投入资源，共同开发开源软件。

趋势：AI 和 BI 的统一

数据架构的 核心在于使用场景和使用群体。以 BI（商务智能）为主要使用场景的数据仓库一直是数据架构的核心。而过去十年，通过大数据驱动的 AI（人工智能）渐渐从新贵变成了主流。高效支持 AI 的数据使用也成为数据架构设计的必选项。因此，数据架构的设计必须考虑到 AI 和 BI 的不同需求。数据架构的用户也不再仅仅是主攻 SQL 来做报表的数据分析师，而是扩展到了数据工程师和数据科学家。数据工程师要设计和维护大量的数据 Pipeline（比如 ETL/ELT）来实现数据清理和管理。数据科学家则需要做数据的探索、建模、部署、修正。如何满足以上不同需求并简化架构，变成了数据架构设计的核心指标。

统一 AI 和 BI 是否意味要 统一语言？ 有不少传统的 BI 系统（尤其是数据库和数据仓库的厂商）正在尝试扩展 SQL 语言来给数据科学家和数据工程师提供相关的功能。可是，这个努力正在被 SQL 语言的表达力所限制，而打破标准的形形色色的扩展也牺牲了应用的可迁移性。更为致命的缺陷是，这些 SQL 扩展很难融入 AI 的生态圈。

AI 的应用不仅仅局限在若干 API 的调用或数据查询。AI 系统包含一系列复杂的数据操作，包括数据探索、可视化、清理、融合、建模、部署、修正。整个过程中经常需要调用大量的第三方库，而这些库往往又使用不同的语言。幸运的是，随着人工智能、机器学习和数据科学的爆发扩展，Python 逐渐成了这个领域的官方默认语言。拥抱和支持 Python 已经逐渐成为必选项。SQL 不会是数据架构的唯一语言，反而 多语言的支持 会是主流。

数据拷贝？ 为了同时支持 AI 和 BI 的使用场景，常见的方法是简单地将数据拷贝成多份，但这也会带来相当深远的危害。不单大幅增加了存储的费用，而且降低了数据的实时性和一致性，进而影响正确性和准确性。更重要的是，多拷贝会给数据安全带来重大隐患。任何数据的泄露都是影响公司品牌和用户隐私的重大事故。

存储和计算的分离 是数据架构当前的发展趋势。数据将以 开放标准 的数据格式（比如，Delta Lake 就选择了开源的 Apache Parquet 格式）来存储和管理，从而避免不必要的数据迁移和拷贝；数据查询、处理和使用则基于用户的具体需求来选择最合适应用程序和计算平台。

趋势：数据湖和数据仓库的统一

传统数据仓库的诸多局限（比如，价格昂贵、数据必须结构化等）促使数据湖在大数据时代横空出世。可是，数据湖的可靠性缺陷也让它的使用变得复杂异常，而且它的性能也不如数据仓库。过去几年间，数据仓库和数据湖方案都在快速变化，除了解决各自的不足，二者之间的边界也正在逐渐淡化。

这个趋势在公有云更加明显，云原生的新一代数据架构不再遵循数据湖和数据仓库的经典架构。对于底层的数据存储媒介，新一代架构不再选择数据仓库在公有云上重建一套复杂的存储服务，反而像数据湖采用公有云所提供的可靠且廉价的对象存储服务（比如，AWS S3 和 Azure Blob）。与此同时，经典的数据仓库的相关性能优化和可靠性设计也被百花齐放的新一代存储结构所采纳。其中既有闭源的产品（比如，Snowflake、Redshift、Synapse、BigQuery），也有开源项目（比如，Delta Lake、Apache Hudi、Apache Iceberg、Hive ACID）。

更准确地说，未来越来越多的云原生方案会融合数据湖和数据仓库的优势重新建构，取其精华、去其糟粕，而非局限于数据湖或者数据仓库的单一架构。今年年初 Lakehouse 的提出，就可以看作这个方向的一个典型例子。

趋势：从数据管理到元数据管理

数据管理和其元数据的管理是相伴相生的。最大化挖掘数据价值离不开元数据管理。数据发现、分享、使用和监控都建立在元数据管理的基础之上。在大数据时代，数据源的丰富化、数据内容的快速迭代、数据的分散管理、数据使用者的多样性，这些都让元数据管理变得异常艰难。

Gartner 的 ”Survey Analysis: Data Management Struggles to Balance Innovation and Control“ 显示，当前数据管理团队只有 8% 的时间花在元数据管理和 Data Catalog 的约束上。从某种程度上说，元数据管理的重要性在绝大多数的数据架构里都被严重低估了。当前存在的一个普遍现象是，数据资源的查找和共享还处于原始社会阶段，而数据文档的质量和所有权也普遍缺乏规范。

为了解决元数据管理的急切需求，过去两年，各大公有云厂商都相继推出和增强 Data Catalog 服务。今年几个头部科技企业也陆续开源了自己的 Catalog 项目，比如，领英开源了 DataHub，并且初创团队创立了 Metaphor Data 公司，而 Lyft Amundsen 也加入了 LF AI Foundation 并创立了 Stemma 公司。我们预计，未来 元数据的管理系统将会成为数据架构的核心部件。元数据的可视化、数据的血统追溯、管理自动化、操作简单化和元数据的快速分析都会成为标准。

趋势：数据流水线（Data Pipeline）从复杂到简单

在数据驱动一切的当下，数据流水线就如心脏到大脑的血管，不容有错，可是数据的爆炸式增长和业务逻辑的动态性导致流水线的设计异常复杂。早在 2016 年，Spark 2.0 开始提出批流一体，当前已经被整个业界普遍接受，其核心理念是降低数据流水线的复杂度，将状态信息存储到 state store 里，从而简化批处理定期重启和容错处理的操作。2017 年，带有 ACID 属性的存储层（比如，Delta Lake）进一步解决了数据流水线的诸多痛点，比如 ACID 一致性、回滚、审查、数据更新和错误矫正。可是，即便如此，整个流水线还是异常复杂。

背后的核心问题是流水线的设计和实现还停留在命令式（imperative），还是所谓的过程导向。当前，流水线的复杂性和脆弱性暴露给了终端使用者，维护和优化的难度相当之高。未来数据流水线也会被抽象成结果导向的声明式（declarative），只需要声明业务逻辑，就可以实现整个 pipeline。把复杂留给数据架构系统的实现者，而对使用者做到真正的简单易用。

大潮来袭

数据无处不在，并且已经成为各行各业商业决策的全新驱动引擎。随着以数据为核心的新兴应用场景不断涌现，数据架构必然会不断进化和蓬勃发展。这一切，仅仅是开始。我们坚信，未来十年还会持续涌现出新的架构和新的趋势。而数据架构是服务于具体业务需求的，因此，在数据架构的选型上，盲目求新往往是大忌。 从业务实际需求出发，选择最适合的，才是企业数字化转型成功与否的关键。

由于篇幅有限，本文无法全面涉及每个模块的具体变化和发展。如有疏漏，敬请谅解。

作者介绍：

李潇，现就职于 Databricks，主管 Spark 研发团队，专注于 Apache Spark，Databricks Runtime 和 Koalas 的研制和开发。他也是 Apache Spark 项目管理委员会成员。本科毕业于南京理工大学，后在佛罗里达大学（University of Florida）获计算机博士学位，曾就职于 IBM，获发明大师称号（Master Inventor），在数据处理领域发表专利十余篇。（Github: gatorsmile）

参考资料：

[1] Emerging Architectures for Modern Data Infrastructure https://a16z.com/2020/10/15/the-emerging-architectures-for-modern-data-infrastructure/

[2] Microsoft Corp (MSFT) CEO Satya Nadella on Q3 2020 Results https://seekingalpha.com/article/4341291-microsoft-corp-msft-ceo-satya-nadella-on-q3-2020-results-earnings-call-transcript?part=single

[3] Emerging Jobs Reports by Linkedin https://business.linkedin.com/talent-solutions/emerging-jobs-report#select-country/two-zero-two-zero

[4] How Capital One became the first fully cloud-enabled US bank https://www.businessinsider.com/capital-one-first-us-bank-fully-on-cloud-aws-netflix-2020-11

[5] U.S. Defense Department reaffirms $10 billion cloud deal to Microsoft https://www.marketwatch.com/story/us-defense-department-reaffirms-10-billion-cloud-deal-to-microsoft-2020-09-04

[6] The State of Enterprise Open Source A Red Hat® Report https://www.redhat.com/en/enterprise-open-source-report/2020

[7] What is a Lakehouse? https://databricks.com/blog/2020/01/30/what-is-a-data-lakehouse.html

[8] Survey Analysis: Data Management Struggles to Balance Innovation and Control https://www.gartner.com/en/documents/3982237/survey-analysis-data-management-struggles-to-balance-inn

[9] Open sourcing DataHub: LinkedIn’s metadata search and discovery platform https://engineering.linkedin.com/blog/2020/open-sourcing-datahub--linkedins-metadata-search-and-discovery-p

[10] Amundsen is an incubation-stage project of the LF AI & Data Foundation. https://lfaidata.foundation/projects/amundsen/

[11] Spark Structured Streaming A new high-level API for streaming https://databricks.com/blog/2016/07/28/structured-streaming-in-apache-spark.html

RECOMMEND

解读数据架构的 2020：开放、融合、简化相关推荐

年度钜献，108个大数据文档PDF开放下载
1.大数据的开放式创新--吴甘沙相关阅读:[PPT]吴甘沙:让不同领域的数据真正流动.融合起来,才能释放大数据的价值下载:大数据的开放式创新--吴甘沙.pdf 2.微软严治庆--让大数据为每个人服 ...
云原生大数据架构中实时计算维表和结果表的选型实践
简介: 随着互联网技术的日渐发展.数据规模的扩大与复杂的需求场景的产生,传统的大数据架构无法承载. 作者 | 志羽来源 | 阿里技术公众号一前言传统的大数据技术起源于 Google 三架马车 ...
2020数据架构师面试题库
数据架构师面试问题不仅涉及特定于角色的主题,例如数据仓库解决方案,ETL和数据建模.实际上,面试官还会用脑筋急转弯,行为和情境问题来挑战您.那么,您如何为成功的数据架构师面试做准备? 在2020数据架 ...
LiveMe x TiDB丨单表数据量 39 亿条，简化架构新体验
近些年,由于互联网的快速发展以及线上需求的爆发,直播在国内已经成为一个非常成熟的商业模式.在娱乐.教育.办公等场景中涌现出许多优秀的视频直播产品.随着国内市场竞争日益白热化,加之企业出海渐成趋势,越来 ...
采用软件定义数据中心 (SDDC) 和超融合基础架构 (HCI) 解决方案的 InterSystems 客户需要重点关注的事项...
本文介绍了 InterSystems 客户围绕 SDDC 和 HCI 解决方案的注意事项. 采用软件定义数据中心 (SDDC) 和超融合基础架构 (HCI) 解决方案的 InterSystems 客户 ...
业务架构·应用架构·数据架构实战~TOGAF理论全景解读
1.解读TOGAF 9.2的BA.DA.AA.TA内容模型企业架构(Enterprise Architecture)包含如下四种架构 BA(Business Architecture):业务架构 D ...
2020最新MySQL数据库面试题（ MySQL引索系统+MySQL数据架构+红黑树结构图+B+树）
视频参考一线互联网大佬一堂课教会你那些年,你未曾了解的MySQL索引优化 [建议收藏] '阿里高级架构师一个视频教会你MySql 各大知识点MySQL系列/ MySQL引索系统/MySQL数据架构/红 ...
【数据架构解读】基于阿里云数加StreamCompute和MaxCompute构建的访问日志统计分析...
[场景] 用户搭建网站会不断的产生访问日志(Nginx,Apache访问日志).为了从访问日志中挖掘出更多价值,本文主要阐述如果利用阿里云数加从沉睡中的访问日志中获取更有价值的数据,包括用于实时统计和 ...
大数据架构如何做到流批一体？
阿里妹导读:大数据与现有的科技手段结合,对大多数产业而言都能产生巨大的经济及社会价值.这也是当下许多企业,在大数据上深耕的原因.大数据分析场景需要解决哪些技术挑战?目前,有哪些主流大数据架构模式及其发 ...

解读数据架构的 2020：开放、融合、简化

解读数据架构的 2020：开放、融合、简化相关推荐

最新文章

热门文章