春日游湖不易，但居家聊聊数据湖还是可以的……

其实“数据湖”的概念由来已久，如果追溯时间大概可以到2011年。

如今我们经常提及的数据湖其实可以被认为是一个集中式的安全存储库，用户可以任何规模存储、管理、发现并共享所有结构化和非结构化数据，过程中无需预定义架构。

具体来说，从目前数据湖的实践情况来看，集中放入其中的数据基本上可归结为三种类型，分别为来自业务系统的结构化且价值较高的数据，虽然数据不大并关系复杂；日志类的庞大体量运维数据，尽管价值并不高但在企业IT架构正常运转中不可或缺；以及以音频、视频等非结构化形式著称的其他数据，本身价值凸显但被聚合分析的几率较小。

通常，不同类别的数据需要凭借差异化的存储设备进行保存，如今需要被放到一个池子中还能被提供各种不同的接口完成调用，的确挑战颇多，而数据湖恰好应对了这一点，即借助数据湖可以在合适的时间将对的数据提供给正确的人，不必费心管理存储数据的不同位置访问，还能对数据机密性与安全性提供有力的保障，何乐而不为？

更多关于数据湖的周边有哪些？

据Aberdeen的一项调查数据表明，实施数据湖的组织比同类公司在有机收入增长方面高出9%。究其原因，数据湖不单单可以解决便捷存储数据的问题，同时还能做到兼容传统数据仓库的分析方法并尝试新类型分析，例如通过日志文件、来自点击流的数据、社交媒体以及存储在数据湖中的互联网连接设备等新来源的机器学习，以此作出智能决策。

可以想见，数据湖作为机器学习和人工智能的强大基础，可以帮助机器学习使用从现有数据中学习的统计算法，也被称之为训练过程，来做出有关新数据的决策。具体来说，在训练期间将识别数据中的模式和关系以建立模型，而模型就成为决策智能的关键所在，所以数据湖的双特性其实非常适用于数据科学家以及研究人员进行探索性的数据查询与分析，进行一些研究性、前瞻性的服务。

谈了如此多有关数据湖的惊艳之处，究竟在技术层面，数据湖与现今经常被提起的数据库、数据仓库甚至是数据中台关系如何？众所周知，数据库被定位于一个单一的数据应用，将数据存储其中，有关系型与非关系型之分；而数据仓库则是一个优化的数据库形式，用于分析来自事务系统和业务线应用程序的关系数据，事先定义数据结构和 Schema 以优化快速 SQL 查询，其中结果通常用于操作报告和分析。

其实在数据仓库之前还有数据集市的概念，大多数部门级别的数据均可放入其中，但晶少认为更多针对数据仓库的定义还是企业级，规模较大，也是企业IT不可忽视的内容，但由于数据仓库的要求比较局限，不能够适应快速发展的数据变化，数据湖时代也就应运到来了；相比之下，与数据仓库明显差异，数据湖的数据存储主要来自业务线应用程序的关系数据以及移动应用程序、IoT 设备和社交媒体的非关系数据。捕获数据时，未定义数据结构或 Schema，可以存储所有数据并使用不同类型的分析（如 SQL 查询、大数据分析、全文搜索、实时分析和机器学习）来获得相应的见解。

谈毕数据库与数据仓库，面对时下火热的数据中台， AWS首席云计算企业战略顾问张侠则表示，其实数据中台并不是数据行业的专门术语，更像是互联网时代关于应用架构的专业名词。

总结一下，数据湖的大力涌现更多得力于云计算技术提供的海量存储以及大量方便、高性能计算的可能性，换句话说也正是因为云带来的技术创新才有了数据湖的横空出世。

AWS数据湖服务几多详情价值？

当云计算还处于懵懂年纪，AWS就已经倾力拉开了这场以技术变革为主旋律的开场大戏，掐指一算从2006年至今也已走过了十几个年头，在此过程中针对数据湖的探索更是持续不断并层出不穷。概括来说，AWS将数据湖有机拆分成数据导入、数据分析以及数据保存等几大步骤，伴随涌现出对应数据迁移专家服务、Amazon S3等存储服务以及Amazon RedShift等为主打的分析类服务，俨然将数据湖本身定位于一种解决方案。

我们看到，AWS数据湖服务主要基于对象存储服务S3构建。Amazon S3作为一种高持久性、经济高效的对象存储服务可支持开放数据格式，同时将存储与计算解耦，并可做到与所有AWS技术矩阵中的分析服务集成使用。据晶少了解，Amazon S3提供了11个9的耐用性，高弹性的3个可用区架构，以及更多区域复制选项与分离，并拥有独立扩展存储和计算能力，从而为数据湖提供了最佳存储层。

仔细探究之后我们发现，其实数据的生命周期中包含很多内容，更多需要对原始数据进行最大程度的合理管控设计等，在源头上保证数据质量。“数据可以率先存储在Amazon S3中，依照数据不同的量级、特点以及性质加以处理，这是一种自动的生命周期管理功能。”张侠总结道。

值得提及的是，在AWS庞大全面的数据湖服务中，有一种名为AWS Athena的交互式查询服务独具风格。谈及特殊，主要是其采用了时下风靡的无服务器架构，可以做到无需设置或管理基础设施就可轻松使用标准 SQL 直接分析来自 Amazon S3 的数据，也没有复杂的 ETL 过程。

据了解，Athena 服务使用了 Presto，即一种分布式 SQL 引擎来运行查询；采用Apache Hive来创建、放置和修改表与分区，可快速在查询编辑器中编写符合 Hive 规范的 DDL 语句以及 ANSI SQL 语句；此外还可以在其上使用复杂的联结、窗口函数以及复杂的数据类型等。由于Athena 使用一种称为读时模式(schema-on-read) 的方法，如此可以在执行查询时便捷地将 schema 投射到目标数据上。

另外，同样作为Amazon S3 数据湖的重要组成部分之一，AWS Glue与AWS Athena一样也沾了无服务器技术的光，具有无服务器托管、操作的功能，为现代数据分析提供了数据目录和转换服务。

总体来说这是一种完全托管的数据目录和 ETL（提取、转换和加载）服务，可做到简化和自动化数据发现、转换和作业调度中难度较大且耗时的任务。毕竟据观察用户在使用数据湖架构实现数据分析解决方案时，通常有75%的时间花在数据集成任务上，需要从各种数据源提取数据，对其进行规范化，并将其加载到数据存储中，而AWS Glue则消除了ETL作业基础设施方面的所有重复劳动。

晶少获悉，AWS Glue使用过程中能够识别常用数据格式和数据类型的预构建分类器(classifiers)抓取数据源并构建数据目录，主要包括 CSV、Apache Parquet、JSON 等；能够做到跨各种服务创建统一的元数据存储库、抓取数据源以发现schema并使用新的和修改后的表与分区定义填充数据目录并做到维护schema版本控制；此外还可以使用其完全托管的 ETL 功能来转换数据或将其转化为列格式，以优化成本并提高性能。总体来说，通过简化创建ETL作业的过程，AWS Glue让用户可以构建可伸缩、可靠的数据准备平台，这些平台可以跨越数千个ETL作业，具有内置的依赖性解析、调度、资源管理和监控功能，更容易跨越各种数据存储，检索和管理所有数据，而不必手动搬运。

更值得关注的一点，AWS Glue可以和AWS Lambda以及AWS Step Functions这些无服务器服务整合在一起，并做到与机器学习和人工智能技术相结合，包括与Amazon SageMaker协同完成更多自动预测性分析，这一点比较惊艳。对此张侠表示，如今AWS已经有100多种服务来支持任何数据湖用例，更多的无服务器就地查询与处理选项可缩短获得结果的时间并降低数据洞察的成本。

“随着AWS Glue在由西云数据运营的AWS中国（宁夏）区域正式上线，中国区域的客户可以轻松地从任意多的数据源传输和处理数据，整合数据到数据湖并且可以选用多种AWS分析服务并迅速开始分析所有数据。”AWS全球副总裁及大中华区执行董事张文翊总结道。

谈到更多服务上线支持数据湖用例的情况，其实早在去年8月，AWS就发布了一项名为AWS Lake Formation的新服务，尽管目前还未在中国区上线投入使用，但却广受业内关注，主要由于该服务将在简化数据湖出创建过程方面助力颇多。

例如原本几月内的创建工作可在几天内完成，并完成从数据库和对象存储中收集和分类数据，将数据移至新的Amazon S3数据湖中，使用机器学习算法对数据进行清理和分类以及安全访问敏感数据等相关工作。

技术细节上，AWS Lake Formation通过识别S3或者关系数据库和NoSQL数据库中存储的现有数据并将其移动到数据湖中；此后对数据进行抓取、编目以及准备来进行有关分析，借此让用户通过其选择的分析服务安全自助访问数据，此外其他AWS服务和第三方应用程序也可以通过显示的服务方式达成访问数据的目标。至此数据湖服务最主要的三大要素，即Amazon S3/Glacier、AWS Glue以及AWS Lake Formation全部集齐待发。

谈及这么多AWS数据湖服务的技术细节之后，想必更多看官十分关心一点：究竟哪些体量或者级别的企业适合使用数据湖？对此，张侠认为其实各种规模以及领域的企业都可采用数据湖的思路来搭建内部的数据应用平台，只是相比于中小企业，大型企业利用此做更多、更复杂的数据分析工作而已。就AWS内部业务的数据湖部署为例，本质就是更多将每天多达60万的分析任务，涉及用户推荐、运营信息、库存情况以及购买等环节，通过数据湖服务进行高效分析并作为核心竞争力延续至今。

另外据晶少知晓，2016年由嘉云数据在杭州成立的Club Factory，也一直使用AWS数据湖服务来做数据关联，为客户在全球寻找各种各样的产品。

即每天处理15亿条各种行为分析，支撑180个数据调动分析任务，以此来达成用户产品推介、内部运营分析以及供应商的管理创新等目标。当然，其实这样的实例还有很多，比如用户超三千万的小红书使用AWS数据湖存储海量的日志数据和来自社区的图片、评论、表情等非结构化数据来分析用户的喜好；千万用户级别的流利说通过使用AWS数据湖建立了大型“中国人英语语音数据库”，在此基础上开发英语口语评测、英语写作打分引擎和深度自适应学习系统等。

从2011年发展至今，数据湖从零散的开源解决方案到目前AWS将服务整合为关键、统一、标准的解决方案，其应用性越来越强；可想而知当物联网、5G、边缘计算等新技术全面爆发之时，数据湖针对数据存储与分析的事儿就真正到了认真探讨与好好研究的关键阶段了，在此期间还会有更多数据智能挖掘的惊喜如期而至。

春日游湖不易，但居家聊聊数据湖还是可以的……相关推荐

今天聊聊数据湖和“三剑客”，吐槽一下数据湖被夸大的增量功能
开篇我先说一下我的观点:数仓实现不了的增量数据湖也实现不了,数据湖能实现的增量数仓也可以实现. 在谈数据湖之前,我们先问问chatGPT到底什么是数据湖. 从数据湖的定义上看,可以说数据湖的第1条和第 ...
从Delta 2.0开始聊聊我们需要怎样的数据湖
盘点行业内近期发生的大事,Delta 2.0 的开源是最让人津津乐道的,尤其在 Databricks 官宣 delta2.0 时抛出了下面这张性能对比,颇有些引战的味道. 虽然 Databricks ...
有了数据湖，距离数据仓库消失还有几年？
很多人跟我一样,对于数据湖充满好奇,也许还读了不少数据湖文章,但无论别人怎么说,你还是会觉得难以把握数据湖的本质. 有些人会望文生义说,数据湖嘛,就是什么东西都可以往里面扔,特别是对非结构数据的处理比 ...
数仓、数据湖、湖仓一体、数据网格的探索与研究
整理不易,转发请注明出处,请勿直接剽窃! 点赞.关注.不迷路! 摘要:了解每一代数据存储的定义.数据类型.功能.总结. 第一代:数据仓库定义为解决数据库面对数据分析的不足,孕育出新一类产品数据仓库 ...
跨越数据的“叹息墙”：华为下一代数据湖与HPDA时代
公元前586年,耶路撒冷的第一圣殿被入侵的巴比伦军队摧毁,所罗门王朝的恢弘建筑只留下一座"叹息之墙".从此开始,"叹息墙"经常被比喻为那些时代难以跨越的鸿沟.在 ...
湖仓一体：数据湖vs数据仓库之争？
本文介绍数据仓库和数据湖的区别是什么,作者对其来龙去脉进行深入剖析,来阐述两者融合演进的新方向--湖仓一体. 导读:随着近几年数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论就一直不断.有人说 ...
数据湖与数据仓库的根本区别，在于前者是“市场经济”，而后者是“计划经济”...
这是傅一平的第356篇原创正文开始很多同学跟我一样,对于数据湖充满好奇,也许还读了不少数据湖文章,有不觉明历的,也有认为是概念炒作的,但无论别人怎么说,你还是会觉得难以把握数据湖的本质. 有些人会 ...
数据平台发展史-从数据仓库数据湖到数据湖仓
数据平台发展史-从数据仓库数据湖到数据湖仓做数据的同学经常听到一些数据相关的术语,常见的包括数据仓库,逻辑数据仓库,数据湖,数据湖仓/湖仓一体,数据网格 data mesh,数据编织 data fa ...
数据库和数据湖的关键概念性差异
在数据库和数据湖的工作中,有几个关键的概念性差异.在这篇文章中,让我们来确定其中的一些差异,这些差异在第一眼看到时可能并不直观,特别是对于具有强大关系型数据库背景的人来说. 服务器是一次性的.数据在云 ...
什么是数据湖（Data Lake）？
什么是数据湖(Data Lake)? 有些东西就是概念,故弄玄虚, just fancy names wikipedia: A data lake is usually a single store ...

春日游湖不易，但居家聊聊数据湖还是可以的……

更多关于数据湖的周边有哪些？

AWS数据湖服务几多详情价值？

春日游湖不易，但居家聊聊数据湖还是可以的……相关推荐

最新文章

热门文章