|0x00 什么是数据湖

数据湖的概念最初是由大数据厂商提出的,可以简单理解为一个集中存储数据的数据库,不论是结构化数据or非结构化数据,海量数据or少量数据,都能够支持存储和计算就像在湖中有多个支流进入一样,结构化数据、非结构化数据、日志数据、实时数据,都流入了同一种数据存储结构之中,并进行不同类型的分析处理,以指导做出更好的决策。

数据湖通常采用Hadoop作为数据的承载对象,随着企业规模的扩大,不同类型的数据越来越多,最终所有企业或个人相关的数据,都被认为是“大数据”,虽然廉价的HDFS是存储数据的最佳选择,但面对更多种类更多时效性要求的数据,使得Hadoop体系无法成为所有场景的最佳答案。

|0x01 数据湖的核心能力与架构

数据湖的核心能力包括:

  • 集成能力:支持结构化,半结构化和非结构化类型的数据,提供统一多元的接入方式,并自动生成元数据信息;
  • 存储能力:支持异构和多样的存储,供经济高效的存储并允许快速访问数据浏览;
  • 治理能力:通过数据的血缘关系,建立完整的上下游脉络关系,支持问题数据的追踪治理;
  • 安全能力:每一层数据都能够实现安全管控能力,包括数据的敏感达标与安全监管;
  • 发现能力:能够快速搜索和使用目标数据,明确知悉其在数据湖中的位置;
  • 分析能力:针对已经接入的数据,提供报表、自助取数、交互式、数据分析、机器学习等分析使用能力
  • 质量治理:针对已经接入的数据,提供字段校验、完整性分析、产出监控等功能,确保数据的质量是可用的

明确了核心能力,就可以设计对应的体系结构,大体包括:

  • 数据接入层:提供适配的多源异构数据资源接入方式,包括数据源的配置、数据任务的同步、数据的分发与调度、数据的ETL加工等;
  • 数据存储层:通常采用HDFS,但针对不同的场景可以提供其他的解决方案
  • 数据计算层:采用多种数据分析引擎,来满足批量、实时等特定计算场景;
  • 数据应用层:不仅需要批量报表、即席查询、交互式分析、数据仓库、机器学习等上层应用,还需要提供自助式数据探索能力

|0x02 数据仓库与数据湖的差异

一图解释:

额外提一下,数据仓库非常倾向于事前定义,也就是从事务系统中提取,经过维度或其他方式建模后,固化下来。这么做虽然能够更加清晰地展示基础数据结构,降低数据计算量,提升开发速度,但同时也带来了基础模型改动成本高、数据迁移周期长、数据质量管控难等问题,可以说高度结构化的数据仓库,更适合于月度报告等操作用途

而数据湖倾向于所有数据都保持原始形式,在使用的时候直接用工具来统计分析,对于数据科学家而言,使用起来更加灵活,但同时也非常考验数据引擎的性能,以及科学家对于数据的掌握程度。

|0xFF 数据湖的风险与收益

使用数据湖的风险点在于:

  • 数据湖的设计要求更高,因为面向的数据类型更加的不稳定,非结构化数据可能导致无法掌控的混乱;
  • 数据湖的维护成本更高,随着时间的推移,容易产生严重的数据孤岛问题
  • 数据的存储与计算成本更高,因为很多特定的场景无法使用廉价的Hadoop体系
  • 数据的相互验证成本更高,因为缺少了结构化的数据处理,不同的分析师容易产出完全相反的结论
  • 安全性与数据质量更难掌控,因为架构之间存在比较大的割裂性,每种架构需要不同的实现方案。

使用数据湖的收益点在于:

  • 提供更加高级的分析能力,完全摆脱数据仓库对于数据使用的种种限制
  • 提供更加灵活的适应场景,比如实时
  • 允许开发更加快速的适应业务变化,降低数据仓库架构变动带来的迁移成本
  • 适应更多的数据源类型,一些线下Excel数据也具备了联动的能力
  • 数据的访问与使用更加灵活,对于一些业务快速发展的单元,时间成本尤其重要

数据湖就是坑人的新概念?那些挖坑的企业,后来都怎么样了相关推荐

  1. 数据湖与数据仓库的新未来:阿里提出湖仓一体架构

    点击上方 "zhisheng"关注, 星标或置顶一起成长 Flink 从入门到精通 系列文章 作者: 关涛.李睿博.孙莉莉.张良模.贾扬清 (from 阿里云智能计算平台) 黄波. ...

  2. 数据湖 VS 数据仓库之争?阿里提出大数据架构新概念:湖仓一体

    作者 |关涛.李睿博.孙莉莉.张良模.贾扬清(from 阿里云智能计算平台) 黄波.金玉梅.于茜.刘子正(from 新浪微博机器学习研发部) 编者按 随着近几年数据湖概念的兴起,业界对于数据仓库和数据 ...

  3. [转]关于数据中台、数据平台、数据仓库、数据湖等数据概念的对比解析

    前言 2010年左右,还是在上学的时候,学过一门课程叫<数据仓库与数据挖掘>,那还是属于传统数据的时代,我们会讨论什么是数据仓库?什么是数据集市?数据仓库和数据库有什么区别?等等,当我还在 ...

  4. 关于数据中台、数据平台、数据仓库、数据湖等数据概念的对比解析

    前言 2010年左右,还是在上学的时候,学过一门课程叫<数据仓库与数据挖掘>,那还是属于传统数据的时代,我们会讨论什么是数据仓库?什么是数据集市?数据仓库和数据库有什么区别?等等,当我还在 ...

  5. 独家 | 关于数据湖架构、战略和分析的8大错误认知(附链接)

    翻译:张玲 校对:丁楠雅 本文约9200字,建议阅读20分钟. 本文打破有关数据湖的8个错误认知,错误认知包括3方面,还提出了5个小技巧,以构建一个灵活的.可交付业务价值的数据湖. 本文的目的是构建数 ...

  6. 云湖共生,下一代数据湖来了?

    简介:导语:应用导向呈现数据价值,阿里云在数据湖上的创新实践,支撑起数据快速洞察和数据输出迭代. 导语:应用导向呈现数据价值,阿里云在数据湖上的创新实践,支撑起数据快速洞察和数据输出迭代. 数据湖并非 ...

  7. 数据湖,已成为海量数据存储与分析的重要承载方式

    简介: 在云计算和大数据时代,基于数据开展生产.运营.决策成为常态,根据Gartner报道,2019年数据基建方面的采购费用飙升到660亿美元,占据基础架构类软件费用的24%.数据的存储及应用体系是企 ...

  8. 阿里云推出业内首个云原生企业级数据湖解决方案:将在今年双11大规模应用

    简介: 数据湖高峰论坛在京召开,阿里云宣布推出业内首个云原生企业级数据湖解决方案,提供EB级数据存储.分析能力,可一站式实现湖存储.湖加速.湖管理.湖计算,帮助企业对数据深入挖掘与分析,洞察其中蕴含的 ...

  9. 阿里数据中台大火,国外却在建设数据湖,这两者什么关系?

    不知道大家有没有发现,这几年的数据领域有好多的概念,例如:大数据.人工智能.物联网.边缘计算.数据治理.数据湖.数据中台.数据可视化--.这说明数据这个领域真的很"火",可谓是&q ...

最新文章

  1. java进制转化_【Java学习笔记之四】java进制转化
  2. jsf集成spring_Spring和JSF集成:异常处理
  3. unity 半透明混合问题_Unity 实时 半透明 阴影 shader
  4. linux下apache+openssl配置记录
  5. RK4程序c语言,matlab实现欧拉法和RK-4方法的数值计算
  6. 视觉SLAM笔记(19) 相似变换群与李代数
  7. Go语言的interface
  8. JQuery Form AjaxSubmit(options)在Asp.net中的应用注意事项
  9. # 8.19考试总结
  10. linux信号灯超时时间已到,急!!信号灯超时时间已到错误又出来了!!!!
  11. Phusion Passenger
  12. linux下启动Nacos报错解决:which: no javac in (/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/root/bin)
  13. 如何改编一首吉他曲的和弦?
  14. 数据分析之Excel
  15. python爬虫(五):博客spider
  16. leetcode 78.不含重复元素数组的子集
  17. 设计模式五:原型模式
  18. pip或pip3安装报错Could not fetch URL https://pypi.org/simple/pip/: There was a problem confirming。。。
  19. 宝塔装两个mysql_同时安装Appnode与宝塔,宝塔创建Mysql数据库不同步问题
  20. 以下关于python文件的描述_关于 Python 文件处理 , 以下选项中描述正确的是 : ( )_学小易找答案...

热门文章

  1. 数据链路层之差错控制(检错编码和纠错编码)-(奇偶校验码、CRC循环冗余码、海明码)...
  2. 实时操作系统和优先级反转
  3. JDBCUtils工具类
  4. SQL Server 2016中的新PowerShell Cmdlet
  5. [补档]noip2019集训测试赛(十五)
  6. OpenBUGS抽样数据基本操作
  7. [学习笔记]舞蹈链(Dancing Links)C++实现(指针版)
  8. response和request
  9. 秒味课堂Angular js笔记------$scope.$watch和$scope.$apply
  10. 王立平--android事件监听的3种方式