这周看了一篇关于数据集成的会议论文--《Quality Based Data Integration for Enriching User Data Sources in Service Lakes》,文中提到了“数据湖”的概念。遂在这里对数据湖进行相应的总结。

  • 概念

“数据湖或hub的概念最初是由大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的。但数据量越大,越需要各种不同种类的存储。最终,所有的企业数据都可以被认为是大数据,但并不是所有的企业数据都是适合存放在廉价的HDFS集群之上的。”-------百度百科。

“数据湖是一个集中化存储海量的、多个来源,多种类型数据,并可以对数据进行快速加工,分析的平台,本质上是一套先进的企业数据架构。”-------网络上其他定义。

“传统的数据存储和分析工具不再能够提供实现相关业务见解所需的敏捷性和灵活性。因此,很多组织正在转为使用数据湖架构。数据湖是一种架构方法,让您可以将大量数据存储在一个集中位置,以便组织内的各个团队随时对其进行分类、处理、分析和使用。因为数据可以按原样存储,所以您无需将其转换为预定义结构,也不再需要预先了解您要询问的数据相关问题。”------亚马逊AWS官网。

  • 数据湖特征:

 1、 一个可以存储大数据的并行系统

           2、可以在不需要另外移动数据的情况下进行数据计算

目前,Hadoop是最常用的部署数据湖的技术,所以很多人会觉得数据湖就是Hadoop集群。但未来总会有新的技术出现,因此我们要区分出Hadoop和数据湖的不同点。数据湖是一个概念,而Hadoop是用于实现这个概念的技术。

  • 与数据仓库的区别

数据湖与数据仓库之间的异同点有很多,很容易混淆,但是最重要的区别有两个:

1、存储数据类型:数据仓库是存储数据,进行建模,存储的是结构化数据;数据湖以其本源格式保存大量原始数据,包括结构化的、半结构化的和非结构化的数据。在需要数据之前,没有定义数据结构和需求。

2、数据处理模式:在我们可以加载到数据仓库中的数据,我们首先需要定义好它,这叫做写时模式(Schema-On-Write)。而对于数据湖,您只需加载原始数据,然后,当您准备使用数据时,就给它一个定义,这叫做读时模式(Schema-On-Read)。这是两种截然不同的数据处理方法。因为数据湖是在数据到使用时再定义模型结构,因此提高了数据模型定义的灵活性,可满足更多不同上层业务的高效率分析诉求。

  •  应用----华为数据湖解决方案

华为数据湖解决方案基于先进的云上系统架构,着力解决线下企业数字化转型中,数据无法驱动业务发展、成本高昂、计算存储等基础设施资源浪费等复杂问题。

参考文献地址:https://www.sohu.com/a/233217800_165716、https://aws.amazon.com/cn/big-data/data-lake-on-aws/

数据湖(Data Lake)相关推荐

  1. 数据湖(Data Lake)-剑指下一代数据仓库

    数据湖是数据仓库的补充,是为了解决数据仓库漫长的开发周期,高昂的开发.维护成本,细节数据丢失等问题出现的. 数据湖大多是相对于传统基于RDBMS的数据仓库,而从2011年前后,也就是数据湖概念出现的时 ...

  2. 一文搞懂什么是数据湖(data lake)?

    一.概论 data lake数据湖,最早由Pentaho的CTO,James Dixon发明.他在博客中这样描述数据湖:如果你把数据集市看作是一家售卖干净的.规整包装的.便于消费的瓶装水的商店,那么数 ...

  3. 数据湖 data lake

    本文目录: 一.什么是数据湖 二.数据湖的发展 三.数据湖有哪些优势 四.数据湖应该具备哪些能力 五.数据湖的实现遇到了哪些问题 六.数据湖与数据仓库的区别 七.为什么要做数据湖?区别在于? 八.数据 ...

  4. 数据湖(Data Lake)前世今生解析(上)

     EMC收购视频存储设备厂商Isilon Systems完善EMC在分布式Scale-Out架构NAS技术方面的不足,近几年isilon在媒资.大数据和HPC场景得到客户的一致认可,也在去年和另外 ...

  5. 数据湖 data lake_在Data Lake中高效更新TB级数据的模式

    数据湖 data lake GOAL: This post discusses SQL "UPDATE" statement equivalent for a data lake ...

  6. 数据仓库、数据湖、数据集市、和数据中台的故事

    数据仓库.数据湖.数据集市.和数据中台的故事 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生.这些数据需要被存储起来并 ...

  7. 什么是BI、数据仓库、数据湖和数据中台,他们有什么差异?

    随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DSS)到商业智能(BI).数据仓库.数据湖.数据中台等,这些概念特别容易混淆,本文 ...

  8. 基于 DataLakeAnalytics 的数据湖实践

    2019独角兽企业重金招聘Python工程师标准>>> 随着软硬件各方面条件的成熟,数据湖(Data Lake)已经越来越受到各大企业的青睐, 与传统的数仓实践不一样的是,数据湖不需 ...

  9. 关于数据仓库、数据湖、数据平台和数据中台的概念和区别

    点击上方 "zhisheng"关注, 星标或置顶一起成长 Flink 从入门到精通 系列文章 我们谈论数据中台之前,我们也听到过数据平台.数据仓库.数据湖的相关概念,它们都与数据有 ...

  10. 【推荐】数据湖技术及实践与案例资料汇总合集47篇

    数据湖或hub的概念最初是由大数据厂商提出的,表面上看,数据都是承载在基于可向外扩展的HDFS廉价存储硬件之上的.但数据量越大,越需要各种不同种类的存储.最终,所有的企业数据都可以被认为是大数据,但并 ...

最新文章

  1. 老毛子固件插件_原地升值?newifi 3 路由器刷入高恪固件教程
  2. Linux下磁盘IO读写性能测试脚本
  3. django下载excel,使用django-excel插件
  4. php 获取文件扩展名的方法,PHP获取文件扩展名的4种方法,_PHP教程
  5. python初学小游戏_python学习(小游戏)
  6. Oracle安装与操作系统用户组
  7. 自动化测试框架搭建三python环境安装selenium和手动下载安装selenium的方法
  8. 如何建立个人创业的基石
  9. 电信华为 HG526 破解 - 简易启用USB恢复
  10. 什么新东西值得学「GitHub 热点速览 v.22.29」
  11. 2016版excel_一招鲜,吃遍天之四:高效办公必备工具——Excel 易用宝
  12. Java项目:基于SSM实现驾校预约管理系统
  13. BugKu CTF(杂项篇MISC)---哥哥的秘密
  14. 用python画多来a梦-Python—turtle画图(哆啦A梦)
  15. 2021数学建模国赛A题思路
  16. java的class是什么意思_Java的class是什么意思?
  17. 免打扰时间设置_我的视频设置是什么样的,为什么要打扰我
  18. 魔趣刷机step by step with zuk z2 pro
  19. 1.16 利用Multisim 研究图P1.4所示电路在R的阻值变化时二极管的直流电压和交流电流的变化,并总结仿真结果。
  20. 音频编解码之G711

热门文章

  1. Python(matplotlib)海洋温度垂直剖面图(附完整代码)
  2. 关于pv和uv的定义
  3. 全民618 抖音好物节玩法
  4. 【Bigdecimal】
  5. 机器学习第21篇 - 特征递归消除RFE算法 理论
  6. Python中的PIL库处理图片实例(个人笔记)
  7. 2013年ACM网络赛杭州赛区
  8. bash逐行读取文件
  9. chrome html消除边框
  10. c语言数独程序源码,c语言编程:优化回溯解数独程序