EMC收购视频存储设备厂商Isilon Systems完善EMC在分布式Scale-Out架构NAS技术方面的不足,近几年isilon在媒资、大数据和HPC场景得到客户的一致认可,也在去年和另外一个产品线Povital Hadoop推出了数据湖解决方案,应对互联网浪潮下客户对半结构化和非结构化数据的处理、存储需求。

在讲数据湖之前,我们一起在回顾下数据库和数据仓库。数据库指在线交易数据系统、一般指OLTP事务处理,数据库中的数据也是进行了分类的;数据仓库一般指通过ETL工具抽取分类中的离线数据,主要用作进行后续分析、或进一步分类为数据集市。

数据湖

数据湖是指结构化和非结构化大数据系统,由于这些数据再初始很难定义其用途,所以在使用前很难将其有效分类,但是这些数据又可以被原地分析、计算和存储的系统。数据湖也改变了用户使用数据的方式,数据湖整合了结构化、非结构化数据的分析和存储,用户不必为海量不同的数据构建不同数据库、数据仓库,因为通过数据湖就可以完成或实现不同数据仓库的功能。未来数据湖作为一种云服务随时按需满足对不同数据的分析、处理和存储需求,数据湖本身也是通过云的方式来部署到虚拟机、物理环境或云上。

Isilon的数据湖基础

Scale out横向扩展能力提供了构建数据湖的关键能力,满足海量数据存储需要;同时isilon存储(HDFS)与计算(Hadoop)分开部署,满足计算按需扩展需求。

通过OneFS系统引擎提供丰富的软件特性如 SmartPool、SmartDedupe、多副本(EC)等实现数据流动、空间高效利用和数据可靠性;并实现和VMware虚拟化平台VAAI、VASA和SRM无缝集成,实现数据湖数据在虚拟和物理环境间进行高效数据流动。

支持丰富的多种访问协议接口如:CIFS、NFS、NDMP、Swift消除了数据孤岛,在一套存储中实现不同数据存储和共享。

通过HDFS实现和不同数据服务平台对接,目前已经支持多个版本Hadoop计算平台,如Pivotal、Cloudera、HortonWorks和Apache Hadoop等。

Isilon和Pivotal数据湖方案

Greenplum是EMC收购的一家专注数据库领域的公司,主要包括Share Nothing MPP数据库 Greenplum Database,支持和HDFS和OneFS对接的Greenplum Hadoop,Greenplum DCA一体机, 结合虚拟机实现多租户的数据仓库Greenplum Chorus和Greenplum Analytics 分析咨询服务。EMC提供了由GemFire/SQLFire实时计算和GreenPlum DB组成的传统独立大数据计算方案。
      Pivotal产品线为了迎合非结构化大数据的需求,提供Greenplum( HAWQ )和hadoop集成提供更强大处理能力的大数据方案。通过DBMS嫁接到Hadoop,使得Hadoop具备结构化数据能力,通过gNet并行数据流引擎提升并行能力、流水化能力,在执行查询等操作时协调相关节点间业务流,移动数据,收集结果等。
      Pivotal HD大数据方案由GemFire XD( 由GemFire/ SQLFire发展而来 )+HAWQ( 由Greenplum DB发展而来)+ Pivotal HD引擎+Spring XD(分布式数据、数据导入、批处理、数据导出和流式处理)等组建组成。

Pivotal HD基于Apache Hadoop优化构建而成,为数据湖方案提供了数据处理能力。通过Job Tracker调度并行任务,并由Task Tracker有效完成计算任务、返回计算结果。计算的中间值和结果实现HDFS本地保存。Pivotal HD通过HAWQ和GemFile XD也提供了结构化处理能力和实时数据处理能力。

Isilon提供了HDFS存储接口实现和Pivotal HD对接,通过Name Node和Data Node实现数据存储和高效读取,解决海量数据扩展;同时可以通过Isilon OneFS提供的丰富软件特性和多副本(EC算法)提高数据湖的可靠性。



温馨提示:

请搜索“ICT_Architect”“扫一扫”下面二维码关注公众号,获取更多精彩内容。
   

数据湖(Data Lake)前世今生解析(上)相关推荐

  1. 数据湖 data lake

    本文目录: 一.什么是数据湖 二.数据湖的发展 三.数据湖有哪些优势 四.数据湖应该具备哪些能力 五.数据湖的实现遇到了哪些问题 六.数据湖与数据仓库的区别 七.为什么要做数据湖?区别在于? 八.数据 ...

  2. 数据湖(Data Lake)-剑指下一代数据仓库

    数据湖是数据仓库的补充,是为了解决数据仓库漫长的开发周期,高昂的开发.维护成本,细节数据丢失等问题出现的. 数据湖大多是相对于传统基于RDBMS的数据仓库,而从2011年前后,也就是数据湖概念出现的时 ...

  3. 一文搞懂什么是数据湖(data lake)?

    一.概论 data lake数据湖,最早由Pentaho的CTO,James Dixon发明.他在博客中这样描述数据湖:如果你把数据集市看作是一家售卖干净的.规整包装的.便于消费的瓶装水的商店,那么数 ...

  4. 数据湖 data lake_在Data Lake中高效更新TB级数据的模式

    数据湖 data lake GOAL: This post discusses SQL "UPDATE" statement equivalent for a data lake ...

  5. 湖仓一体,Hologres加速云数据湖DLF技术原理解析

    Hologres(中文名交互式分析)是阿里云自研的一站式实时数仓,这个云原生系统融合了实时服务和分析大数据的场景,全面兼容PostgreSQL协议并与大数据生态无缝打通,能用同一套数据架构同时支持实时 ...

  6. 【数据湖】在 Azure Data Lake Storage gen2 上构建数据湖

    介绍 一开始,规划数据湖似乎是一项艰巨的任务--决定如何最好地构建数据湖.选择哪种文件格式.是拥有多个数据湖还是只有一个数据湖.如何保护和管理数据湖.并非所有这些都需要在第一天回答,有些可能通过反复试 ...

  7. 数据仓库、数据湖、数据集市、和数据中台的故事

    数据仓库.数据湖.数据集市.和数据中台的故事 如今,随着诸如互联网以及物联网等技术的不断发展,越来越多的数据被生产出来-据统计,每天大约有超过2.5亿亿字节的各种各样数据产生.这些数据需要被存储起来并 ...

  8. 辨析BI、数据仓库、数据湖和数据中台内涵及差异点(建议收藏)

    前言 随着大数据技术的不断更新和迭代,数据管理工具得到了飞速的发展,相关概念如雨后春笋一般应运而生,如从最初决策支持系统(DSS)到商业智能(BI).数据仓库.数据湖.数据中台等,这些概念特别容易混淆 ...

  9. 下一个风口-基于数据湖架构下的数据治理

    前言 随着大数据.人工智能.云计算.物联网等数字化技术的普及和广泛应用,传统的数据仓库模式,在快速发展的企业面前已然显的力不从心.数据湖,是可以容纳大量的原始数据的存储库和处理系统,已经成为企业应用大 ...

最新文章

  1. shiro处理ajax请求未登录,shiro处理ajax请求session失效跳转
  2. 零基础学习pythonrequests_requests库初体验
  3. LeNet试验(二)权重参数随训练的变化
  4. 【嵌入式】Libmodbus之RTU模式Slave端程序示例
  5. [-算法篇-] 开篇前言
  6. jboss性能指标_JBoss BRMS复杂事件处理(CEP)性能基准
  7. 计算机主机后面辐射大,电脑的背面辐射大吗
  8. 自学Java编程要做好哪些准备?
  9. 存储过程测试dbms、lpad与chr(10)
  10. fiddler基础入门
  11. 20 张图揭开内存管理的迷雾,瞬间豁然开朗
  12. 网站搭建 (第01天) 模型设计
  13. 机器学习三个部分:输入、算法、输出 资料收集
  14. 正则表达式--简单记忆一
  15. 开源字体 思源黑体 思源宋体 2.001 ttf格式
  16. 易控INSPEC软件与欧姆龙PLC以太网通讯
  17. python机器学习之特征选择(过滤法、嵌入法、包装法案例详解)
  18. 年薪40万的腾讯实习生作息表流出,我才知道什么叫人间真实
  19. 完全演示在虚拟机中装Windows7
  20. linux程序设计项目报告,Linux程序设计实验报告大作业

热门文章

  1. 获取销售线索的几个渠道
  2. 《HTTP权威指南》读书记录
  3. 文章管理系统 -- Express学习
  4. 孙孟晋:摇滚漫卷西风-记贺兰山摇滚音乐节
  5. 经典乐队1:Savage Garden
  6. Electron_基础篇
  7. 口袋服务器最新版,我的世界口袋版
  8. Binder死磕到底(四):Treble化架构
  9. 浅谈系统从I386文件夹到longhorn封装
  10. linux config文件夹,[问题] .config文件在ubuntu的哪个文件夹中