为什么要构建数据湖

大数据时代早期,Apache HDFS 是构建具有海量存储能力数据仓库的首选方案。随着云计算、大数据、AI 等技术的发展,所有云厂商都在不断完善自家的对象存储,来更好地适配 Apache Hadoop/Spark 大数据以及各种 AI 生态。由于对象存储有海量、安全、低成本、高可靠、易集成等优势,各种 IoT 设备、网站数据都把各种形式的原始文件存储在对象存储上,利用对象存储增强和拓展大数据 AI 也成为了业界共识,Apache Hadoop 社区也推出了原生的对象存储“Ozone”。从 HDFS 到对象存储,从数据仓库到数据湖,把所有的数据都放在一个统一的存储中,也可以更加高效地进行分析和处理。

对于云上的客户来说,如何构建自己的数据湖,早期的技术选型非常重要,随着数据量的不断增加,后续进行架构升级和数据迁移的成本也会增加。在云上使用 HDFS 构建大规模存储系统,已经暴露出来不少问题。HDFS 是 Hadoop 原生的存储系统,经过 10 年来的发展,HDFS 已经成为大数据生态的存储标准,但我们也看到 HDFS 虽然不断优化,但是 NameNode 单点瓶颈,JVM 瓶颈仍然影响着集群的扩展,从 1 PB到 100+ PB,需要不断的进行调优、集群拆分来,HDFS 可以支持到 EB 级别,但是投入很高的运维成本,来解决慢启动,心跳风暴,节点扩容、节点迁移,数据平衡等问题。

云原生的大数据存储方案,基于阿里云 OSS 构建数据湖是最合适的选择。OSS 是阿里云上的对象存储服务,有着高性能、无限容量、高安全、高可用、低成本等优势,JindoFS 针对大数据生态对 OSS 进行了适配,缓存加速,甚至提供专门的文件元数据服务,满足上云客户的各种分析计算需求。因此在阿里云上,JindoFS + OSS 成为客户采取数据湖架构迁移上云的最佳实践。

JindoFS 介绍

Jindo 是阿里云基于 Apache Spark / Apache Hadoop 在云上定制的分布式计算和存储引擎。Jindo 原是阿里云 开源大数据团队的内部研发代号,取自筋斗(云)的谐音,Jindo 在开源基础上做了大量优化和扩展,深度集成和连接了众多阿里云基础服务。

JindoFS 是阿里云针对云上存储自研的大数据缓存加速服务,JindoFS 的设计理念是云原生:弹性、高效、稳定和低成本。JindoFS 完全兼容 Hadoop 文件系统接口,给客户带来更加灵活、高效的数据湖加速方案,完全兼容阿里云 EMR 中所有的计算服务和引擎:Spark、Flink、Hive、MapReduce、Presto、Impala 等。JindoFS 有两种使用模式,块存储模式(BLOCK)和缓存模式(CACHE)。下面我们介绍下如何在 EMR 中配置和使用 JindoFS 以及不同模式对应的场景。

JindoFS 架构

JindoFS 主要包含两个服务组件:元数据服务(NamespaceService) 和存储服务 (StorageService):

  • NamespaceService 主要负责元数据管理以及管理 StorageService。
  • StorageService 主要负责管理节点的本地数据和 OSS 上的缓存数据。

下图是 JindoFS 架构图:元数据服务 NamespaceService 部署在独立的节点,对于生产环境推荐部署三台(Raft)来实现服务高可用;存储服务 StorageService 部署在集群的计算节点,管理节点上的闲置存储资源(本地盘/SSD/内存等),为JindoFS 提供分布式缓存能力。

JindoFS 元数据服务

JindoFS 的元数据服务叫 JindoNamespaceService,内部基于 K-V 结构存储元数据,相对于传统的内存结构有着操作高效,易管理,易恢复等优势。

  • 高效元数据操作。JindoFS NamespaceService 基于内存 + 磁盘管理和存储元数据,但是性能上比使用内存的 HDFS NameNode 还要好,一方面是 JindoFS 使用 C++ 开发,没有 GC 等问题,响应更快;另一方面是由于 Namespace Service 内部有更好的设计,比如文件元数据上更细粒度的锁,更高效的数据块副本管理机制。
  • 秒级启动。有大规模 HDFS 集群维护经验的同学比较清楚,当 HDFS 元数据存储量过亿以后,NameNode 启动初始化要先加载 Fsimage ,再合并 edit log,然后等待全部 DataNode 上报 Block,这一系列流程完成要花费一个小时甚至更长的时间, 由于 NameNode 是双机高可用(Active/Standby),如果 standby 节点重启时 active 节点出现异常 ,或两台 NameNode 节点同时出现故障,HDFS 将出现停服一小时以上的损失。JindoFS 的元数据服务基于 Raft 实现高可用,支持 2N+1 的部署方式,允许同时挂掉 N 台;元数据服务 (NamespaceService) 在元数据内部存储上进行了设计和优化,进程启动后即可提供服务,可以做到了快速响应。由于 NamespaceService 近实时写入 OTS 的特点,元数据节点更换,甚至集群整体迁移也非常容易。
  • 低资源消耗。HDFS NameNode 采用内存形式来存储文件元数据。在一定规模下,这种做法性能上是比较不错的,但是这样的做法也使 HDFS 元数据的规模受限于节点的内存,经过推算,1亿文件 HDFS 文件大约需要分配 60 GB Java Heap 给 NameNode,所以一台 256 GB的机器最多可以管理 4 亿左右的元数据,同时还需要不断调优 JVM GC。JindoFS 的元数据采用 Rocksdb 存储元数据,可以轻松支持到 10 亿规模,对于节点的内存需求也非常小,资源开销不到 NameNode 的十分之一。

JindoFS 缓存服务

JindoFS 的数据缓存服务叫 JindoStorageService,本地 StorageService 主要提供高性能缓存加速,所以运维上可以基于这样的设定大大简化。

  • 弹性运维。HDFS 使用 DataNode 在存储节点上来管理节点存储,全部数据块都存储在节点的磁盘上,依靠 DataNode 定期检查和心跳把存储状态上报给 NameNode,NameNode 通过汇总和计算,动态地保证文件的数据块达到设定的副本数(一般 3 副本)。对于大规模集群(节点 1000+),经常需要进行集群节点扩容,节点迁移,节点下线,节点数据平衡这样的操作,大量的数据块的副本计算增加了 NameNode 负载,同时,节点相关操作要等待 NameNode 内部的副本调度完成才能进行,通常一个存储节点的下线需要小时级别的等待才能完成。JindoFS 使用 StorageService 来管理节点上的存储,由于 JindoFS 保证了数据在 OSS 上有一副本,所以本地的副本主要用来进行缓存加速。对于节点迁移、节点下线等场景,JindoFS 无需复杂副本计算,通过快速的“标记”即可完成下线。
  • 高性能存储。StorageService 采用 C++ 语言开发,在对接最新高性能存储硬件上也有着天然优势。StorageService 的存储后端不仅可以同时对接SSD、本磁盘、OSS 满足 Hadoop/Spark 大数据框架各种海量、高性能的存储访问需求,可以对接内存、AEP 这样的高性能设备满足 AI/机器学习的低延时、高吞吐的存储使用需求。

JindoFS 适用场景

JindoFS 的元数据存储在 Master 节点的 NamespaceService (高可用部署)上,性能和体验上对标 HDFS;Core节点的 StorageService 将一份数据块存储在 OSS 上,本地数据块可以随着节点资源进行快速的弹性伸缩。多集群之间也可以相互打通。

为了支持数据湖多种使用场景,一套 JindoFS 部署同时提供两种 OSS 使用方式,存储模式(Block)和缓存模式(Cache)。

  • 缓存模式。对于已经存在于 OSS 上的数据,可以使用缓存模式访问,正如“缓存”本身的含义,通过缓存的方式,在本地集群基于 JindoFS 的存储能力构建了一个分布式缓存服务,把远端数据缓存在本地集群,使远端数据“本地化”。使用上也沿用原来的路径访问,如 oss://bucket1/file1 ,这种模式全量的文件都在 OSS 上面,可以做到集群级别的弹性使用。
  • 存储模式。存储模式(Block)适用于高性能数据处理场景,元数据存储在 NamespaceService (支持高可用部署)上,性能和体验上对标 HDFS;StorageService 将一份数据块存储在 OSS 上,本地数据块可以随着节点资源可以进行快速的弹性伸缩。基于 JindoFS Block 模式这样的特性,可以用作构建高性能数仓的核心存储,多个计算集群可以访问 JindoFS 主集群的数据。

JindoFS 方案优势

基于JindoFS + OSS 来构建数据湖相比于其他数据湖方案同时具有性能和成本优势。

  • 性能上,JindoFS 针对一些常用的场景和 Benchmark 进行了对比测试,如 DFSIO、NNbench、TPCDS、Spark、Presto 等,通过测试我们可以看到性能上,Block模式完全领先于 HDFS,Cache模式完全领先于 Hadoop 社区的 OSS SDK 实现,由于篇幅的原因,后续我们会发布详细的测试报告。
  • 成本上。成本是也是用户上云的重要考量,JindoFS 的成本优势主要体现在运维成本和存储成本两方面。运维成本指的是集群日常维护,节点上下线、迁移等。如前面分析,当 HDFS 集群增长到一定规模时,比如 10PB+,除了对 HDFS 进行专家级别调优外,还需要业务上的拆分规划,避免达到 HDFS 元数据上的瓶颈。同时,随着集群数据不断增长,一些节点和磁盘也会出现故障,需要进行节点下线和数据平衡,也给大集群的运维带来一定的复杂度。JindoFS 可以使用 OSS + OTS 的存储模式,OSS 上保留原始文件和数据块备份,对节点和磁盘出现的问题可以更好兼容;元数据(NamespaceService)采用 C++ 开发加上工程打磨,相比 NameNode + JVM 在容量上和性能上也更有优势。

下面我们重点来看存储成本。存储成本指的是存放数据后产生的存储费用,使用 OSS 是按量付费的,相比基于本地盘创建的 HDFS 集群有更好的成本优势,下面来计算和对比一下二者成本:

基于 HDFS + 本地盘方案构建大数据存储:

由于本地盘机型为整体价格,需要如下进行换算,预估存储成本如下:

(参考链接:https://www.aliyun.com/price/product#/ecs/detail )

考虑到实际使用 HDFS 会有3副本以及一定的预留空间,我们以 HDFS 3 副本、 80% 使用率进行成本计算:

基于 JindoFS 加速方案构建数据湖:

     OSS 数据存储(标准型单价)=  0.12元/GB/每月

(参考链接:https://www.aliyun.com/price/product#/oss/detail )

我们可以看到使用 JindoFS 加速方案构建数据湖,要节省 25% 的存储成本。同时 OSS 是按量计费,即计算存储分离,当计算和存储比例存在差异时,比如存储资源高速增长,计算资源增加较小时,成本优势会更加明显。

对 OSS 数据进行缓存加速,需要额外使用计算节点上部分磁盘空间,带来一定成本。这部分成本,一般取决于热数据或者要缓存数据的大小,跟要存储的数据总量关系不大。增加这部分成本,可以换取计算效率的提升和计算资源的节省,整体效果可以根据实际场景进行评估。

JindoFS 生态

数据湖是开放的,需要对接各种计算引擎。目前 JindoFS 已经明确支持 Spark、Flink、Hive、MapReduce、Presto 和 Impala 组件。同时,JindoFS 为了支持更好地使用数据湖,还提供 JindoTable 对结构化数据进行优化和查询加速;提供 JindoDistCp 来支持 HDFS 离线数据往 OSS 迁移;支持 JindoFuse 方便数据湖上加速机器学习训练。

原文链接
本文为阿里云原创内容,未经允许不得转载。

基于JindoFS+OSS构建高效数据湖相关推荐

  1. hdfs 数据迁移_基于JindoFS+OSS构建高效数据湖

    作者:孙大鹏,花名诚历,阿里巴巴计算平台事业部 EMR 技术专家,Apache Sentry PMC,Apache Commons Committer,目前从事开源大数据存储和优化方面的工作. 为什么 ...

  2. hdfs 数据迁移_基于 JindoFS+OSS 构建高效数据湖

    为什么要构建数据湖 大数据时代早期,Apache HDFS 是构建具有海量存储能力数据仓库的首选方案.随着云计算.大数据.AI 等技术的发展,所有云厂商都在不断完善自家的对象存储,来更好地适配 Apa ...

  3. 华为云MRS基于Hudi和HetuEngine构建实时数据湖最佳实践

    数据湖与实时数据湖是什么? 各个行业企业都在构建企业级数据湖,将企业内多种格式数据源汇聚的大数据平台,通过严格的数据权限和资源管控,将数据和算力开放给各种使用者.一份数据支持多种分析,是数据湖最大的特 ...

  4. 如何快速构建企业级数据湖仓?

    更多技术交流.求职机会,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 本文整理自火山引擎开发者社区技术大讲堂第四期演讲,主要介绍了数据湖仓开源趋势.火山引擎 EMR 的架构及特点,以及 ...

  5. Apache Hudi 在 B 站构建实时数据湖的实践

    简介: B 站选择 Flink + Hudi 的数据湖技术方案,以及针对其做出的优化. 本文作者喻兆靖,介绍了为什么 B 站选择 Flink + Hudi 的数据湖技术方案,以及针对其做出的优化.主要 ...

  6. 基于Flink1.14 + Iceberg0.13构建实时数据湖实战

    点击上方蓝色字体,选择"设为星标" 回复"面试"获取更多惊喜 八股文教给我,你们专心刷题和面试 Hi,我是王知无,一个大数据领域的原创作者. 放心关注我,获取更 ...

  7. aws spark_使用Spark构建AWS数据湖时的一些问题以及如何处理这些问题

    aws spark 技术提示 (TECHNICAL TIPS) 介绍 (Introduction) At first, it seemed to be quite easy to write down ...

  8. vue 雷达扫描_GitHub - suneildve/vueDataV: 基于Vue + Echarts 构建的数据可视化平台,酷炫大屏展示模板和组件库,持续更新各行各业实用模板和炫酷小组件。...

    前言 一个基于Vue前端框架和第三方图表库echarts构建的可视化大数据平台,通过vue项目构建.指令的灵活运用.组件封装.组件之间通信,使内部图表组件库可实现自由替换和组合. 项目中部分前端库采用 ...

  9. 客户流失?来看看大厂如何基于spark+机器学习构建千万数据规模上的用户留存模型 ⛵

最新文章

  1. 《数据科学家养成手册》第五章---矛盾的世界笔记
  2. 为什么信不过AI看病?数据集小、可靠性差,AI医疗任重道远
  3. java转账_使用Java模拟银行账户存、取款、转账功能
  4. php curl安装检查,如何判断php的curl是否已安装
  5. Java中读取属性文件以及做资源国际化
  6. 【Tools】VMware Workstation 15.5 Pro安装详解
  7. 《DOS命令全集(中英文对照)》CHM版.CHM
  8. 深入理解K-Means聚类算法
  9. 深度优先搜索之踩方格问题
  10. 超强的用linux命令勾搭美女
  11. 10个PHP常见安全问题(实例讲解)
  12. 晓庄师范的3 4 计算机应用,2021全国应用心理学专业大学排名(5篇)
  13. teraterm linux环境,linux ssh telnet TeraTerm终端中文显示乱码解决方法
  14. 列表嵌套type属性默认值
  15. 如何用python画房子_用python画一个小房子
  16. google统计产品
  17. 12_传智播客iOS视频教程_注释和函数的定义和调用
  18. 当年“你说什么,我都能实现”的软件公司,后来都是怎么死的?
  19. 【Java常用类】Instant:瞬时
  20. 用HTML5和JavaScript做一个轮播图

热门文章

  1. java修改配置文件参数_在java类中获取在.properties配置文件中设置的参数
  2. 为什么说Java 程序员必须掌握 Spring Boot?
  3. python下拉菜单_自定义Django Form中choicefield下拉菜单选取数据库内容实例
  4. mysql数值比中文检索快_MySQL 千万 级数据量根据(索引)优化 查询 速度
  5. android判断主线程_android中从子线程切换到主线程,但是显得代码很臃肿,请教大牛是怎么自定义的?...
  6. linux ns级定时器_linux用户空间获得ns纳秒级时间示例
  7. python requests form data_python使用requests发送multipart/form-data请求数据
  8. 在非洲意外当上酋长的河南小伙,现在咋样了?
  9. 纽约佩斯大学孔子学院:中国故事
  10. 年薪40W+还招不到人!人工智能到底有多火?(附人工智能+Python 自学视频资料)...