HDFS、Ceph、GFS、GPFS、Swift、Lustre
HDFS/CEPH/GFS/GPFS/Swift这类分布式存储,按照存储的类型来区分,HDFS/GPFS/GFS属于文件存储,CEPH属于统一存储–即块/对象/文件统一体,Swift属于对象存储-目前属于OpenStack下面的一个子项目。
1)HDFS
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。
HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。
2)GFS
GFS是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,并提供容错功能。它可以给大量的用户提供总体性能较高的服务。
3)GPFS
GPFS(General Parallel File System ,GPFS) 是 IBM 公司第一个共享文件系统,起源于 IBM SP 系统上使用的虚拟共享磁盘技术( VSD )。作为这项技术的核心, GPFS 是一个并行的磁盘文件系统,它保证在资源组内的 所有节点可以并行访问整个文件系统;而且针对此文件系统的服务操作,可以同时安全地在 使用此文件系统的多个节点上实现。GPFS 允许客户共享文件,而这些文件可能分布在不同节点的不同硬盘上;它提供了许多标准的 UNIX 文件系统接口,允许应用不需修改或者重新编辑就可以在其上运行。
4)CEPH
Ceph是一个可靠地、自动重均衡、自动恢复的分布式存储系统,根据场景划分可以将Ceph分为三大块,分别是对象存储、块设备存储和文件系统服务。在虚拟化领域里,比较常用到的是Ceph的块设备存储,比如在OpenStack项目里,Ceph的块设备存储可以对接OpenStack的cinder后端存储、Glance的镜像存储和虚拟机的数据存储,比较直观的是Ceph集群可以提供一个raw格式的块存储来作为虚拟机实例的硬盘。
Ceph相比其它存储的优势点在于它不单单是存储,同时还充分利用了存储节点上的计算能力,在存储每一个数据时,都会通过计算得出该数据存储的位置,尽量将数据分布均衡,同时由于Ceph的良好设计,采用了CRUSH算法、HASH环等方法,使得它不存在传统的单点故障的问题,且随着规模的扩大性能并不会受到影响。
5)Swift
Swift 最初是由 Rackspace 公司开发的高可用分布式对象存储服务,并于 2010 年贡献给 OpenStack 开源社区作为其最初的核心子项目之一,为其 Nova 子项目提供虚机镜像存储服务。Swift 构筑在比较便宜的标准硬件存储基础设施之上,无需采用 RAID(磁盘冗余阵列),通过在软件层面引入一致性散列技术和数据冗余性,牺牲一定程度的数据一致性来达到高可用性和可伸缩性,支持多租户模式、容器和对象读写操作,适合解决互联网的应用场景下非结构化数据存储问题。
1)Ceph的特点
Ceph支持对象存储、块存储和文件存储服务,故称为统一存储。
采用CRUSH算法,数据分布均衡,并行度高,不需要维护固定的元数据结构。
数据具有强一致,确保所有副本写入完成才返回确认,适合读多写少场景。
去中心化,MDS之间地位相同,无固定的中心节点。
Ceph存在一些缺点:
去中心化的分布式解决方案,需要提前做好规划设计,对技术团队的要求能力比较高。
Ceph扩容时,由于其数据分布均衡的特性,会导致整个存储系统性能的下降。
2)GFS特点
适合大文件场景的应用,特别是针对GB级别的大文件,适用于数据访问延时不敏感的搜索类业务。
中心化架构,只有1个master处于active状态。
缓存和预取,通过在client端缓存元数据,尽量减少与master的交互,通过文件的预读取来提升并发性能。
高可靠性,master需要持久化的数据会通过操作日志与checkpoint的方式存放多份,故障后master会自动切换重启。
3)HDFS的特点(vs GFS)
分块更大,每个数据块默认128MB;
不支持并发,同一时刻只允许一个写入者或追加者;
过程一致性,写入数据的传输顺序与最终写入顺序一致;
Master HA,2.X版本支持两个NameNode,(分别处于Active和Standby状态),故障切换时间一般几十秒到数分钟。
HDFS适合的应用场景:
适用于大文件、大数据处理,处理数据达到 GB、TB、甚至PB级别的数据。
适合流式文件访问,一次写入,多次读取。
文件一旦写入不能修改,只能追加。
HDFS不适合的场景:
低延时数据访问。
小文件存储。
并发写入、文件随机修改。
4)Swift特点
原生的对象存储,不支持实时的文件读写、编辑功能。
完全对称架构,无主节点,无单点故障,易于大规模扩展,性能容量线性增长。
数据实现最终一致性,不需要所有副本写入即可返回,读取数据时需要进行数据副本的校验。
是OpenStack的子项目之一,适合云环境的部署。
Swift的对象存储与Ceph提供的对象存储区别:客户端在访问对象存储系统服务时,Swift要求客户端必须访问Swift网关才能获得数据。而Ceph可以在每个存储节点上的OSD(对象存储设备)获取数据信息; 在数据一致性方面,Swift的数据是最终一致,而Ceph是始终跨集群强一致性)
5)Lustre特点
支持数万个客户端系统,支持PB级存储容量,单个文件最大支持320TB容量。
支持RDMA网络,大文件读写分片优化,多个OSS能获得更高的聚合带宽。
缺少副本机制,存在单点故障。如果一个客户端或节点发生故障,存储在该节点上的数据在重新启动前将不可访问。
适用高性能计算HPC领域,适用于大文件连续读写。
HDFS、Ceph、GFS、GPFS、Swift、Lustre相关推荐
- hdfs是nas_容器云在使用分布式存储时,HDFS、CEPH、GFS、GPFS、Swift 等哪种更好?...
容器云在使用分布式存储时,HDFS.CEPH.GFS.GPFS.Swift等分布式存储哪种更好? [问题描述]目前,公司在进行容器云技术选型,计划采用商业产品,已接触华为.RANCHER.阿里等产品提 ...
- 各类分布式文件系统的区别和概述 | HDFS、GFS、Ceph、TFS、Moosefs、IPFS等
文章目录 参考 分布式文件系统定义 各类系统对比图 各类文件系统简介 shepdog shepdog基本架构 Ceph FastDFS fastDFS介绍 Tracker server 追踪服务器 S ...
- 【ceph】什么是Ceph?------(MinIO和ceph的区别|GFS(GlusterFS)、MFS、Ceph、Lustre|文档)...
目录 什么是Ceph? 简介 什么是块存储.文件存储和对象存储以及区别? Ceph存储架构 Ceph数据的存储 Ceph开发如何入门 部署实例 MinIO和ceph ceph和GFS(GlusterF ...
- 【ceph】什么是Ceph?------(MinIO和ceph的区别|GFS(GlusterFS)、MFS、Ceph、Lustre|文档)
目录 什么是Ceph? 简介 什么是块存储.文件存储和对象存储以及区别? Ceph存储架构 Ceph数据的存储 Ceph开发如何入门 部署实例 MinIO和ceph ceph和GFS(GlusterF ...
- HDFS、Ceph文件系统以及Hbase、Cassendra、TiDB比较
文章目录 HDFS.Ceph差异对比 HDFS设计目标 HDFS文件目录 Ceph设计目标 Ceph数据结构 HDFS文件导出 Ceph文件导出 暂时的结论 其它FS选型 其它思路 总结 Hbase. ...
- IT运维面试问题总结-运维工具、开源应用(Ansible、Ceph、Docker、Apache、Nginx等)
1.简述Ansible及其优势? Ansible是一款极其简单的开源的自动化运维工具,基于Python开发,集合了众多运维工具(puppet, cfengine, chef, func, fabric ...
- JavaEE企业级实战项目 智牛股第四天 NACOS、ceph集群和Netty
交易平台 - Day 4 学习目标 目标1:Nacos背景与基本原理 目标2:Nacos的使用 目标3:Ceph分布式存储原理 目标4:Ceph部署与使用 目标5:Netty通讯机制 第1章 Naco ...
- Ceph集群搭建及其运用(块存储、ceph文件系统)
一.ceph简介 ceph被称作面向未来的存储, 可以实现的存储方式: 块存储:提供像普通硬盘一样的存储,为使用者提供"硬盘" 文件系统存储:类似于NFS的共享方式,为使用者提供共 ...
- K8S集群部署kube-Prometheus监控Ceph(版本octopus)集群、并实现告警。
K8S集群部署kube-Prometheus监控Ceph(版本octopus)集群.并实现告警. 一.背景描述 公司K8S集群后端存储采用的是cephfs,测试环境经常性出现存储故障,虽然最后都解决了 ...
最新文章
- Angular组件——投影
- 嵌入式驱动程序之信号量
- [转载]VS2005中ifstream不能读中文路径文件的bug
- 硬核科普:一文看懂人脸识别技术流程
- 介绍Python中方法ljust(),rjust(),center()和zfill()
- python中df去重_Python中DataFrame去重
- 分布式服务框架dubbo原理解析 转
- 学计算机学体育生闺女,古力:生个女儿一定学围棋 生个儿子就去踢足球
- Spring Cloud构建微服务架构-Hystrix监控面板
- param注解报错_mybatis不加@Parm注解报错的解决方案
- 区块链app源码_区块链app商城系统开发适用于哪些企业
- 使用 ODP.NET 访问 Oracle(.net如何访问Oracle)详解
- 【转账】API自动化测试
- dll编译为html,如何为MSHTML v9编译.dll。我目前正在获取“MIDL 2035:预期的常量表达式”的100个错误...
- 大数据笔记(二):HDFS原理知识
- 你不知道的JavaScript(上中下三册) 电子版高清PDF -- 百度云下载
- dos格式化linux,linux mformat命令对MS-DOS文件系统的磁盘进行格式化
- 企业微信SDK接口API调用-通过手机号或微信好友添加客户
- 学生每日计划表_小学生假期每天计划表 每日作息安排
- Spring-Aop及jdbc总结
热门文章
- js判断是否安装pdf播放器
- Android媒体播放器设计,基于Android平台的多媒体播放器设计与开发.pdf
- 【GOLDWAVE 信号源】
- 【算法题目】递归题目(一)打印尺子刻度
- Centos7安装部署zabbix监控软件
- Google Drive 简单介绍
- 【30篇突击 android】源码统计七
- 【原创】【FS】FATFS文件系统介绍(未完待续........2018.4.1)
- 如何从ecmwf欧洲气象中心下载ERA5总水汽数据(Total column water vapour)
- 基于智慧路灯杆系统的人群聚集监测方案