分布式存储系统

定义

分布式存储系统是大量普通PC服务器通过Internet互联,对外作为一个整体提供存储服务

特性

  • 可扩展
  • 低成本
  • 高性能
  • 易用

挑战

分布式存储系统的挑战主要在于数据、状态信息的持久化,要求在自动迁移、自动容错、并发读写的过程中保证数据的一致性。分布式存储涉及的技术主要来自两个领域:分布式系统以及数据库。

  • 数据分布
  • 一致性
  • 容错
  • 负载均衡
  • 事务与并发控制
  • 易用性
  • 压缩/解压缩

分类

  • 非结构化数据,一般的文档
  • 结构化数据, 存储在关系数据库中
  • 半结构化数据,HTML文档

不同的分布式存储系统适合处理不同类型的数据:

分布式文件系统

  • 非结构化数据,这类数据以对象的形式组织,不同对象之间没有关联,这样的数据一般称为Blob(二进制大对象)数据
  • 典型的有Facebook Haystack 以及 Taobao File System
  • 另外,分布式文件系统也常作为分布式表格系统以及分布式数据库的底层存储,如谷歌的GFS可以作为分布式表格系统Google Bigtable 的底层存储,Amazon的EBS(弹性存储块)系统可以作为分布式数据库(Amazon RDS)的底层存储
  • 总体上看,分布式文件系统存储三种类型的数据:Blob对象、定长块以及大文件

分布式键值系统

  • 较简单的半结构化数据,只提供主键的CRUD(创建、读取、更新、删除)
  • 典型的有Amazon Dynamo 以及 Taobao Tair

分布式表格系统

  • 较复杂的半结构化数据,不仅支持CRUD,而且支持扫描某个主键范围
  • 以表格为单位组织数据,每个表格包括很多行,通过主键标识一行,支持根据主键的CRUD功能以及范围查找功能
  • 典型的有Google Bigtable 以及 Megastore,Microsoft Azure Table Storage,Amazon DynamoDB等

分布式数据库

  • 存储结构化数据,一般是由单机关系数据库扩展而来
  • 典型的包括MySQL数据库分片集群、Amazon RDS以及Microsoft SQL Azure

什么是分布式存储系统?相关推荐

  1. Bigtable:结构化数据的分布式存储系统

    相关说明 Bigtable是一个用于管理结构化数据的分布式存储系统,其设计目的是为了通过数千个服务器管理大规模数据.谷歌许多的项目例如,web索引.谷歌地球和谷歌金融都使用了Bigtable来存储大规 ...

  2. 分布式存储系统考虑因素-分区容错性

    分布式存储系统中的多台服务器通过网络进行连接.但是我们无法保证网络是一直通畅的,分布式系统需要具有一定的容错性来处理网络故障带来的问题.

  3. 分布式存储系统考虑因素-一致性

    分布式存储系统需要使用多台服务器共同存储数据,而随着服务器数量的增加,服务器出现故障的概率也在不断增加.为了保证在有服务器出现故障的情况下系统仍然可用. 一般做法是把一个数据分成多份存储在不同的服务器 ...

  4. 《SPARK/TACHYON:基于内存的分布式存储系统》-史鸣飞(英特尔亚太研发有限公司大数据软件部工程师)...

    史鸣飞:大家好,我是叫史鸣飞,来自英特尔公司,接下来我向大家介绍一下Tachyon.我事先想了解一下大家有没有听说过Tachyon,或者是对Tachyon有没有一些了解?对Spark呢? 首先做一个介 ...

  5. 万万没想到,分布式存储系统的一致性是......

    阿里妹导读:分布式存储系统是一个非常古老的话题,也是分布式系统里最难.最复杂.涉及面最广的问题之一.本文深入浅出,为大家详细解释相关的重要概念.对于分布式系统新人来说,这是一份不可多得的学习资料. 分 ...

  6. 浅谈分布式存储系统数据分布算法

    目录 前言 指标 演进 应用案例 前言 分布式存储系统面临着的首要问题,就是如何将大量的数据分布在不同的存储节点上.无论上层接口是 KV存储.对象存储.块存储.亦或是列存储,在这个问题上大体是一致的. ...

  7. ceph 存储 对比_分布式存储系统 Curve

    CURVE 是网易开源的高性能.高可用.高可靠分布式存储系统,具有非常良好的扩展性.基于该存储底座可以打造适用于不同应用场景的存储系统,如块存储.对象存储.云原生数据库等. 授权协议: Apache ...

  8. ceph存储原理_热门的分布式存储系统ceph入门介绍

    一.什么是ceph ceph是当前最热门的分布式存储系统之一,是软件定义存储(SDS,SoftwareDefinedStorage)解决方案中的典范.其具备良好的可靠性.可扩展性,应用范围包括块存储( ...

  9. 腾讯CKV海量分布式存储系统

    摘要:腾讯CKV,是腾讯自主研发的高性能.低延时.持久化.分布式KV存储服务.在腾讯的微信平台.开放平台.腾讯云.腾讯游戏和电商平台广泛使用,日访问量超过万亿次.本文将全面剖析CKV的实现原理和技术挑 ...

  10. 这些常见的分布式存储系统,你是否都了解?

    来源 | 清平の乐 来源 | CSDN博客,责编 | Carol 头图 | CSDN 下载自视觉中国 一.数据存储类型 一般情况下,我们将存储分成了4种类型,基于本机的DAS和网络的NAS存储.SAN ...

最新文章

  1. 有没有一段代码,让你觉得人类的智慧也可以璀璨无比?
  2. T-SQL中的随机数
  3. FPGA之道(69)提高设计的综合性能(一)提高设计的鲁棒性
  4. 使用NSCondition实现多线程同步
  5. 【LeetCode】169. Majority Element
  6. 大数据盘点00后求职选择,过半职场新人会因工作太简单辞职?
  7. fastreport调用frf文件直接打印_来吧~~ 这里提供自助打印~
  8. 优化你的手游:使用脏矩形技术
  9. cucumber jvm_用Cucumber JVM编写BDD测试
  10. 培训学校计算机助教是干嘛的,【助教】的意思是什么?【助教】是什么意思?...
  11. (转)配置Spring管理的bean的作用域
  12. MTK 驱动(38)---MTK 待机问题分析
  13. 学习进度条——第九周
  14. AR/VR learning (2)--unity3D在android 上的手势识别与检测
  15. 单点登录原理及简单实现
  16. linux的管理权限命令,Linux权限管理命令
  17. mindspore详解
  18. ZDNET的一个技术博客评选结果
  19. 图解HTTP(读书笔记01)
  20. 深井泵房无人值守系统 泵站无人值守平台 智慧水务

热门文章

  1. Linux 桌面玩家指南:16. 使用 CUDA 发挥显卡的计算性能
  2. CDN进行防御的两大原理
  3. Android IBinder的linkToDeath介绍
  4. 算法mips与mcps 的分析
  5. 从零编写基于MATLAB的GNSS_SDR程序(GNSS软件接收机)——学习记录(2)
  6. NEON优化:性能优化常见问题QA
  7. 数据类型的作用及基本数据类型分类
  8. 西门子PCS7系统NTP网络时钟同步(NTP时钟发生器)介绍
  9. 解决ubuntu下无网络连接的问题
  10. logistic回归模型总结