我们想了解一个开源组件,最好的办法就是实际搭建环境,用一下。

在搭建集群之前,最基本的事情就是了解下集群的最低配置要求,比如CDH版本的hadoop的master节点最少需要10个G的内存,如果达不到就根本不可能安装成功。好在ceph对各方面的要求并不是很高,我们能在虚拟机环境下进行安装配置学习。

Ceph 为普通硬件设计,这可使构建、维护 PB 级数据集群的费用相对低廉。规划集群硬件时,需要均衡几方面的因素,包括区域失效和潜在的性能问题。硬件规划要包含把使用 Ceph 集群的 Ceph 守护进程和其他进程恰当分布。通常,我们推荐在一台机器上只运行一种类型的守护进程。我们推荐把使用数据集群的进程(如 OpenStack 、 CloudStack 等)安装在别的机器上。

CPU

Ceph 元数据服务器MDS对 CPU 敏感,它会动态地重分布它们的负载,所以你的元数据服务器应该有足够的处理能力(如 4 核或更强悍的 CPU )。

Ceph 的 OSD 运行着 RADOS 服务、用 CRUSH 计算数据存放位置、复制数据、维护它自己的集群运行图副本,因此 OSD 需要一定的处理能力(如双核 CPU )。

监视器只简单地维护着集群运行图的副本,因此对 CPU 不敏感;但必须考虑机器以后是否还会运行 Ceph 监视器以外的 CPU 密集型任务。例如,如果服务器以后要运行用于计算的虚拟机(如 OpenStack Nova ),你就要确保给 Ceph 进程保留了足够的处理能力,所以我们推荐在其他机器上运行 CPU 密集型任务。

RAM内存

元数据服务器MDS和监视器必须可以尽快地提供它们的数据,所以他们应该有足够的内存,至少每进程 1GB 。

OSD 的日常运行不需要那么多内存(如每进程 500MB )差不多了;然而在恢复期间它们占用内存比较大(如每进程每 TB 数据需要约 1GB 内存)。通常内存越多越好。

数据存储

要谨慎地规划数据存储配置,因为其间涉及明显的成本和性能折衷。来自操作系统的并行操作和到单个硬盘的多个守护进程并发读、写请求操作会极大地降低性能。文件系统局限性也要考虑: btrfs 尚未稳定到可以用于生产环境的程度,但它可以同时记日志并写入数据,而 xfs 和 ext4 却不能。

Important
因为 Ceph 发送 ACK 前必须把所有数据写入日志(至少对 xfs 和 ext4 来说是),因此均衡日志和 OSD 性能相当重要。

硬盘驱动器

OSD 应该有足够的空间用于存储对象数据。考虑到大硬盘的每 GB 成本,我们建议用容量大于 1TB 的硬盘。建议用 GB 数除以硬盘价格来计算每 GB 成本,因为较大的硬盘通常会对每 GB 成本有较大影响,例如,单价为 75的1TB硬盘其每GB价格为75的1TB硬盘其每GB价格为75 的 1TB 硬盘其每 GB 价格为 0.07 ( 75/1024=0.0732),又如单价为75/1024=0.0732),又如单价为75/1024=0.0732 ),又如单价为 150 的 3TB 硬盘其每 GB 价格为 0.05(0.05(0.05 ( 150/3072=0.0488 ),这样使用 1TB 硬盘会增加 40% 的每 GB 价格,它将表现为较低的经济性。另外,单个驱动器容量越大,其对应的 OSD 所需内存就越大,特别是在重均衡、回填、恢复期间。根据经验, 1TB 的存储空间大约需要 1GB 内存。

Tip
不顾分区而在单个硬盘上运行多个OSD,这样不明智!

Tip
不顾分区而在运行了OSD的硬盘上同时运行监视器或元数据服务器也不明智!

存储驱动器受限于寻道时间、访问时间、读写时间、还有总吞吐量,这些物理局限性影响着整体系统性能,尤其在系统恢复期间。因此我们推荐独立的驱动器用于安装操作系统和软件,另外每个 OSD 守护进程占用一个驱动器。大多数 “slow OSD”问题的起因都是在相同的硬盘上运行了操作系统、多个 OSD 、和/或多个日志文件。鉴于解决性能问题的成本差不多会超过另外增加磁盘驱动器,你应该在设计时就避免增加 OSD 存储驱动器的负担来提升性能。

Ceph 允许你在每块硬盘驱动器上运行多个 OSD ,但这会导致资源竞争并降低总体吞吐量; Ceph 也允许把日志和对象数据存储在相同驱动器上,但这会增加记录写日志并回应客户端的延时,因为 Ceph 必须先写入日志才会回应确认了写动作。 btrfs 文件系统能同时写入日志数据和对象数据, xfs 和 ext4 却不能。

Ceph 最佳实践指示,你应该分别在单独的硬盘运行操作系统、 OSD 数据和 OSD 日志。

固态硬盘

一种提升性能的方法是使用固态硬盘( SSD )来降低随机访问时间和读延时,同时增加吞吐量。 SSD 和硬盘相比每 GB 成本通常要高 10 倍以上,但访问时间至少比硬盘快 100 倍。

SSD 没有可移动机械部件,所以不存在和硬盘一样的局限性。但 SSD 也有局限性,评估SSD 时,顺序读写性能很重要,在为多个 OSD 存储日志时,有着 400MB/s 顺序读写吞吐量的 SSD 其性能远高于 120MB/s 的。

Important
我们建议发掘 SSD 的用法来提升性能。然而在大量投入 SSD 前,我们强烈建议核实 SSD 的性能指标,并在测试环境下衡量性能。
正因为 SSD 没有移动机械部件,所以它很适合 Ceph 里不需要太多存储空间的地方。相对廉价的 SSD 很诱人,慎用!可接受的 IOPS 指标对选择用于 Ceph 的 SSD 还不够,用于日志和 SSD 时还有几个重要考量:

写密集语义: 记日志涉及写密集语义,所以你要确保选用的 SSD 写入性能和硬盘相当或好于硬盘。廉价 SSD 可能在加速访问的同时引入写延时,有时候高性能硬盘的写入速度可以和便宜 SSD 相媲美。

顺序写入: 在一个 SSD 上为多个 OSD 存储多个日志时也必须考虑 SSD 的顺序写入极限,因为它们要同时处理多个 OSD 日志的写入请求。

分区对齐: 采用了 SSD 的一个常见问题是人们喜欢分区,却常常忽略了分区对齐,这会导致 SSD 的数据传输速率慢很多,所以请确保分区对齐了。

SSD 用于对象存储太昂贵了,但是把 OSD 的日志存到 SSD 、把对象数据存储到独立的硬盘可以明显提升性能。 osd journal 选项的默认值是 /var/lib/ceph/osd/cluster−cluster−cluster-id/journal ,你可以把它挂载到一个 SSD 或 SSD 分区,这样它就不再是和对象数据一样存储在同一个硬盘上的文件了。

提升 CephFS 文件系统性能的一种方法是从 CephFS 文件内容里分离出元数据。 Ceph 提供了默认的 metadata 存储池来存储 CephFS 元数据,所以你不需要给 CephFS 元数据创建存储池,但是可以给它创建一个仅指向某主机 SSD 的 CRUSH 运行图。详情见给存储池指定 OSD 。

控制器

硬盘控制器对写吞吐量也有显著影响,要谨慎地选择,以免产生性能瓶颈。

Tip
Ceph blog通常是优秀的Ceph性能问题来源,见 Ceph Write Throughput 1 和 Ceph Write Throughput 2 。

其他注意事项

你可以在同一主机上运行多个 OSD ,但要确保 OSD 硬盘总吞吐量不超过为客户端提供读写服务所需的网络带宽;还要考虑集群在每台主机上所存储的数据占总体的百分比,如果一台主机所占百分比太大而它挂了,就可能导致诸如超过 full ratio 的问题,此问题会使 Ceph 中止运作以防数据丢失。

如果每台主机运行多个 OSD ,也得保证内核是最新的。参阅操作系统推荐里关于 glibc 和 syncfs(2) 的部分,确保硬件性能可达期望值。

OSD 数量较多(如 20 个以上)的主机会派生出大量线程,尤其是在恢复和重均衡期间。很多 Linux 内核默认的最大线程数较小(如 32k 个),如果您遇到了这类问题,可以把 kernel.pid_max 值调高些。理论最大值是 4194303 。例如把下列这行加入 /etc/sysctl.conf 文件:
kernel.pid_max = 4194303

网络

建议每台机器最少两个千兆网卡,现在大多数机械硬盘都能达到大概 100MB/s 的吞吐量,网卡应该能处理所有 OSD 硬盘总吞吐量,所以推荐最少两个千兆网卡,分别用于公网(前端)和集群网络(后端)。集群网络(最好别连接到国际互联网)用于处理由数据复制产生的额外负载,而且可防止拒绝服务攻击,拒绝服务攻击会干扰数据归置组,使之在 OSD 数据复制时不能回到 active + clean 状态。请考虑部署万兆网卡。通过 1Gbps 网络复制 1TB 数据耗时 3 小时,而 3TB (典型配置)需要 9 小时,相比之下,如果使用 10Gbps 复制时间可分别缩减到 20 分钟和 1 小时。在一个 PB 级集群中, OSD 磁盘失败是常态,而非异常;在性价比合理的的前提下,系统管理员想让 PG 尽快从 degraded (降级)状态恢复到 active + clean 状态。另外,一些部署工具(如 Dell 的 Crowbar )部署了 5 个不同的网络,但使用了 VLAN 以提高网络和硬件可管理性。 VLAN 使用 802.1q 协议,还需要采用支持 VLAN 功能的网卡和交换机,增加的硬件成本可用节省的运营(网络安装、维护)成本抵消。使用 VLAN 来处理集群和计算栈(如 OpenStack 、 CloudStack 等等)之间的 VM 流量时,采用 10G 网卡仍然值得。每个网络的机架路由器到核心路由器应该有更大的带宽,如 40Gbps 到 100Gbps 。

服务器应配置底板管理控制器( Baseboard Management Controller, BMC ),管理和部署工具也应该大规模使用 BMC ,所以请考虑带外网络管理的成本/效益平衡,此程序管理着 SSH 访问、 VM 映像上传、操作系统安装、端口管理、等等,会徒增网络负载。运营 3 个网络有点过分,但是每条流量路径都指示了部署一个大型数据集群前要仔细考虑的潜能力、吞吐量、性能瓶颈。

故障域

故障域指任何导致不能访问一个或多个 OSD 的故障,可以是主机上停止的进程、硬盘故障、操作系统崩溃、有问题的网卡、损坏的电源、断网、断电等等。规划硬件需求时,要在多个需求间寻求平衡点,像付出很多努力减少故障域带来的成本削减、隔离每个潜在故障域增加的成本。

最低硬件推荐

Ceph 可以运行在廉价的普通硬件上,小型生产集群和开发集群可以在一般的硬件上。

进程 条件 最低建议
ceph-osd Processor 1x 64-bit AMD-64
ceph-osd Processor 1x 32-bit ARM dual-core or better
ceph-osd Processor 1x i386 dual-core
ceph-osd RAM ~1GB for 1TB of storage per daemon
ceph-osd Volume Storage 1x storage drive per daemon
ceph-osd Journal 1x SSD partition per daemon (optional)
ceph-osd Network 2x 1GB Ethernet NICs
ceph-mon Processor 1x 64-bit AMD-64/i386
ceph-mon Processor 1x 32-bit ARM dual-core or better
ceph-mon Processor 1x i386 dual-core
ceph-mon RAM 1 GB per daemon
ceph-mon Disk Space 10 GB per daemon
ceph-mon Network 2x 1GB Ethernet NICs
ceph-mds Processor 1x 64-bit AMD-64 quad-core
ceph-mds Processor 1x 32-bit ARM quad-core
ceph-mds Processor 1x i386 dual-core
ceph-mds RAM 1 GB minimum per daemon
ceph-mds Disk Space 1 MB per daemon
ceph-mds Network 2x 1GB Ethernet NICs

Tip
如果在只有一块硬盘的机器上运行 OSD ,要把数据和操作系统分别放到不同分区;一般来说,我们推荐操作系统和数据分别使用不同的硬盘。

生产集群实例

PB 级生产集群也可以使用普通硬件,但应该配备更多内存、 CPU 和数据存储空间来解决流量压力。

DELL 实例
一个最新( 2012 )的 Ceph 集群项目使用了 2 个相当强悍的 OSD 硬件配置,和稍逊的监视器配置。

Configuration Criteria Minimum Recommended
Dell PE R510 Processor 2x 64-bit quad-core Xeon CPUs
Dell PE R510 RAM 16 GB
Dell PE R510 Volume Storage 8x 2TB drives. 1 OS, 7 Storage
Dell PE R510 Client Network 2x 1GB Ethernet NICs
Dell PE R510 OSD Network 2x 1GB Ethernet NICs
Dell PE R510 Mgmt. Network 2x 1GB Ethernet NICs
Dell PE R515 Processor 1x hex-core Opteron CPU
Dell PE R515 RAM 16 GB
Dell PE R515 Volume Storage 12x 3TB drives. Storage
Dell PE R515 OS Storage 1x 500GB drive. Operating System
Dell PE R515 Client Network 2x 1GB Ethernet NICs
Dell PE R515 OSD Network 2x 1GB Ethernet NICs
Dell PE R515 Mgmt. Network 2x 1GB Ethernet NICs

参考链接:
http://docs.ceph.org.cn/start/hardware-recommendations/

ceph最低配置和硬件推荐相关推荐

  1. revit 对计算机最低配置,Revit2016官方推荐电脑配置要求

    问题: 本文介绍了 Revit® 2016 系列产品的系统要求,此系列产品包括 Revit.Revit Architecture.Revit MEP 和 Revit Structure. 解决方案: ...

  2. 计算机最基本的硬件配置,详细的Windows 10计算机硬件配置要求和最低配置

    Win10系统安装实际上不需要很高的计算机硬件配置.尽管可以使用非常低的硬件配置来安装Win10系统,但是如果硬件配置非常低,则计算机的运行速度将非常慢!如果需要计算机的运行速度,建议使用稍微更好的计 ...

  3. windows7是计算机硬件吗,Windows7硬件最低配置要求介绍

    微软宣布2014年4月8日即将停止对xp的技术支持,于是出于电脑安全的考虑,很多xp系统的用户选择了将操作系统升级到win7.win7作为新一代的操作系统,和xp系统相比有了很多的不同,出了安全性能更 ...

  4. 计算机硬件的最低配置,Windows7系统的最低硬件配置要求是什么

    Windows7系统的最低硬件配置要求是什么呢?如今win7系统已经逐渐成为了电脑操作系统的主流,xp系统已逐渐淡出人们的视线,一些原来安装xp系统的用户也想要给自己的电脑系统升级为win7,由于一些 ...

  5. win7、win10系统硬件最低配置需求

    win7.win10系统硬件最低配置需求 随着电脑系统不断升级与覆盖,很多用户也跟进了时代的主流变化.相信很多用户听到XP系统即将停止服务的消息,也开始把自己的系统安装win7或者win10.可是在安 ...

  6. 官方配置要求_赛博朋克2077的推荐配置和最低配置

    赛博朋克2077官方配置要求 赛博朋克2077官方配置要求 不久前赛博朋克在其官方网站发布了最新的电脑配置要求(台式机),比以往大家所猜测的配置要求要来得低一些,下面这份赛博朋克2077官方电脑配置要 ...

  7. Windows 11 首个预览版发布,最低配置要求或降低!

    整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 自上周五 Windows 11 官宣,就有不少人在期待着年底正式版的到来.而在今天,有一部分人就可以提前体验 Windows 11 了: ...

  8. w8计算机配置要求,win8系统最低配置要求有哪些|win8系统是否有最低配置要求-系统城...

    2013-10-17 17:08:08 浏览量:5753 小编这里要为大家带来的是win8系统最低配置要求和部分安装截图,很多用户想要将自己的电脑装上win8,但也不是每一台电脑都可以安装win8系统 ...

  9. 计算机基本配置要求,win10系统对电脑配置有哪些要求?windows10的最低配置要求...

    北京时间7月29日零点起,微软正式开始向推送Windows 10正式版安装包了.许多用户也准备好将电脑升级到win10系统.但是,有不少用户担心自己的电脑的硬件因为不符合Win10的最低配置要求会导致 ...

  10. 计算机最低配置有哪些,win10对电脑配置有哪些要求?win10最低配置要求

    北京时间7月29日零点起,微软正式开始向推送Windows 10正式版安装包了.许多用户也准备好将电脑升级到win10系统.但是,有不少用户担心自己的电脑的硬件因为不符合Win10的最低配置要求会导致 ...

最新文章

  1. 电机编码器调零步骤_各种编码器的调零方法
  2. 公务员注册账号,密码
  3. 索引( index )
  4. @RequestBody、@ResponseBody的具体用法和使用时机
  5. pyspark 编写 UDF函数
  6. 解决办法!!!!UnsatisfiedLinkError: Failed to find the required library mclmcrrt9_0.dll on java.library.
  7. 4款时尚优雅宋体Logo字体(可免费商用)
  8. day027 jQuery第二天
  9. 苹果申请声波屏下指纹识别专利 精度足以取代Touch ID
  10. 个人银行结算账户类别
  11. RMAN的备份与恢复
  12. 会计专业毕业论文如何选题?
  13. 2017省市区最新编码(依据国家统计局最新数据生成)
  14. 高精度乘法(正负数皆可(Bull Math)POJ)
  15. re文件管理免root中文版,re管理器免root版本
  16. 雷达原理---时频分析--3.小波变换-3.1基础知识
  17. 揭秘地球十大地貌奇观(组图)。
  18. php有成绩预警的学生管理系统,PHP学生成绩管理系统
  19. 模糊的照片修复软件有哪些?这几款模糊照片修复软件不可错过
  20. Source Insight护眼字体及背景配置

热门文章

  1. STM32通过IIC驱动MAX30102心率血氧传感器
  2. 什么是App加壳,以及App加壳的利与弊
  3. VLAN(虚拟局域网)
  4. 智慧路灯控制系统解决方案
  5. AdminLTE登录页设置背景图片
  6. Unity TUIO雷达入门
  7. 服务器安装julia_科学网—Julia 在windows下安装说明(国内) - 王虹宇的博文
  8. 5. 软件工程 (一个大尺度的问题)
  9. 向日葵 监控 android,就是如此简单!向日葵远程控制Android手机版教程
  10. 淘宝SKU组合查询算法实现