超融合基础知识

内容参考： Mars小歪，四海骄阳，钱曙光

1，什么是超融合

既然在说超融合架构，那就肯定有一般的融合架构，这其实也是目前行业内对于超融合定义争论的焦点，也就是说哪些定义为融合架构，哪些定义为超融合架构。

个人来说比较倾向于以下定义：==天然地(Natively)==将两个或多个组件组合到一个独立的单元中，这句话的关键词是天然地（Natively）。这种定义有个好处就是留了很多自由解释的空间，没有把这个边界框得太死。至于其他的解释，个人觉得太具体化了，太具体的东西就容易引发争议。其实和很多IT领域里面的技术名称一样，我们不一定要追求一个所谓的标准定义，可能起名称的人本来就没考虑这么多。

2，超融合与传统IT架构区别

具体而言超融合和传统IT架构有以下几方面的区别：

1， 物理融合及管理融合：超融合架构把服务器、网络及存储进行了融合，并且搭载在统一管理平台上进行维护；而传统架构则是全部分离的。
2，存储架构：超融合采用分布式存储，传统架构使用集中式存储。
3，网络：超融合使用万兆以太网，而传统架构多使用光纤交换机。
4，可靠性方面：可以看出可靠性方面，超融合架构的优势非常大，但其实这里的优势都是分布式存储本身应该具备的。

1）数据冗余模式：超融合拥有跨节点2/3副本，而传统架构则是RAID5/6。
2）冗余度：超融合最多可坏两个节点（3副本），三副本可以带来比双控更好的冗余度；而传统架构则是一个控制器。
3）管理的粒度：各家实现不同，有的是基于资源池设置两副本或三副本，有的厂商，比如SmartX，是以卷为单位，这样的好处就是可以在一个资源池上分配不同副本策略的卷，用于不同安全级别的VM。
4）热备：其实大部分分布式存储都没有了，而是利用已有空间进行恢复。但需要强调的是现在GlusterFS还是使用热备盘机制。
5）数据恢复量：超融合仅恢复已写入数据，传统架构是全盘恢复。
6）恢复速度：超融合是多节点读出、多节点写入，速度取决于节点数，每节点100MBps。传统架构是多硬盘读出、单硬盘写入SAS盘最高60MBps。

5，性能方面：超融合在性能方面的架构优势非常明显，当然代价就是消耗计算资源，所以计算资源的消耗是检验超融合专业性的一个重要因素。

1）性能节点：超融合是根据服务器节点数量多节点并发，传统架构是以双控为主；
2）性能扩展与最大性能：超融合的性能可扩展最大百万级，这是分布式存储带来的，而传统架构是一般在十万级别不易扩展，高端且非常昂贵。比如EMC Unity 650F，8:28K混合随机读写性能最大27万IOPS，而对于类似Nutanix、SmartX等性能比较好的超融合产品，一个节点8:28K混合随机读写很容易达到3万以上IOPS，通过线性扩展，10个左右节点就可以达到EMC Unity 650F的最大性能。而10个节点只是非常小的用户规模。
3）是否占用计算资源：超融合需要占用计算资源，传统架构则不需要。
4）数据路径：超融合是读本地化，有更高的IOPS和更低的延迟，写是通过存储网络，而传统架构的读写都要通过存储网络。所以，超融合数据本地化是超融合架构独有的，分离式的架构无法实现，当然代价就是计算资源的占用。
5） SSD缓存：SSD是超融合的必选，是传统架构的可选支持。但即使传统架构存储会使用，双控也无法充分发挥SSD的性能。

6，扩展性方面：超融合的架构是扩展能力强，扩容简单快速，系统复杂度不会随扩容增加而增加。

1）扩展模式：超融合是可扩展的硬盘和节点，在同一存储下扩展，而传统架构是需要增加RAID扩展柜，从而形成新的存储池。
2）容量和性能扩展：超融合皆可在线线性扩展，而传统架构则性能扩展能力有限。
3）数据自动负载均衡：超融合可支持数据自动负载均衡，传统架构是不可以的。

7，部署运维方面：

1）存储网配置：超融合的存储网配置很简单，而传统架构则需要划Zone等复杂操作。
2）规划和划分RAID：超融合无需规划和划分RAID、RAID初始化，传统架构则至少花一天时间来进行RAID初始化。
3）硬件：超融合使用X86标准硬件，简单易操作；传统架构则是需要专用设备，更加复杂。
4）部署、故障及扩容：超融合的部署时间仅需半天，扩容简单快速，硬盘和节点故障可自动恢复；而传统架构则要至少一周时间来进行部署，扩容复杂、手动均衡，还需要及时更换盘或控制器才能恢复硬盘和节点故障。

所以，综上所述，超融合是可靠性、性能、扩展性、部署运维方面有着非常显著的优势，破解了传统IT架构的一些难题，还是值得推荐的。

3，超融合的出现

3.1，性能需求

传统架构的业务系统在运行一段时间后，经常会遇到业务系统变慢，特别是在业务高峰期表现非常明显，比如月底月初的财务系统。

那在大多数的案例中，问题往往出现在存储阵列上面，特别是虚拟化普及后，这种情况表现得更加明显。这主要是在阵列使用一段时间后，随着磁盘等部件的老化，磁盘阵列的性能会存在一定的性能下降；同时，业务系统的运行也存在着使用范围越来越广，用户越来越多，特别是虚拟化平台上虚拟机越开越多的情况。

那传统的解决方案，往往是更换性能更高的存储设备，特别是SSD盘的价格下调在一定程度上解决了阵列磁盘的读写问题，但是，这时网络和阵列控制器往往成为了新的瓶颈。

在网络方面，以Intel S3700系列固态硬盘为例，其读写速度分别可达500MB/s和460MB/s,那不同的网络带宽能满足对应的SSD盘理论读写速度如下：

就算是理论上支持40Gb的交换速度的IB交换机的出现，依然不能满足大规模固态盘使用的速度要求。

在存储控制器方面：SSD对存储架构的影响是巨大的，传统机械硬盘的4K随机性能只有300左右，而类似intel 3700这样的SSD则可以达到超过7.5万IOPS。双控制器架构在闪存架构中会成为瓶颈，比如EMC的Unity 650 可以支持一千块硬盘或SSD，但31块SSD的时候就到达瓶颈。

3.2，技术成熟

（1）分布式存储架构

分布式存储在亚马逊、谷歌等大型公有云得到了很好的应用，它基于X86服务器构建一个易扩展、高可靠的存储资源池，这是超融合的基础。

（2）SSD盘的广泛使用

SSD的出现，解决了超融合架构中冷热数据分层的问题，也使得数据的访问速度相对比阵列访问有了质的提高，下面是特定I/O类型的不同延迟特性：

（3）CPU、网络

CPU长期以来基本遵循了摩尔定律的发展，更加强大廉价的CPU能在同时满足计算和存储需求。同时，万兆网络的普及解决了不同服务器之间的数据横向快速流动的要求。

3.3，超融合的技术路线

超融合这个概念太热，以至于除了我们所熟知Nutanix、VMware等厂商外，大部分的传统硬件厂商都推出了自己超融合产品，比如HP、DELL、华为、华三……，也有一些新晋玩家像深信服、SmartX等。

但这些厂商所走的超融合路线也有很大不同。

按照融合的程度，大致分为两大类：

以Nutanix、VMware为代表的厂商，强调尽量利用服务器本地资源来满足虚拟机的计算、存储需求，计算资源、存储资源没有在硬件层做硬性的划分，他强调的是计算资源池、存储资源池的概念，在超融合的底层让虚拟化优先使用本地的存储资源。

另外一个技术路线的厂商大多借鉴Oracle数据库一体机的实现方式，将X86服务器划分为计算节点和存储节点，服务器之间采用IB交换机相连，这和传统的集中式存储在逻辑架构上是一致的，区别只是用分布式存储取代了磁盘阵列。

在小型规模的应用上，以上两种路线的区别不大，但在规模应用之后，第二种实现方式的网络瓶颈就可能会显现。本文介绍的超融合技术，将以第一种为参照。

4，超融合核心问题

超融合是一个概念，包含以下因素：

使用通用硬件：具体说就是 x86 服务器，所以如果出现专有硬件的 IT 平台的就不属于超融合。比如，传统集中式存储里的存储控制器就属于专有硬件；
软件定义：即超融合 IT 服务是通过 x86 服务器里运行的软件实现的，如：分布式存储软件实现数据存储服务；相比之下，传统 IT 服务大多是用专有硬件且功能逻辑写死在固件里；
统一平台：所有的 IT 服务要在一个平台下，隶属于同一个软件栈，这里区别于以往 IT 服务架构方式，各服务会属于不同的平台；需要特别区分的是，市面上将存储设备，服务器，网络交换机放在一个机柜里整体交付的融合方案，如：VCE Vblock，和超融合完全不同。

超融合必须具有的IT服务：

1，分布式存储打破数据孤岛
虽说超融合通过软件定义的方式整合了多个 IT 服务，但其中软件定义存储是基石。这里需要说明一下：池化服务器的本地存储，要求软件定义存储必须是分布式的，且能被虚拟机挂在成虚拟卷使用，不加特殊的说明，超融合平台里的软件定义存储指的是分布式块存储。

2，虚拟化计算同样不可或缺
有了存储和计算就有了最基本的 IT 基础架构，很多厂商也会一部分网络服务的功能纳入到虚拟化计算。虚拟化计算服务在超融合平台上基本集中在 VMware 产品和基于 KVM 自研的产品，如：Nutanix 的 AHV（基于 KVM），VMware 的 vSphere（基于 ESXi），SmartX 的 Elf（基于 KVM）等。当然 Nutanix 和 SmartX 也同样支持 VMware 虚拟化计算平台，而且借助其强大的存储服务，整体超融合平台的表现甚至还要优于 VMware。

3，一个平台管理多个IT服务，运维简化是趋势
随着单个服务器计算能力越来越强，越来越多的 IT 服务其实都可以通过软件定义的方式来实现，如：灾备服务、全闪存、容器服务、网络服务、安全服务等。

传统架构下需要运维管理多个 IT 平台，在超融合下，一套管理平台就够了。像超融合领导厂商 Nutanix，SmartX 等，分别推出了智能强大的管理平台：Nutanix Prism 和 SmartX Fisheye，极大的提升系统的易用性。

总结一下就是，超融合平台里分布式块存储、虚拟化计算和统一运维管理平台是最小，也是最核心的集合，缺少任何一个都无法称作超融合平台。但随着硬件的发展，更多的服务势必会在超融合平台里实现。

如何实现超融合IT架构

1，实现机制是核心

超融合产品比拼最重要的必然是分布式块存储、虚拟化计算、运维管理平台的实现。重中之重是软件定义存储，它是超融合平台的基石。当前市场里各家超融合平台分布式块存储的实现无非是两个途径：

自主研发，如：Nutanix NDFS，VMware VSAN，SmartX ZBS，华为 Fusion Storage；
直接采用开源的分布式存储或在开源基础上小幅改造，如，Ceph，GlusterFS；

2，资源消耗需着重评估

除了服务的实现机制，超融合平台有一项特殊的要求：资源消耗要尽可能的小。超融合场景下，消耗大量的资源是绝对不能接受的，每个物理服务器除了运行存储、计算等多个 IT 服务，还要把剩余的资源分配留给业务应用，IT 服务占用资源越大，留给业务应用的资源就越小，甚至挤压到业务无法运行。资源消耗不仅节省 TCO 的指标，更是影响超融合实用性的重要变量。

5，超融合的架构

由于Nutanix在超融合领域的地位，其他超融合厂商在技术实现或多或少的借鉴了Natanix，该部分主要借鉴Nutanix超融合技术方案让大家了解下具体的超融合技术实现，以避免相关内容流于概念和表面。

在Nutanix的架构中，大致可分为两大块，Prism和Acropolis。简单的说就是一个是管理模块（给管理人员用的），一个资源管理模块（如何去调度底层资源）。

5.1，Prism

Prism是一个分布式的资源管理平台，允许用户跨集群环境管理和监控对象及服务。

这部分内容不难理解，这里不做太多介绍，感兴趣的朋友可以自己去查阅相关文档。

5.2，Acropolis

Acropolis 是一个分布式的多资源管理器，集协同管理和数据平台功能于一身。它可以被细分为如下三个主要组件：

• 分布式存储架构 (DSF)

o 这是Nutanix 核心的赖以生存的组件，其基于分布式文件系统（HDFS）扩展而来。

• 应用移动性架构 (AMF)

o 类似于 Hypervisor 把操作系统从硬件剥离而来，AMF 把工作负载（虚机、存储和容器等）从 Hypervisor 抽象剥离开。这使能在不同的Hypervisor 之间切换和移动工作负载。

• 虚拟化管理器（AHV）

o 一个基于 CentOS KVM hypervisor 的多用途虚拟化管理器组件。

下图以概要的方式展示了 Acropolis 不同层次的结构和关系：

5.2.1，融合平台

Nutanix 解决方案是一个融合了存储和计算资源于一体的解决方案。它利用本地资源/组件来为虚拟化构建一个分布式的平台，亦称作虚拟计算平台。

每个节点运行业界标准的 hypervisor（ESXi, KVM, Hyper-V）和 Nutanix 控制器虚机（CVM）。Nutanix CVM 中运行着Nutanix 核心软件，服务于所有虚机和虚机对应的 I/O 操作。得益于Intel VT-d（VM直接通路）技术，对于运行着VMware vSphere的 Nutanix 单元，SCSI 控制（管理 SSD 和 HDD 设备）被直接传递到CVM。下图解释了典型的节点逻辑架构：

5.2.2，集群组件

Nutanix平台由下列宏观组件构成：

Cassandra

• 关键角色: 分布式元数据存储

•描述：Cassandra 基于重度修改过的 Apache Cassandra，以分布式环的方式存放和管理所有的集群元数据。Paxos 算法被用来保证严密的一致性。在集群中所有节点上都运行着这个服务。Cassandra 通过一个叫做 Medusa 的协议来访问。

Zookeeper

• 关键角色: 集群配置管理

• 描述：基于 Apache Zookeeper 实现，Zookeeper 存放了所有的集群配置信息，包括主机、IP 地址和状态等。集群中有三个节点会运行此服务，其中的一个被选举成 leader。Leader 接收所有请求并转发到它的组员。一旦 leader 失去了反应，新的leader 会被自动选举出来。Zookeeper 通过称作 Zeus 的接口来访问。

Stargate

• 关键角色: 数据 I/O 管理

• 描述：Stargate负责所有的数据管理和 I/O 操作，是 hypervisor 主要的接口（通过 NFS、iSCSI 或 SMB）。为了供本地 I/O操作的能力，集群中所有节点都运行此服务。

Curator

• 关键角色：以 Mapreduce 方式管理和清理集群

•描述：Curator 负责在整个集群间分配和调度任务，诸如磁盘容量平衡、预清理等。

Prism

• 关键角色：用户界面和 API

•描述：Prism 是一个组件管理网关，它让管理员能配置和监控 Nutanix 集群。它提供多种管理手段，如 Ncli、HTML5 UI 和REST API。Prism运行在集群中的每个节点，如同集群中其他组件一样也采用 leader 选举制。

Genesis

• 关键角色：集群组件和服务管理

•描述：Genesis 是一个负责配置初始化和服务交互的进程，运行在每个节点上。 Genesis 不依赖于集群，即不管集群是否配置或运行与否，它都运行着。它唯一的前提是 Zookeeper 必须起来并运行着。

Chronos

• 关键角色：任务调度

• 描述：Chronos 负责把由 Curator 扫᧿产生的任务在节点间调度执行并合理分配。 Chronos 运行在每个节点上，受控于主Chronos（负责任务委托且和主 Curator 运行在同一节点）。

Cerebro

• 关键角色：数据复制和容灾管理

• 描述：Cerebro 负责 DSF 中的数据复制和容灾管理部分，包含快照的调度、远程站点的数据同步及站点的迁移和故障切换。Cerebro 运行在 Nutanix 集群的每个节点上，并且每个节点都参与远程站点/集群的数据同步。

Pithos

• 关键角色：vDisk 配置管理

• 描述：Pithos 负责 vDisk（DSF 文件）的配置数据。Pithos 构建于 Cassandra 之上，并运行在每个节点。

6，分布式关键技术和概念

6.1，节点架构

在ESXi的部署中，控制器虚拟机（CVM）硬盘使用的 VMDirectPath I/O 方式。这使得完整的PCI控制器（和附加设备）通过直通方式连接 CVM并绕过虚拟化层。这种设计让其超融合技术和虚拟化软件实现了解耦。

6.2，资源池

一个存储池是一组物理存储设备，大部分情况下，单个集群配置一个存储池。

6.3，容器

容器（container）从逻辑上划分存储池，并包含一组虚拟机或者文件（即虚拟磁盘）。很多人可能不理解为什么Nutanix要提出容器的概念，其实它是为了数据存储的灵活性，比如，在一个集群内，不同的虚拟化对应的应用数据可能重要性不同，需要的副本数也不同，这时，就需要采用不同的容器，进行不同的设定。所以在实际使用了，我们经常将对存储需求类似的虚拟机（含数据）划分到同一个容器内，这不仅要考虑当前状态，还有今后可能的变动。

6.4，KVM架构

KVM 中包含以下主要组成：

KVM-kmod ： KVM 内核

Libvirtd： API 接口，针对 KVM 和 QEMU 的监控、管理工具。 Acropolis 通过 libvirtd 与 KVM／QEMU 进行通讯。

Qemu-kvm ：一个“模拟器”（machine emulator），使得各个虚拟机能够独立运行。 Acropolis 通过它来实现硬件的虚拟化，并使得 VM 以 HVM 的形式运行。

以下是各个组成的逻辑示意图：

处理器兼容性

类似于 Vmware 的 Enhanced vMotion Capability（EVC），它允许 VM 在不同代次的处理器间进行迁移。Acropolis 将检测群集中代次最老的处理器，并把所有的 QEMU 限定在此级别上。这样就可以允许不同代次的处理器进行混用，并确保主机之间可以实现 VM 的在线迁移。

6.5，Natanix的复制因子和冗余因子

Nutanix的冗余因子在集群创建的时候就需要设置，并且后期不能改变，它确定了集群能同时坏掉多少台物理服务器而不影响集群的正常运行，而复制因子是针对容器的（一个集群一般包含多个容器），它表示了数据在容器的副本份数。应该来说，冗余因子从物理上保证了复制因子的实现，所以，复制因子不能大于冗余因子，只能小于等于。

6.6，VM High Availiability（HA)

Acropolis 的 VM HA 可以确保当主机或 Block 掉电时，VM 的持续运行。当某个主机宕机时，VM 将在集群中某个健康节点中重新启动。其中，Acropolis Master 负责该 VM 的重启操作。

Acropolis Master 通过 Libvirt 监测节点的健康状况：

7，适合超融合的用户

超融合适合所有用户吗，这个回答见仁见智？不过个人认为，以下情况的客户可以优先考虑超融合：

1、如果在今后一段时间内，业务可能有较大增长；

2、对系统对IO性能有较高要求；

3、技术实力较强，想要对自身信息化架构充分掌控；

但如果没有自己的技术力量，又非常看重硬件平台的稳定性，对任何硬件故障有一定程度“恐惧”的客户建议可以再等等。

2021-7-14-超融合基础知识相关推荐

2021年中国超融合十大趋势
2020年11月19日.国内企业服务领域趋势洞察的年度专业高端峰会--"洞见2021 中国企业服务年会"在北京香格里拉饭店隆重举行.大议以"双循环时代的数智新局" ...
vsan超融合基础架构数据丢失的解决过程
VSAN是一种应用于服务器.存储的以vSphere内核为基础进行开发.可扩展的分布式存储架构.VSAN通过在服务器vSphere集群主机当中安装闪存和硬盘来构建VSAN存储层.这些设备由VSAN进行控 ...
戴尔XC系列超融合基础架构全新升级进一步帮助用户提升效率与经济性
客户往往想要大幅简化其基础架构,因此超融合基础架构已成为IT基础架构中增长最快的部分.据IDC数据显示,全球超融合系统市场在2016年仍然是广泛的融合基础架构市场中发展速度最快的细分市场,其在全球范围 ...
超融合基础架构容灾 -Nutanix Metro Availability + VMwareHA容灾
参考链接: http://vknowledge.net/2015/10/21/nutanix-metro-availability-vsphere-6/ Nutanix Metro Availabil ...
超融合架构的优缺点_知道超融合基础架构吗
一"融合"架构的起源 "融合"架构最初的解决方案通常包括了服务器.SAN存储和网络(以太网或InfiniBand).一般是由单一供应商提供的包括服务器.存储和网 ...
Nutanix超融合基础架构和桌面虚拟化解决方案助力新松机器人加速数字化转型
2020年6月11日,北京 -- 企业云计算领导者Nutanix日前宣布,中国最大的机器人制造商之一,新松机器人自动化股份有限公司(以下简称"新松机器人")已成功部署Nutanix ...
超融合基础架构需要完全更换现有网络吗？
我曾经改装过一辆雪佛兰大块头--抬高底盘.压扁排气管并(当然)换掉4个博尔特电源.接着,在火花塞里注入足够的油,让它能点燃比例达到10.5:1的大缸燃油,冲击传统的点圈模式.但是,我还比较幸运,我的4 ...
骞云科技携手 EMC，联袂打造超融合基础架构云管方案
近日,骞云科技(www.cloudchef.io)与 EMC 联手打造的「 EMC VxRail 超融合基础架构与骞云 SmartCMP 云管理平台解决方案」正式发布,并同步推送至 EMC Glob ...
什么叫超融合基础架构？
云计算三大类别:私有云.公有云.混合云:三个层次:IAAS.PAAS.SAAS:超融合属于私有云中的IAAS服务层. 一般在企业初次上云,除了会选择简便.高性价比私有云方案,更热门的就是超融合了. 那 ...

2021-7-14-超融合基础知识