一、服务器系统架构

  从系统架构来看,目前的商用服务器大体可以分为以下三类

1. 即对称多处理器结构(SMP:Symmetric Multi-Processor),,

  在SMP架构中,每个CPU对称工作,各CPU共享相同的物理内存,每个 CPU访问内存中的任何地址所需时间是相同的,因此SMP也被称为一致存储器访问结构(UMA:Uniform Memory Access)。

  对SMP服务器进行扩展的主要方法有:增加内存、更高的CPU工作频率、添加CPU、改善I/O性能。

  但是,SMP架构中的所有资源(CPU、内存、I/O等)都是共享的,导致了它的扩展能力非常有限。最受限制的则是内存,由于每个CPU必须通过相同的内存总线访问相同的内存资源,因此随着CPU数量的增加,内存访问冲突将迅速增加,最终会造成CPU资源的浪费,使 CPU性能的有效性大大降低。实验证明,SMP架构时,CPU利用率最好的情况是2至4个CPU。

2. 大规模并行处理结构(MPP:Massive Parallel Processing)

  由多个SMP服务器(每个SMP服务器称节点)通过节点互联网络连接而成,每个节点只访问自己的本地资源(内存、存储等),是一种完全无共享(Share Nothing)结构,因而扩展能力最好,理论上其扩展无限制,目前的技术可实现512个节点互联,数千个CPU。目前业界对节点互联网络暂无标准,如 NCR的Bynet,IBM的SPSwitch,它们都采用了不同的内部实现机制。但节点互联网仅供MPP服务器内部使用,对用户而言是透明的。

  在MPP系统中,每个SMP节点也可以运行自己的操作系统、数据库等。但是每个节点内的CPU不能访问另一个节点的内存,节点之间的信息交互只能通过节点互联网络实现。

  但是MPP服务器还需要一种复杂的机制来调度和平衡各个节点的负载和并行处理过程。目前一些基于MPP技术的服务器往往通过系统级软件(如数据库)来屏蔽这种复杂性。举例来说,NCR的Teradata就是基于MPP技术的一个关系数据库软件,基于此数据库来开发应用时,不管后台服务器由多少个节点组成,开发人员所面对的都是同一个数据库系统,而不需要考虑如何调度其中某几个节点的负载。

  SQL Server 2008 R2 PDW(并行数据仓库,之前称之为“Madison”)版本采用MPP架构,可以对大型数据表进行分区,并将分区存储在多个物理节点当中,每一个节点均有其独占的CPU资源、内存资源、以及存储资源,并且各自运行独立的SQL Server实例,这种模型称之为Ultra Shared Nothing。所有组件彼此间都是平衡的,从而消除了性能瓶颈。

  MPP的节点互联机制是在不同的SMP服务器外部通过I/O 实现的,每个节点只访问本地内存和存储,节点之间的信息交互与节点本身的处理是并行进行的。因此MPP在增加节点时性能基本上可以实现线性扩展。

3. 非一致内存访问结构(NUMA:Non-Uniform Memory Access)

  在NUMA架构中有多个CPU模块,每个CPU模块由多个CPU组成,并且具有独立的本地内存、I/O槽口等。由于其节点之间可以通过互联模块(如称为Crossbar Switch)进行连接和信息交互,因此每个CPU可以访问整个系统的内存。显然,访问本地内存的速度将远远高于访问远地内存(系统内其它节点的内存)的速度,这也是非一致内存访问的由来。

  从架构来看,NUMA与MPP具有许多相似之处:它们都由多个节点组成,每个节点都具有自己的CPU、内存、I/O,节点之间都可以通过节点互联机制进行信息交互。但是又有很大的不同:

(1)节点互联机制

  NUMA的节点互联机制是在同一个物理服务器内部实现的,当某个CPU需要进行远地内存访问时,它必须等待,这也是NUMA服务器无法实现CPU增加时性能线性扩展的主要原因。

(2)内存访问机制

  在NUMA服务器内部,任何一个CPU可以访问整个系统的内存,但远地访问的性能远远低于本地内存访问,因此在开发应用程序时应该尽量避免远地内存访问。

二、NUMA的优势与局限性

1. 优势

  利用NUMA技术,可以较好地解决原来SMP系统的扩展问题,在一个物理服务器内可以支持上百个CPU。比较典型的NUMA服务器的例子包括HP的Superdome、SUN15K、IBMp690等。

2. 局限性

  在NUMA架构中,由于访问远地内存的延时远远超过本地内存,因此当CPU数量增加时,系统性能无法线性增加。由于这个特点,为了更好地发挥系统性能,开发应用程序时需要尽量减少不同CPU模块之间的信息交互。

  如HP公司发布Superdome服务器时,曾公布了它与HP其它UNIX服务器的相对性能值,结果发现,64路CPU的Superdome (NUMA结构)的相对性能值是20,而8路N4000(共享的SMP结构)的相对性能值是6.3。从这个结果可以看到,8倍数量的CPU换来的只是3倍性能的提升。

三、处理器组

  NUMA可以解决手动配置处理器组。

四、SQL Server中的NUMA

  SQL Server 2000 SP4 开始对NUMA提供有限的 NUMA 支持,SQL Server 2005 有了大量重要的改进。SQL Server 2008对NUMA完全支持和优化,内存访问会尽量使用离CPU最近的内存,以提高性能。

  《SQL Server 如何支持 NUMA》 http://msdn.microsoft.com/zh-cn/library/ms180954(v=SQL.105).aspx

1. CPU编号

  2个物理CPU,4核,超线程,总共为2*4*2=16个逻辑CPU。如下图所示:

2. SSMS中查看NUMA

3. 任务管理器中查看CPU负载

  在此实验中,运行了一个较大负荷的SQL Server查询,然后在任务管理器中查看,可见大多数的操作都在集中在某一个NumaNode执行。

五、SQL Server 中的软件NUMA

  推荐使用硬件NUMA,因这它是在硬件层面上得以支持。如何才能知道本机是否有硬件NUMA呢? 最好的办法是问硬件供应商了。

  如果硬件本身不支持NUMA,还可以在软件层面上设置NUMA。 http://www。e800。com。cn/articles/2011/1116/498746.shtml

  软件NUMA只是对CPU进行分组,并不会改变内存。因此对于内存来讲,还是只有一个节点,所以两个NUMA节点访问的都是同一块内存。而增加软件NUMA结点的好处在于,SQL Server会针对每一个软件NUMA结点,多一个LazyWriter的线程,如果系统在LazyWriter上是性能瓶颈的话,引入软件NUMA则可以有效提升性能。

本文结语:

  通过NUMA技术,可以扩展性能,在一个物理服务器内可以支持上百个CPU。使用硬件NUMA,请咨询硬件供应商。

六、CPU优化(4)NUMA架构相关推荐

  1. NUMA架构的CPU

    本文从NUMA的介绍引出常见的NUMA使用中的陷阱,继而讨论对于NUMA系统的优化方法和一些值得关注的方向. 文章欢迎转载,但转载时请保留本段文字,并置于文章的顶部 作者:卢钧轶(cenalulu) ...

  2. NUMA架构的CPU -- 你真的用好了么?

    本文从NUMA的介绍引出常见的NUMA使用中的陷阱,继而讨论对于NUMA系统的优化方法和一些值得关注的方向. 文章欢迎转载,但转载时请保留本段文字,并置于文章的顶部 作者:卢钧轶(cenalulu) ...

  3. 海量智库第4期|Vastbase G100核心技术介绍之【NUMA架构性能优化技术】

    导语 NUMA架构优化技术是针对程序在NUMA架构CPU上运行出现资源消耗不均,程序执行效率低等问题进行优化的技术.这种优化技术在现在主流的NUMA架构多核服务器中,可以有效降低访问时延,提升高并发场 ...

  4. Linux 操作系统原理 — 进程管理 — NUMA 架构中的多线程调度开销与性能优化

    目录 文章目录 目录 前言 NUMA 体系结构 基本对象概念 查看 Host 的 NUMA Topology Bash 脚本 DPDK 脚步 NUMA 架构中的多线程性能开销 1.跨 Node 的 M ...

  5. Nginx性能优化之cpu优化

    如何有效的使用cpu? 1.如何增大Nginx使用cpu的有效时长? 能够使用全部cpu资源:master-worker多进程架构,woker进程数量应该大于等于cpu核数 Nginx进程间不做无用功 ...

  6. KVM总结-KVM性能优化之CPU优化

    前言 任何平台根据场景的不同,都有相应的优化.不一样的硬件环境.网络环境,同样的一个平台,它跑出的效果也肯定不一样.就好比一辆法拉利,在高速公路里跑跟乡村街道跑,速度和激情肯定不同- 所以,我们做运维 ...

  7. Linux NUMA 架构 :基础软件工程师需要知道一些知识

    文章目录 前言 从物理CPU.core到HT(hyper-threading) UMA(Uniform memory access) NUMA架构 NUMA下的内存分配策略 1. MPOL_DEFAU ...

  8. Percona5.6增加了对NUMA架构的支持

    目前主流服务器都支持NUMA架构,我们可以通过命令numactl --hardware查看,如图: 在这里,NUMA架构把CPU逻辑上划分为两个节点node0和node1,每个节点上分配4核CPU.1 ...

  9. smp架构与numa架构_NUMA架构和Java

    smp架构与numa架构 是时候部署您的应用程序了,期待着采购最适合负载要求的硬件. 如今,具有40核或80核的包装盒非常普遍. 总体概念是更多的内核,更多的处理能力,更多的吞吐量. 但是我看到了一些 ...

最新文章

  1. 【前端酷站】分享一个纯 Javascript 的图表库与立体像素风制作~
  2. iOS之CocoaPods二进制化的实现方案
  3. 小程序 input自动换行_直播 | 最实用的微信小程序自动化测试技术独家揭秘
  4. 计算机信息安全与信息伦理课件,信息安全实验室
  5. 老实人一般容易吃亏,但是老实人遇到的机会比别人多一点点!
  6. cpio -H newc参数详解
  7. 微软Windows 11正式发布!(附安装教程)
  8. CPU又烧了,说起来汝可能不信
  9. 利用FFT成功实现拓扑识别(五)--关于频谱泄露
  10. SAP HR 导出PA0185 身份证件信息
  11. Java爬虫彼岸桌面壁纸(使用httpClient+Jsoup)
  12. 微信公众开发 表情开发php,微信公众帐号开发教程第9篇-QQ表情的发送与接收_PHP教程...
  13. css选择器的权值与优先规则
  14. 【情报热点】扒一扒FFIE做空报告中的调查方法和数据源……
  15. Win10系统上设置Microsoft store的默认下载路径
  16. Dynamips路由模拟器使用心得
  17. jsPDF生成PDF文件,文件不全问题,后台进行文件下载,前台不下载
  18. Android系统分区介绍
  19. PHP对接国际验证码接口DEMO示例
  20. Rocket.Chat接收消息流程

热门文章

  1. url 自动加入链接
  2. 以下输出结果为16的python_作业 -- 几道简单的Python题
  3. Linux-鸟菜-6-文件搜索
  4. 【Android 逆向】Android 逆向通用工具开发 ( Android 端远程命令工具 | Android 端可执行程序的 main 函数操作 | TCP 协议服务器建立 | 接收客户端数据 )
  5. 【设计模式】模板方法模式 ( 简介 | 适用场景 | 优缺点 | 代码示例 )
  6. 【商务智能】数据仓库 ( 多维数据模型 | 多维数据分析 )
  7. 【Android 异步操作】Handler 机制 ( Android 提供的 Handler 源码解析 | Handler 构造与消息分发 | MessageQueue 消息队列相关方法 )
  8. 【计算机网络】数据链路层 : 差错控制 ( 检错编码 | 奇偶校验码 | CRC 循环冗余码 )★
  9. 【Android 内存优化】Android 原生 API 图片压缩代码示例 ( PNG 格式压缩 | JPEG 格式压缩 | WEBP 格式压缩 | 动态权限申请 | Android10 存储策略 )
  10. 【约束布局】ConstraintLayout 偏移 ( Bias ) 计算方式详解 ( 缝隙比例 | 计算公式 | 图解 | 测量图 + 公式 )