【计算机组成原理】学习笔记——总目录

【46】SSD硬盘(上):如何完成性能优化的KPI?

  • 引言
  • 一、SSD 的读写原理
  • 二、SLC、MLC、TLC 和 QLC
  • 三、P/E(Program/Erase)擦写问题
  • 四、SSD 读写的生命周期
    • 1、SSD常规使用详解
    • 2、预留空间
    • 3、实际应用【特别适合读多写少的应用】
  • 五、总结【个人总结的重点】
  • 六、精选问答

引言

随着 3D 垂直封装技术和 QLC 技术的出现,今年的“618”,SSD 硬盘的价格进一步大跳水,趁着这个机会,我把自己电脑上的仓库盘,从 HDD 换成了 SSD 硬盘。我的个人电脑彻底摆脱了机械硬盘。

随着智能手机的出现,互联网用户在 2008 年之后开始爆发性增长,大家在网上花的时间也越来越多。这也就意味着,隐藏在精美 App 和网页之后的服务端数据请求量,呈数量级的上升

无论是用 10000 转的企业级机械硬盘,还是用 Short Stroking 这样的方式进一步提升 IOPS,HDD 硬盘已经满足不了我们的需求了。上面这些优化措施,无非就是,把 IOPS 从 100 提升到 300、500 也就到头了。

于是,SSD 硬盘在 2010 年前后,进入了主流的商业应用。我们在第 44 讲看过,一块普通的 SSD 硬盘,可以轻松支撑 10000 乃至 20000 的 IOPS。那个时候,不少互联网公司想要完成性能优化的 KPI,最后的解决方案都变成了换 SSD 的硬盘。如果这还不够,那就换上使用 PCI Express 接口的 SSD。

不过,只是简单地换一下 SSD 硬盘,真的最大限度地用好了 SSD 硬盘吗?另外,即便现在 SSD 硬盘很便宜了,大部分公司的批量数据处理系统,仍然在用传统的机械硬盘,这又是为什么呢

那么接下来这两讲,就请你和我一起来看一看,SSD 硬盘的工作原理,以及怎么最大化利用 SSD 的工作原理,使得访问的速度最快,硬盘的使用寿命最长。

一、SSD 的读写原理

SSD 没有像机械硬盘那样的寻道过程,所以它的随机读写都更快。我在下面列了一个表格,对比了一下 SSD 和机械硬盘的优缺点。

你会发现,不管是机械硬盘不擅长的随机读写,还是它本身已经表现不错的顺序写入,SSD 在这些方面都要比 HDD 强。
不过,有一点,机械硬盘要远强于 SSD,那就是耐用性。如果我们需要频繁地重复写入删除数据,那么机械硬盘要比 SSD 性价比高很多。

要想知道为什么 SSD 的耐用性不太好,我们先要理解 SSD 硬盘的存储和读写原理。我们之前说过,CPU Cache 用的 SRAM 是用一个电容来存放一个比特的数据。对于 SSD 硬盘,我们也可以先简单地认为,它是由一个电容加上一个电压计组合在一起,记录了一个或者多个比特。

二、SLC、MLC、TLC 和 QLC

能够记录一个比特很容易理解。给电容里面充上电有电压的时候就是 1,给电容放电里面没有电就是 0。采用这样方式存储数据的 SSD 硬盘,我们一般称之为使用了 SLC 的颗粒,全称是Single-Level Cell,也就是一个存储单元中只有一位数据。

但是,这样的方式会遇到和 CPU Cache 类似的问题,那就是,同样的面积下,能够存放下的元器件是有限的。如果只用 SLC,我们就会遇到,存储容量上不去,并且价格下不来的问题

于是呢,硬件工程师们就陆续发明了 MLC(Multi-Level Cell)TLC(Triple-Level Cell)以及 QLC(Quad-Level Cell),也就是能在一个电容里面存下 2 个、3 个乃至 4 个比特。

只有一个电容,我们怎么能够表示更多的比特呢?别忘了,这里我们还有一个电压计。4 个比特一共可以从 0000-1111 表示 16 个不同的数。那么,如果我们能往电容里面充电的时候,充上 15 个不同的电压,并且我们电压计能够区分出这 15 个不同的电压。加上电容被放空代表的 0,就能够代表从 0000-1111 这样 4 个比特了。

【精度要求越高,读写速度越慢】
不过,要想表示 15 个不同的电压,充电和读取的时候,对于精度的要求就会更高。这会导致充电和读取的时候都更慢,所以 QLC 的 SSD 的读写速度,要比 SLC 的慢上好几倍。如果你想要知道是什么样的物理原理导致这个 QLC 更慢,可以去读一读这篇文章。

三、P/E(Program/Erase)擦写问题

如果我们去看一看 SSD 硬盘的硬件构造,可以看到,它大概是自顶向下是这么构成的。
首先,自然和其他的 I/O 设备一样,它有对应的接口和控制电路。现在的 SSD 硬盘用的是 SATA 或者 PCI Express 接口。在控制电路里,有一个很重要的模块,叫作 FTL(Flash-Translation Layer),也就是闪存转换层。这个可以说是 SSD 硬盘的一个核心模块,SSD 硬盘性能的好坏,很大程度上也取决于 FTL 的算法好不好。现在容我卖个关子,我们晚一会儿仔细讲 FTL 的功能。

接下来是实际 I/O 设备,它其实和机械硬盘很像。现在新的大容量 SSD 硬盘都是 3D 封装的了,也就是说,是由很多个裸片(Die)叠在一起的,就好像我们的机械硬盘把很多个盘面(Platter)叠放再一起一样,这样可以在同样的空间下放下更多的容量。

接下来,一张裸片上可以放多个平面(Plane),一般一个平面上的存储容量大概在 GB 级别。一个平面上面,会划分成很多个块(Block),一般一个 块(Block) 的存储大小, 通常几百 KB 到几 MB 大小。一个块里面,还会区分很多个 页(Page),就和我们内存里面的页一样,一个页的大小通常是 4KB。在这一层一层的结构里面,处在最下面的两层块和页非常重要。

对于 SSD 硬盘来说,数据的写入叫作Program。写入不能像机械硬盘一样,通过覆写(Overwrite)来进行的,而是要先去擦除(Erase),然后再写入

  • SSD 的读取和写入的基本单位,不是一个比特(bit)或者一个字节(byte),而是一个页(Page)。

  • SSD 的擦除单位就更夸张了,我们不仅不能按照比特或者字节来擦除,连按照页来擦除都不行,我们必须按照块来擦除。

  • 而且,你必须记住的一点是,SSD 的使用寿命,其实是每一个块(Block)的擦除的次数。

    • 你可以把 SSD 硬盘的一个平面看成是一张白纸。我们在上面写入数据,就好像用铅笔在白纸上写字。如果想要把已经写过字的地方写入新的数据,我们先要用橡皮把已经写好的字擦掉。但是,如果频繁擦同一个地方,那这个地方就会破掉,之后就没有办法再写字了。

    • 我们上面说的 SLC 的芯片,可以擦除的次数大概在 10 万次,MLC 就在 1 万次左右,而 TLC 和 QLC 就只在几千次了。这也是为什么,你去购买 SSD 硬盘,会看到同样的容量的价格差别很大,因为它们的芯片颗粒和寿命完全不一样。

四、SSD 读写的生命周期

1、SSD常规使用详解

下面我们来实际看一看,一块 SSD 硬盘在日常是怎么被用起来的。

我用三种颜色分别来表示 SSD 硬盘里面的页的不同状态:

  • 白色代表这个页从来没有写入过数据
  • 绿色代表里面写入的是有效的数据
  • 红色代表里面的数据,在我们的操作系统看来已经是删除的了


上图说明:

  • 一开始,所有块的每一个页都是白色的。随着我们开始往里面写数据,里面的有些页就变成了绿色。

  • 然后,因为我们删除了硬盘上的一些文件,所以有些页变成了红色。但是这些红色的页,并不能再次写入数据。因为 SSD 硬盘不能单独擦除一个页,必须一次性擦除整个块,所以新的数据,我们只能往后面的白色的页里面写。这些散落在各个绿色空间里面的红色空洞,就好像硬盘碎片。

  • 如果有哪一个块的数据一次性全部被标红了,那我们就可以把整个块进行擦除。它就又会变成白色,可以重新一页一页往里面写数据。这种情况其实也会经常发生。毕竟一个块不大,也就在几百 KB 到几 MB。你删除一个几 MB 的文件,数据又是连续存储的,自然会导致整个块可以被擦除。

  • 随着硬盘里面的数据越来越多,红色空洞占的地方也会越来越多。于是,你会发现,我们就要没有白色的空页去写入数据了。这个时候,我们要做一次类似于 Windows 里面“磁盘碎片整理”或者 Java 里面的“内存垃圾回收”工作。找一个红色空洞最多的块,把里面的绿色数据,挪到另一个块里面去,然后把整个块擦除,变成白色,可以重新写入数据。

  • 不过,这个 “磁盘碎片整理”或者“内存垃圾回收”的工作,我们不能太主动、太频繁地去做。因为 SSD 的擦除次数是有限的。如果动不动就搞个磁盘碎片整理,那么我们的 SSD 硬盘很快就会报废了

2、预留空间

说到这里,你可能要问了,这是不是说,我们的 SSD 硬盘的容量是用不满的?因为我们总会遇到一些红色空洞?

没错,一块 SSD 的硬盘容量,是没办法完全用满的。不过,为了不得罪消费者,生产 SSD 硬盘的厂商,其实是预留了一部分空间,专门用来做这个“磁盘碎片整理”工作的。一块标成 240G 的 SSD 硬盘,往往实际有 256G 的硬盘空间。SSD 硬盘通过我们的控制芯片电路,把多出来的硬盘空间,用来进行各种数据的闪转腾挪,让你能够写满那 240G 的空间。这个多出来的 16G 空间,叫作预留空间(Over Provisioning),一般 SSD 的硬盘的预留空间都在 7%-15% 左右

3、实际应用【特别适合读多写少的应用】

到这里,相信你对 SSD 硬盘的写入和擦除的原理已经清楚了,也明白了 SSD 硬盘的使用寿命受限于可以擦除的次数。

仔细想一想,你会发现 SSD 硬盘,特别适合读多写少的应用。在日常应用里面,我们的系统盘适合用 SSD。但是,如果我们用 SSD 做专门的下载盘,一直下载各种影音数据,然后刻盘备份就不太好了,特别是现在 QLC 颗粒的 SSD,它只有几千次可擦写的寿命啊。

在数据中心里面,SSD 的应用场景也是适合读多写少的场景。我们拿 SSD 硬盘用来做数据库,存放电商网站的商品信息很合适。但是,用来作为 Hadoop 这样的 Map-Reduce 应用的数据盘就不行了。因为 Map-Reduce 任务会大量在任务中间向硬盘写入中间数据再删除掉,这样用不了多久,SSD 硬盘的寿命就会到了。

【新的问题】
到了这里,我们 SSD 硬盘在硬件层面的写入机制就介绍完了。不过,更有挑战的一个问题是,在这样的机制下,我们怎么尽可能延长 SSD 的使用寿命呢?如果要开发一个跑在 SSD 硬盘上的数据库,我们可以利用 SSD 的哪些特性呢?想要知道这些,请你一定要记得回来听下一讲。

五、总结【个人总结的重点】

  • 核心词:SSD读写原理、擦除次数、预留空间
  • 对于 SSD 硬盘,我们也可以先简单地认为,它是由一个电容加上一个电压计组合在一起,记录了一个或者多个比特
  • SSD读写的基本单位:一个页(Page)。
  • SSD擦除的基本单位:一个块(Block)。
  • 生产 SSD 硬盘的厂商,其实是预留了一部分空间,专门用来做“磁盘碎片整理”的工作。【转移数据到预留空间,然后就可以腾出更多的空间供使用】
  • “磁盘碎片整理”或者“内存垃圾回收”的工作,我们不能太主动、太频繁地去做。因为 SSD 的擦除次数是有限的。如果动不动就搞个磁盘碎片整理,那么我们的 SSD 硬盘很快就会报废了
  • SSD 硬盘,特别适合读多写少的应用【擦除太频繁, 报废更快】
  • 如何查询自己电脑是否是SSD硬盘?

六、精选问答

现在大家使用的数据系统里,往往会有日志系统。你觉得日志系统适合存放在 SSD 硬盘上吗?

其他:


【计算机组成原理】学习笔记——总目录

【46】SSD硬盘(上):如何完成性能优化的KPI?相关推荐

  1. 深入浅出计算机组成原理学习笔记:SSD硬盘(上)-如何完成性能优化的KPI?(第46讲)...

    一.引子 随着3D垂直封装技术和QLC技术的出现,今年的"618",SSD硬盘的价格进一步大跳水,趁着这个机会,我把自己电脑上的仓库盘,从HDD换成了SSD硬盘.我的个人电脑彻底摆 ...

  2. 46 | SSD 硬盘(上):如何完成性能优化的 KPI?

    46 | SSD 硬盘(上):如何完成性能优化的 KPI? 随着 3D 垂直封装技术和 QLC 技术的出现,今年的 "618",SSD 硬盘的价格进一步大跳水,趁着这个机会,我把自 ...

  3. 46 | SSD硬盘(上):如何完成性能优化的KPI?

    随着 3D 垂直封装技术和 QLC 技术的出现,今年的"618",SSD 硬盘的价格进一步大跳水,趁着这个机会,我把自己电脑上的仓库盘,从 HDD 换成了 SSD 硬盘.我的个人电 ...

  4. 【47】SSD硬盘(下):如何完成性能优化的KPI?

    [计算机组成原理]学习笔记--总目录 [47]SSD硬盘(下):如何完成性能优化的KPI? 引言 一.磨损均衡.TRIM 和写入放大效应 1.FTL(Flash-Translation Layer,闪 ...

  5. SSD固态硬盘文件系统选择与性能优化

    最近由于工作需要,对ext3, ext4, reiserfs, reiser4, xfs, jfs, btrfs, nilfs2, logfs多种文件系统在SSD固态硬盘上的性能进行了全面的测试评估与 ...

  6. MySQL史上最全性能优化方式

    MySQL有哪些性能优化方式?这个问题可以涉及到 MySQL 的很多核心知识,就像要考你计算机网络的知识时,问你"输入URL回车之后,究竟发生了什么"一样,看看你能说出多少了. 所 ...

  7. 转:MySQL史上最全性能优化方式

    一.设置索引 索引是一种可以让SELECT语句提高效率的数据结构,可以起到快速定位的作用. 索引的优缺点: 优点:某些情况下使用select语句大幅度提高效率,合适的索引可以优化MySQL服务器的查询 ...

  8. 网吧服务器固态硬盘使用,网咖无盘服务器有必要全上SSD硬盘吗?

    无盘网吧服务器配置是无盘网吧系统里最最重要的一个硬件环境配置了,而无盘网吧服务器和网咖服务器硬件配置里小编认为硬盘和网络环境相对来讲又是比较注重的了.因为无盘客户机所有数据都是来自无盘服务器的硬盘,而 ...

  9. h5如何上传文件二进制流_Hadoop如何将TB级大文件的上传性能优化上百倍?

    这篇文章,我们来看看,Hadoop的HDFS分布式文件系统的文件上传的性能优化. 首先,我们还是通过一张图来回顾一下文件上传的大概的原理. 由上图所示,文件上传的原理,其实说出来也简单. 比如有个TB ...

最新文章

  1. Silve“.NET研究”rlight 游戏开发小技巧:传说中的透视跑马灯
  2. php接口性能测试工具,PHP 应用性能优化指南
  3. Leetcode4---求两个排序数组的中位数
  4. python交互式和文件式区别_Python中的交互式数据可视化与Bokeh(系列五)
  5. SpringSecurity权限控制之异常处理方式三
  6. Python中import模块的两种模式
  7. GPU Gems2 - 6 用多流来优化资源管理(Optimizing Resource Management with Multistreaming)
  8. poj2352-线段树-start
  9. 关于静态成员变量的谈论
  10. Idea搭建一个JavaWeb项目(一)
  11. 洛阳计算机学校排名2015年,洛阳最好的中专学校有哪些 十大中专学校排名
  12. opencv python3 文本区域识别_使用等高线从图像中提取文本区域 - Opencv,Python
  13. python写小猪佩奇_【python】使用python自动画一只小猪佩奇(源码)-Go语言中文社区...
  14. Ubuntu - 新建管理员用户
  15. 飞思卡尔K60最小系统设计板方案
  16. java jsessionid_关于JSESSIONID
  17. 阿里巴巴实习生招聘 不完全指南
  18. H3C交换机远程端口镜像配置
  19. 新一代企业级安全OneDNS
  20. e3d教程做logo教程_AE-炫酷LED灯动画 LOGO片头制作(E3D插件)

热门文章

  1. 《百位名人读书心法》选摘
  2. Linux下安装intel数学库Math Kernel Library(MKL)
  3. PLSQL绿色版安装及配置
  4. SpringBoot的文件下载
  5. 学生党蓝牙耳机推荐,适合学生党的蓝牙耳机品牌排行
  6. 解决mysql报错ERROR 1044 (42000): Access denied for user ''@'localhost' to database 'mysql'
  7. 智慧园区三维可视化物联网运营管理平台
  8. 学习型红外遥控器设计(4) 红外遥控编码还原
  9. shell清除历史记录
  10. C++ ws(WhiteSpace)