从SLC、MLC,到今天的TLC乃至QLC,技术的迭代使得NAND存储密度越来越高,每GB的拥有成本也越来越低。如今,几TB甚至十几TB的企业级NVMe SSD已经开始成为主流,但另一方面,NAND的Cell擦写寿命越来越短,也引发了对于SSD寿命的诸多讨论。

什么是SSD的寿命?

通常说的SSD寿命是指在SSD生命周期内允许的数据写入量。增大SSD的用户容量、选择更高可擦写次数的NAND颗粒,无疑都是延长SSD寿命的有效手段。同时,它还要求SSD的其它硬件、软件(固件)都不存在短板。

一块企业级SSD在其整个生命周期中,应当在各类复杂的负载及外界环境下,都能保证其关键指标的一致。它要求产品在设计时,就充分考虑复杂多样的用户使用场景,并在功能设计、电路设计、元器件选型、固件算法等方方面面均满足预定的寿命和可靠性指标。NAND寿命虽然是影响SSD寿命的因素之一,但二者并不等同。

为何NAND寿命如此受关注?

不论是SLC、MLC,还是TLC,它们都利用了量子力学的隧道效应,在控制门上加较高的编程电压,使电子穿越隧道氧化层到达浮栅,并聚集在浮栅上,存储信息。擦除时仍利用隧道效应,将电压反转,从而消除浮栅上的电子,达到清除信息的结果。电子在反复来回穿越的过程中会对隧道氧化层造成不可逆的磨损,使其不能再有效保持浮栅门中的电荷,并最终失效。


NAND寿命的量化指标为P/E Cycles,也就是写入/擦除(Program / Erase)次数,一写一擦就会消耗NAND的1个P/E。根据NAND厂商的要求,在P/E耗尽之前,NAND应满足以下特征:

  • NAND在正常工作温度下仍能保持要求的RBER(原始比特错误率)
  • NAND剩余的好块个数可继续满足其参数规格
  • 对温度的敏感度仍可满足使用要求
  • 数据Read Disturb的抵抗能力仍满足要求
  • 原定的读写擦各项性能参数仍能满足要求
  • ……

SLC NAND的P/E次数可达100000,MLC约为3000,主流的消费级TLC NAND大约在500 ~ 1000,而企业级eTLC则高得多,一般为5000 ~ 10000。假设SSD的用户容量并没有几何级的增加,NAND的可用P/E次数少了,用户对SSD整盘寿命的担心自然会增加。

加剧NAND损耗的原因

假如,我的SSD是1TB可用容量,P/E次数为1000,是否意味着,当我写完第1000TB数据的时候,SSD才会寿终?很遗憾,事实并非如此,甚至比你想的更加糟糕。写放大是导致这一问题的根本。

根据NAND工作原理,它以Page(页)为单位写入数据,以Block(块)为单位进行擦除,在新数据写入时,需要先对写入位置进行擦除操作,而不是像HDD那样可以直接覆盖。由于一个Block中含有多个Page,因此在擦除时需要先对里面的有效数据进行保留,重新写入,引发GC(Garbage Collection,垃圾回收)和写放大(WA,Write Amplification)。即,用户写1笔数据,真正写入到SSD中的可能是2~3笔,这样无疑会加剧NAND的P/E消耗。

企业应用的工作负载千差万别,不同工作负载所触发的写放大并不一样。在对硬盘的写入寿命测试中,我们通常会用到三种典型的负载模型:顺序、纯4K随机和JESD219中定义的IO模型,并引入WAF(写放大因子)的概念。


如上所示,顺序写入的WAF最小,约等于1(实际写入量约等于用户写入量),但由于现实业务场景很少有纯顺序工作负载,其测出的写入寿命并不具备实际可执行性;4K随机看似合理,但由于不含小于4K的IO操作,和用户实际场景也有一定差别;JESD219则对企业级用户的实际业务情况进行了参考和模拟,为SSD写入负载测试带来了行业参考标准,它包含从512 bytes到64K不同权重IO分布的组合,这些小于4K的IO也会进一步带来写放大。

此外,JESD219还根据企业级IO模型特点,对冷热数据进行了定义,借此触发磨损均衡(Wear-leveling),引入额外数据搬移,这也是JESD219标准下SSD的写放大会比纯 4K随机负载更高的原因。

不同测试方法导致不同的SSD寿命预估结果,WAF越高,其结果越具参考性。例如,市面上常见的企业级SSD,在纯顺序工作负载下的DWPD(硬盘生命周期内,全盘每天可写入的次数)可以达到5,在JESD219定义负载下,DWPD可能只有1。

以Memblaze PBlaze6 6920系列企业级SSD为例,其5年DWPD和PBW寿命是在JESD219工作负载下测试得出的。这样的测试标准显然更符合企业用户的实际使用场景,更具参考意义。

P/E Cycles可以被提升吗?

对于增加NAND的P/E可擦写次数,目前并没有好的办法,只能通过一些技术手段,让NAND在P/E耗尽之前,尽可能表现可靠。

NAND原厂对于数据纠错,会提供Retry Table,通过改变读数据的参考电压等各种参数供用户(SSD模组厂)使用。而对于那些合作足够紧密的厂商,甚至可以得到内部命令,进一步微调每一个波谷的位置,从而实现更强的数据纠错能力。

NAND的老化不以外界意志为转移,P/E Cycles,顾名思义只和Program & Erase动作相关,以优化读取电压为手段的提升P/E次数更是站不住脚。原厂每代NAND产品都经过了长时间的验证,得出了合适的参数固化成NAND产品投入市场。SSD厂商可以在所有与写放大的相关算法、技术中做出优化,但终不能突破P/E Cycles的最大数值。

当P/E Cycles达到厂商承诺的顶点时,SSD寿终。此时,你可能仍然可以对SSD进行读取、写入操作,但其中某个你注意不到的指标很可能已经发生“器官衰竭”,最明显的表现就是数据保持能力急剧下降,出现数据错误率上升、数据损坏甚至丢失等问题,这样的隐患仅通过读写测试很难得到。此时SSD已不具备可靠特性,不建议继续使用。

SSD寿命怎么看?PBW和DWPD

SSD寿命单位有两种,PBW(或TBW)和 DWPD:

  • PBW(或TBW):全称Petabytes Written(或Terabytes Written),在SSD的生命周期内允许的主机端数据写入量。1PBW = 1000TBW
  • DWPD:全称Drive Writes Per Day,在SSD的生命周期内,每天允许全盘写入的次数。

DWPD和PBW/TBW可以相互换算,公式如下:


假设一款SSD的用户容量为3.2TB,5年DWPD为3.4,那么其TBW为3.2TB×3.4×365×5,即19856TB。

DWPD的计算和硬盘服役时间有关,对企业级SSD来说,一般以5年产品保修期为参考。以PBlaze5 926系列企业级SSD为例,其每天3.4 DWPD写入量对应为5年生命周期,如果这块SSD只需要服役3年,那么其每天的DWPD可以达到5.7。

SSD的寿命和MTBF的关系?

寿命代表SSD可以用多久,MTBF(Mean Time between Failures,平均故障间隔时间)则代表了寿命期间,这块SSD是否可靠。上文《揭秘:SSD的“可靠性”到底可不可靠》提到,在SSD生命周期内,其可靠性表现应始终满足行业标准(如企业级SSD需保证用户容量不变,UBER ≤ 10E-16,FFR≤ 3%,断电后40℃的室温下数据可以保持3个月);当SSD寿命耗尽,即达到预定的最大P/E次数,其可靠性会出现大幅下降。

不论是SSD的寿命PBW、TBW、DWPD,还是SSD的可靠性指标MTBF,它们都关乎到硬盘的实际可用性,并对用户的最终使用造成影响。SSD厂商也需站在用户立场,通过模拟真实用户使用场景,以敬畏而又严谨的态度,以相对保守的数字量化,为企业或个人用户做出保证,助其做出正确选择。

企业级SSD 寿命要怎么看?相关推荐

  1. 企业级SSD主控和主流玩家洞察

    从单个厂商在企业级固态硬盘产业链布局的角度上看,国内市场上主要有六种业务布局模式:包括能够一体化完成固态硬盘所有设计和生产流程的IT龙头企业--主要包括六大NAND原厂(其中部分厂商无自主DRAM), ...

  2. 无法写入最后一个_5000GB写入测试!影驰擎GA-E评测:只卖19999元的16TB企业级SSD...

    一.前言:16TB!影驰推出擎系列企业及SSD 提到高端固态硬盘的时候,大多数人往往会想到企业级SSD,但是很多人可能都会认为,企业级SSD理所当然的应该卖天价. 其实,企业级产品并非高不可攀.虽然作 ...

  3. 三星高级工程师演讲 | 企业级SSD发展趋势

    2017年8月22日,开放数据中心委员会主办,百度.腾讯.阿里巴巴.中国电信.中国移动.中国信息通信研究院.英特尔承办的"2017 ODCC开放数据中心峰会"在京隆重召开.在下午的 ...

  4. 企业级服务器固态硬盘,用户如何选择企业级SSD?_Intel服务器CPU_企业存储技术与评测-中关村在线...

    由于固态硬盘的发展尚处在初期,其市场并不像普通硬盘已经形成了固定的格局,固态硬盘如今的厂商可以说是百花齐放百家争鸣.英特尔.三星.东芝这些老牌劲旅与威刚,美光,OCZ和海盗船等,正在一较短长.企业级固 ...

  5. 服务器多系统ssd寿命检测,检测 SSD 剩余寿命 寿终正寝之前还能挽回数据

    原标题:检测 SSD 剩余寿命 寿终正寝之前还能挽回数据 从理论上讲 SSD 固态硬盘的寿命比 HDD 机械硬盘要短,但是由于出色的抗震性,寿命这件事情在现实使用时还真说不准,但是有一点是可以肯定的, ...

  6. 关于SSD寿命问题的探讨

    擦写次数如何算? 要了解SSD固态硬盘的寿命,需要先了解一下SSD固态硬盘中的存储介质NAND闪存.NAND闪存原理上是一个CMOS管,有两个栅极,一个是控制栅极(Control Gate), 一个是 ...

  7. ​PBlaze6上新!Memblaze发布首款基于长存颗粒的企业级SSD

    关注云报 洞察深一度 7月29日,北京忆恒创源科技股份有限公司(以下简称"Memblaze")正式发布了PBlaze6 6531系列PCIe 4.0企业级NVMe SSD.该系列产 ...

  8. 你知道企业级SSD与消费级SSD的区别吗?

    [引语] 前两天,一位从事大数据工作的好朋友问我: "企业级SSD与消费级SSD的区别是什么?" "大数据中心能否采用消费级SSD?" 我想,大部分朋友应该都知 ...

  9. Memblaze发布首款基于长存颗粒的企业级SSD,背后有何新价值?

    7月29日,北京忆恒创源科技股份有限公司(以下简称"Memblaze")正式发布了PBlaze6 6531系列PCIe 4.0企业级NVMe SSD.该系列产品是基于MUFP开发的 ...

最新文章

  1. ECharts概念学习系列之ECharts是什么?
  2. 关于EL表达式取值的问题
  3. Codeforces Round #620 (Div. 2) F2. Animal Observation (hard version) dp + 线段树
  4. php postgresql多条,PHPPostgreSQL函数列表 - phpStudy
  5. angular的$http发送post,get请求无法传送参数的问题
  6. 这些解决 Bug 的套路,你都会了不?
  7. 新手学.net(习惯问题)
  8. ubuntu之解决挂载NTFS磁盘时出现input/output error
  9. RabbitMQ安装及使用教程
  10. 深信服测试开发日常实习岗位一面凉经(来自李某)
  11. “数据源“SqlServer ”包含无法用于处理操作的 ImpersonationMode。不能与名称为“SqlServer ”的数据源进行连接。”
  12. Unity中ComputeShader入门
  13. Java的小数点后精度计算
  14. 算法与数据结构之带头结点和不带头结点单链表存在的问题
  15. Android屏蔽呼出电话提示音,Android来电拦截及拦截后的提示音
  16. MYsql膳食健康系统_360Health
  17. python获取当日、本周、本月、昨日、上周、上月时间
  18. 如何在3个月内写出博士论文
  19. IOT 智能家居 单品分析
  20. 为chrome书签栏中,没有默认图标的网站添加图标

热门文章

  1. Binder(二)简介
  2. 常见的编程语言有哪些?
  3. 去电影院看电影的那些事
  4. HTML5基础入门学习心得体会
  5. Dockerfile,你给我站住!
  6. android 三剑客(Retrofit 2.0)简单使用
  7. 创建虚拟机,root重置密码
  8. 微信与服务器通讯失败,云开发实时通信出现下面错误码是什么原因?-402002,-402010...
  9. 一篇文章让你理清 【硬盘类型】 HDD、SSD、SSHD 和 【硬盘接口类型】 ATA、IDE、SATA、SCSI、SAS
  10. 亚马逊美国站视频验证注意事项