0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

SSD的可靠性可靠性量化指标MTBF

SSDFans 来源:Memblaze 作者:Memblaze 2021-10-11 09:50 次阅读

企业环境复杂多变,快速增长的业务需求使得企业在数据存储规模、存储性能和可靠性等多方面提出了越来越高的要求。SSD固态硬盘凭借极高的读写性能、极低延迟成为越来越多企业的首选解决方案,并在数据库、虚拟化、应用加速、大数据、云计算乃至人工智能等领域发挥重要作用。企业级SSD往往需要在高并发、大压力、24小时全天候运行的严苛环境下运行,其可靠性是企业级用户的重点关注之一。

可靠性指的是一个部件或系统在规定的操作条件下,在特定的时间内继续执行其预定功能的能力。对企业级SSD而言,它是非常重要的一项指标,不仅直接决定产品出货的良率、故障率等核心指标,而且对数据可用性、一致性的保护,也起着关键作用。

01

可靠性量化指标 —— MTBF

SSD的“可靠性”通常以MTBF量化衡量。MTBF全称Mean Time between Failures,平均故障间隔时间,即产品在总的使用阶段累计工作时间与故障次数的比值。它反映了产品的时间质量,产品故障越少,MTBF越高,产品可靠性也就越高。

与消费级SSD产品相比,企业级SSD在可靠性方面面临更高挑战。根据OCP(Open Compute Project)给出的建议,部署于数据中心的企业级SSD MTBF平均故障间隔时间要在2,000,000小时,也是目前企业级SSD奉行的标准。但是,MTBF是需要实际跑测验证的,不能凭空而来。按照传统方法,要完成多次200万小时的验证显然不可能。那么,这长达200万小时的平均故障间隔时间,又是如何得到的呢?

答案是基于一定样本量,在一定时间段内通过加速因子加速(如写入量加速、运行环境温度加速)进行统计推断。过程模拟典型用户场景,通过实测验证理论值,提前验收产品质量。严谨的跑测验证将直接决定MTBF“可靠性指标”是否真的可靠。

02

MTBF 的表征时期

和大部分电子产品一样,SSD同样符合浴盆曲线(失效率曲线)特性,它分为三个关键时期:

早期失效期(Infant Mortality)

产品在刚生产好并加电使用时,因良率等因素会导致其失效率较高。为保证交付到客户手上的SSD符合企业级可靠性标准,企业级SSD厂商会对所有生产线上的产品进行一定时长的老化跑测,以最大程度暴露产品可能的早期失效,保证客户拿到的产品不存在早期失效问题。

偶然失效期(Random Failures or Normal Life)

这一阶段对应正式出货产品,产品失效率较低,且较稳定。产品可靠性指标MTBF所描述的就是这个时期,即产品的稳定使用阶段。

磨损期(Wearout Phase)

该阶段因产品磨损、老化等因素,其失效率会随时间的延长而呈指数级增加。此时SSD宣称寿命已经结束,虽可继续使用,但坏块会随着PE的增加而加速上升,SSD的有效预留空间(OP)逐渐消耗殆尽,设备失效率提高。对企业级SSD而言,进入磨损期的产品已不建议继续使用。

03

MTBF = MTTF

在MTBF之外,你可能还听过另外一个可靠性描述的词——MTTF。对于一个可维护的设备来说,MTBF = MTTF + MTTR,三者关系如下:

MTTF (Mean Time To Failure,平均失效时间):指系统两次失效的平均时间,取所有从系统开始正常运行到发生故障之间的时间段的平均值。MTTF =∑T1/ N;

MTTR (Mean Time To Repair,平均修复时间):指系统从发生故障到维修结束之间时间段的平均值。MTTR =∑(T2+T3)/ N;

MTBF (Mean Time Between Failure,平均无故障时间):指系统两次故障发生之间(包括故障维修)时间段的平均值。MTBF =∑(T2+T3+T1)/ N。

因为MTTR通常远远小于MTTF,所以MTBF近似等于MTTF。

04

MTTF理论计算公式,2,000,000小时如何而来?

最简单的情况下,MTTF计算遵循如下公式:

其中:

Ai 为 SSD i 的加速因子;

ti 为 SSD i 的测试时间;

nf 为出现故障 SSD 的数量;

a 为置信度(confidence limit,60%);

x2 为卡方分布(chi-squared distribution)。

上述等式中的加速因子通常分为3类:

未加速因子:A=1,通常用于固件故障;

TBW(Total Bytes Written)加速因子 :通过增加数据写入强度进行寿命加速;

温度加速因子 :通过升高测试环境温度进行故障出现加速。

TBW (Total Bytes Written) 加速因子

TBW是SSD寿命单位,以寿命为1.5 DWPD,用户容量3.84TB PBlaze6 SSD为例,其5年总的数据写入量(也就是现场部署写入量field)为10.5 PB,对应每天数据写入量为5.76 TB。如果增加每天的数据写入量(加速写入量stress),相当于加快消耗SSD寿命,可以加速故障出现。TBW加速因子计算方法如下:

假设一个用户容量为100G的SSD,其产品规格书定义SSD寿命为175TBW,典型使用场景下可使用5年(43800个小时)。其在1008小时内写入130TB的数据,写放大为1.2,则TBW加速因子为32,如果短时间内写入更多数据,则TBW加速因子也会相应提升。

温度加速因子

NAND因其固有特性,数据保持力会随着温度的升高而降低。阿伦尼乌斯公式(Arrhenius Equation)指出,在室温 40℃ 下SSD放置 1 年(8670个小时),相当于在 85℃ 的老化室中放置 52 个小时。

JESD 22-A108定义了温度随时间对SSD的影响,执行高温运行寿命(HTOL,High Temperature Operating Life)测试,可确定长时间高温条件下SSD运行的可靠性。协议规定,如果没有特殊要求,SSD需在 125 °C 的结温压力下测试。但企业级SSD一般会设计高温保护逻辑,防止温度过高造成NAND数据保持力下降和元器件的损坏,所以SSD的实际工作温度不会达到125℃。

对于温度加速因子,计算方法如下:

其中:

Ea 为失效模型的活化能 ,一般为0.7 eV;

k 为玻尔兹曼常数,8.617 x 10-5 eV/°K;

T₁ 为工作温度 (标准取值为 55°C 或者 328°K);

T₂ 为测试加速温度。

MTTF计算示例

假设样本量为 400,测试时间为 1008 小时,加速因子Ai = A(TBW) * A(T) 为10,失败的数量为0,置信度为60%,则 MTTF = MTBF = 4,400,000小时。

d48aa190-29cf-11ec-82a8-dac502259ad0.png

注意,MTBF是和温度严格相关的。这一点在OCP Datacenter NVMe SSD Specification中也有提到:

MTBF 2,500,000小时(AFR≤0.35%),对应的SSD运行温度为0℃~50℃;

MTBF 2,000,000小时(AFR≤0.44%),对应的SSD运行温度为0℃~55℃。

但理论和现实总是有差距的。现实中产品意义上的MTBF测试,很难达到10倍的加速因子,TBW加速因子仅能用于测试NAND颗粒的寿命,实际测试中还需要考虑威廉希尔官方网站 和物理接口等硬件部分的可靠性。而这部分,只能靠温度来加速。实际操作中,MTBF=200万小时的测试,需要至少用2000片样品在加速因子作用下,跑满1000小时以上。

05

MTBF 和 AFR 又是什么关系?

除了MTBF指标,还有其他可靠性量化表征指标,如故障率λ(Failure Rate)和年化故障率AFR(Annualized Failure Rate),其中AFR和MTBF又可以相互转化。

故障率λ:SSD关键元器件选型时,需要确保每个元器件的故障率 λ 达标。相比故障率指标,MTBF的定义更加直接,也更适用于表现系统级的可靠性;

AFR:年化故障率,可以更好地了解在任何一年中发生硬盘故障的几率。

MTBF 和 AFR转化公式如下:

MTBFhours = 1/λhours

MTBFyears = 1/(λhours*24*365)

AFR = 365*24hours*λhours = 8760hours/MTBFhours

MTBF 和 AFR 的数值对应关系如下:

d4f7e25a-29cf-11ec-82a8-dac502259ad0.png

企业级SSD产品可靠性MTBF ≥ 2,000,000小时(@55℃),换算为年化失效率AFR ≤ 0.44%,对应FFR(Functional Failure Requirement,SSD在整个磨损寿命时间范围内累积的功能失效率,以5年保修期为参考)≤2.2%。

Memblaze全系列企业级SSD均按照2,000,000小时MTBF @55℃ /2,500,000小时MTBF@50℃为标准,满足55℃/50℃环境下7×24小时稳定不间断运行要求、40℃环境下数据至少3个月断电保持能力以及低于1E-17的UBER不可修复错误率。

06

MTBF的验证

Memblaze自研测试平台Whale系统

在数据可靠性技术领域,Memblaze自研了MemSolid 技术集,以保证企业级数据的一致性和可靠性。通过全路径数据保护、LDPC软判决解码纠错技术、元数据跨Channel备份保护、Die间动态RAID5恢复坏块数据机制,以及重读保护和过温保护等技术,实现了PBlaze可持续的数据一致性保护,保障企业关键业务数据资产始终处于安全可靠的存储环境中。

为确保出厂的SSD产品能够满足MTBF的标准,Memblaze运用十余年在固态硬盘领域的经验积累,以及对用户实际应用的理解,自主研发出MTBF测试平台 —— Whale系统。

它参照JEDEC标准打造,适用于PCIe SSD的研发(DVT)、环境应力(EST,Environmental Stress Test)、数据保持力、生产(老化,ORT,Ongoing Reliability Testing)、RDT等测试。Whale系统预置了最接近客户真实使用场景的测试案例,采用合理的加速因子对RDT阶段产品进行长时间跑测,成为产品量产前的质量保障。

根据Memblaze的出货量和实际故障率统计,PBlaze系列SSD的实际累计产品失效率(CFR,Cumulative Failure Rate)远低于标称的年化故障率。

经过十几年在SSD行业的深耕打磨,Memblaze 已经形成从芯片、软件、硬件、生产、出货等各个环节的严密设计和严格的质量管控体系,能够保证PBlaze系列企业级固态硬盘为客户提供卓越的可靠性,也极大降低了客户系统运行开销(OPEX)和总体拥有成本(TCO),而Memblaze也将继续以匠心精神,不断打磨,不负所期!

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储器
    +关注

    关注

    38

    文章

    7492

    浏览量

    163842
  • SSD
    SSD
    +关注

    关注

    21

    文章

    2862

    浏览量

    117429

原文标题:揭秘:SSD的“可靠性”到底可不可靠

文章出处:【微信号:SSDFans,微信公众号:SSDFans】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    半导体封装的可靠性测试及标准

    产品可靠性是指产品在规定的使用条件下和一定时间内,能够正常运行而不发生故障的能力。它是衡量产品质量的重要指标,对提高客户满意度和复购率具有重要影响。金鉴实验室作为一家提供检测、鉴定、认证和研发服务
    的头像 发表于 11-21 14:36 199次阅读
    半导体封装的<b class='flag-5'>可靠性</b>测试及标准

    微电子器件可靠性失效分析程序

    微电子器件可靠性失效分析程序
    的头像 发表于 11-01 11:08 1328次阅读
    微电子器件<b class='flag-5'>可靠性</b>失效分析程序

    无铅焊接的可靠性

    电子发烧友网站提供《无铅焊接的可靠性.pdf》资料免费下载
    发表于 10-16 10:50 5次下载

    PCB高可靠性化要求与发展——PCB高可靠性的影响因素(上)

    在电子工业的快速发展中,印刷威廉希尔官方网站 板(PCB)的可靠性始终是设计和制造的核心考量。随着集成威廉希尔官方网站 (IC)的集成度不断提升,PCB不仅需要实现更高的组装密度,还要应对高频信号传输的挑战。这些趋势对PCB
    的头像 发表于 10-11 11:20 336次阅读
    PCB高<b class='flag-5'>可靠性</b>化要求与发展——PCB高<b class='flag-5'>可靠性</b>的影响因素(上)

    针对高可靠性应用的电压转换

    电子发烧友网站提供《针对高可靠性应用的电压转换.pdf》资料免费下载
    发表于 09-18 14:46 0次下载
    针对高<b class='flag-5'>可靠性</b>应用的电压转换

    可靠性BAW振荡器MTBF和时基故障率计算

    电子发烧友网站提供《高可靠性BAW振荡器MTBF和时基故障率计算.pdf》资料免费下载
    发表于 08-29 11:52 0次下载
    高<b class='flag-5'>可靠性</b>BAW振荡器<b class='flag-5'>MTBF</b>和时基故障率计算

    基于可靠性设计感知的EDA解决方案

    产品可靠性,包括制造和运营方面,正在成为芯片-封装-系统迭代设计周期中设计的关键方面,尤其是那些有望承受更长使用寿命和可能的恶劣操作环境的产品,例如汽车电子系统、高性能计算 (HPC)、电信
    的头像 发表于 07-15 09:56 425次阅读
    基于<b class='flag-5'>可靠性</b>设计感知的EDA解决方案

    汽车功能安全与可靠性的关系

    当前,随着汽车领域的飞速发展,汽车也被重新定义。在汽车电子电气系统设计时,离不开对功能安全和可靠性设计的考虑。正确理解两者之间的关系,有助于更好地分析问题和解决问题。什么是汽车可靠性汽车可靠性是指
    的头像 发表于 07-13 08:28 3223次阅读
    汽车功能安全与<b class='flag-5'>可靠性</b>的关系

    请问FATFS文件系统可靠性如何?

    ST官方固件库中使用了FATFS文件系统,想问下,这个文件系统可靠么? 我想了解一下,有哪位朋友真正产品上使用FATFS文件系统,可靠性有什么问题没有。
    发表于 05-16 06:35

    AC/DC电源模块的可靠性设计与测试方法

    OSHIDA  AC/DC电源模块的可靠性设计与测试方法 AC/DC电源模块是一种将交流电能转换为直流电能的设备,广泛应用于各种电子设备中,如电脑、手机充电器、显示器等。由于其关系到设备的供电稳定性
    的头像 发表于 05-14 13:53 764次阅读
    AC/DC电源模块的<b class='flag-5'>可靠性</b>设计与测试方法

    半导体可靠性手册

    电子发烧友网站提供《半导体可靠性手册.pdf》资料免费下载
    发表于 03-04 09:35 23次下载

    基于结构相似可靠性监测结果

    电子发烧友网站提供《基于结构相似可靠性监测结果.pdf》资料免费下载
    发表于 02-05 09:10 0次下载
    基于结构相似<b class='flag-5'>性</b><b class='flag-5'>可靠性</b>监测结果

    如何确保IGBT的产品可靠性

    在当今的半导体市场,公司成功的两个重要因素是产品质量和可靠性。而这两者是相互关联的,可靠性体现为在产品预期寿命内的长期质量表现。任何制造商要想维续经营,必须确保产品达到或超过基本的质量标准和可靠性
    的头像 发表于 01-25 10:21 1644次阅读
    如何确保IGBT的产品<b class='flag-5'>可靠性</b>

    IGBT的可靠性测试方案

    在当今的半导体市场,公司成功的两个重要因素是产品质量和可靠性。而这两者是相互关联的,可靠性体现为在产品预期寿命内的长期质量表现。任何制造商要想维续经营,必须确保产品达到或超过基本的质量标准和可靠性
    的头像 发表于 01-17 09:56 1460次阅读
    IGBT的<b class='flag-5'>可靠性</b>测试方案

    半导体封装的可靠性测试及标准介绍

    本文将介绍半导体的可靠性测试及标准。除了详细介绍如何评估和制定相关标准以外,还将介绍针对半导体封装预期寿命、半导体封装在不同外部环境中的可靠性,及机械可靠性等评估方法。 什么是产品可靠性
    的头像 发表于 01-13 10:24 5334次阅读
    半导体封装的<b class='flag-5'>可靠性</b>测试及标准介绍