作为一家在2021年在美国纳斯达克上市的云端备份公司,Backblaze一直保持着对外定期发布HDD和SSD的故障率稳定性质量报告,给大家提供了一份真实应用场景下的稳定性分析参考数据:
以往报告解读系列参考:
-
Backblaze发布2024 Q2硬盘故障质量报告
-
Backblaze发布2024 Q1硬盘故障质量报告
截至2024年第三季度末,Backblaze在其全球数据中心的云存储服务器中监控着总计292,647个硬盘(HDDs)和固态硬盘(SSDs)。为了专注于数据存储设备的表现,Backblaze从分析中剔除了4,100个引导盘,包括3,344个SSD和756个HDD。因此,本季度报告涵盖了剩余的288,547个用于数据存储的硬盘。
AFR故障率从第二季度的1.71%增长到第三季度的1.89%,显示了季度间AFR持续缓慢上升的趋势。
-
非老化4TB硬盘的影响:尽管4TB硬盘是较老的型号,这些硬盘正在被逐步替换。因此,剩余4TB硬盘的AFR仅为0.26%,表明它们不是此次AFR上升的主要原因。
-
8TB硬盘的老化问题:实际上,导致AFR上升的主要原因是8TB硬盘群体。这批硬盘平均已服役超过七年,其AFR从第二季度的2.31%跃升至第三季度的3.04%。随着这些硬盘逐渐老化,预计未来几个月内将启动对8TB硬盘的大规模迁移工作。
硬盘型号的变化
-
4TB Seagate硬盘退出历史舞台:曾经广泛使用的4TB Seagate硬盘(型号ST4000DM000)几乎完全被淘汰。所有包含这些硬盘的Backblaze Vaults已完成迁移,仅剩下两台未列入季度统计表中。
-
20TB Toshiba硬盘的到来:第三季度迎来了新的20TB Toshiba硬盘(型号MG10ACA20TE),共计3,600台(分布在三个完整的Backblaze Vaults,每个Vault 1,200台)。经过几个月的严格测试后,这款硬盘正式加入了Backblaze可部署硬盘型号列表,标志着存储容量和技术水平的又一次提升。
特定型号的表现亮点
-
14TB Seagate硬盘零故障记录:连续两个季度,14TB Seagate硬盘(型号ST16000NM00J)保持了零故障的良好记录。尽管目前仅有185pcs在役,但这一表现显示出该型号硬盘具有较高的可靠性。不过,由于样本量较小,未来仍可能存在较大变数。
在Backblaze的Drive Stats数据集中,有一个名为failure
的字段用于标记硬盘是否发生故障(1表示故障,0表示正常)。多年来,Backblaze在其发布的各种报告中提到,硬盘故障可以分为反应性和主动性两类,并且这两种类型的故障大致均匀分布。
硬盘故障分类定义
反应性故障(Reactive Failures)
-
定义:当硬盘出现以下情况之一时,被视为反应性故障:
-
-
硬盘崩溃,无法启动或旋转;
-
硬盘不响应系统命令;
-
硬盘无法保持正常运行状态。
-
-
特点:这些故障通常是突然发生的,导致硬盘立即失效,无法继续提供服务。
主动性故障(Proactive Failures)
-
定义:主动性故障通常指任何不属于反应性故障的情况,尤其是当SMART统计数据、文件系统检查(如FSCK)等指标显示硬盘存在问题,预示即将发生故障。
-
特点:这类故障往往伴随着多个预警信号,表明硬盘正在经历困难,但尚未完全失效。因此,可以在问题恶化之前采取预防措施进行更换。
总体来看,反应性和主动性故障的数量非常接近,分别占总故障数的47%和53%,基本符合Backblaze过去提出的50/50假设。
为了保证统计数据的有效性和可靠性,Backblaze设定了筛选条件,即每个型号至少要有500台硬盘在运行,并且累计运行天数超过100,000天。这样可以确保样本量足够大,以得到有意义的结果。经过筛选,共有25种型号的硬盘被纳入分析。这些硬盘型号覆盖了不同的容量和品牌。终身AFR是指硬盘在其整个生命周期中的年度化故障率,这可以帮助用户了解不同型号硬盘的长期可靠性表现。
在2024年第二季度,Backblaze记录的硬盘终身AFR为1.47%。然而,在第三季度,这一数值下降到了1.31%,这是一个显著的季度间下降,尤其是在同一时期内季度AFR却呈现上升趋势的情况下。这种看似矛盾的数据变化可以通过两个相关因素来解释。
从上表可以看出,虽然硬盘数量有所增加,但累积硬盘天数和故障硬盘数量都显著减少。这种变化主要是由于不同季度间硬盘型号的调整所致。
硬盘型号的调整
-
新增:在Q3中,加入了20TB Toshiba硬盘型号(MG10ACA20TE),而在Q2时仅有两台该型号硬盘在役。
-
移除:Q3中移除了4TB Seagate硬盘型号(ST4000DM000),因为到季度末只剩下两台,远低于500台的最低要求。
当Backblaze在Q3移除4TB Seagate硬盘的数据时,也相应地去除了80,400,065个硬盘天数和5,789次硬盘故障。如果将4TB Seagate硬盘的数据包含在Q3的终身AFR计算中,那么AFR将会是1.50%,这比实际报告的1.31%要高。因此,移除这部分数据实际上导致了终身AFR的下降。
如果您看完有所受益,欢迎点击文章底部左下角“关注”并点击“分享”、“在看”,非常感谢!
精彩推荐:
-
华为的MED磁电存储技术,原来是这样的!
-
PCIe SSD在温变环境的稳健性技术剖析
-
2024 NAND领域的机遇与挑战
-
SSD在低地球轨道卫星应用中的挑战
-
CXL内存技术:有效提高GPU利用率
-
这可能是最清晰的AI存储数据流动图解
-
DWPD指标:为何不再适用于大容量SSD?
-
突破内存墙:DRAM的过去、现在与未来
-
E1.S接口如何解决SSD过热问题?
-
ZNS SSD是不是持久缓存的理想选择?
-
存储正式迈入超大容量SSD时代!
-
FMS 2024: 带来哪些存储技术亮点?
-
IEEE报告解读:存储技术发展趋势分析
-
什么?陶瓷也可以用来存储数据了?
-
都说固态硬盘寿命短,那么谁把使用寿命用完了吗?
-
内存原生CRAM技术将会颠覆计算存储的未来?
-
浅析SSD性能与NAND速率的关联
-
关于SSD LDPC纠错能力的基础探究
-
存储系统如何规避数据静默错误?
-
PCIe P2P DMA全景解读
-
深度解读NVMe计算存储协议
-
浅析不同NAND架构的差异与影响
-
SSD基础架构与NAND IO并发问题探讨
-
字节跳动ZNS SSD应用案例解析
-
CXL崛起:2024启航,2025年开启新时代
-
NVMe SSD:ZNS与FDP对决,你选谁?
-
浅析PCI配置空间
-
浅析PCIe系统性能
-
存储随笔《NVMe专题》大合集及PDF版正式发布!