硬件观察 VER3.0 With HOMOLAB
5.52K subscribers
2.96K photos
7 videos
667 files
246 links
除了pilipili、微信和抖音YTB之外没有其他频道

#性能表格 快速查阅SSD性能
#丁真吹存储 纯纯的造谣!
#存储笑话 图一乐
#评测 你是企业级固态吗?
#基础科普 家人们谁懂啊


HOMOLAB专注于存储,尽全力为观众展示真实、有效的数据,并分享存储业界相关的信息与知识

本群作为公开的硬件电子讨论频道,发布本人的想法和认知,不涉及任何政治内容
Download Telegram
这是关于固态硬盘寿命的半个科普吧,节选自之前的文章

我最近才意识到这一问题,对于不同人来说寿命的定义是有很大不同的。对你而言寿命是什么?
  是cell连slc mode下都不能有效读写才算做寿命耗尽?是按照JEDEC218B进行完整的测试,fail了才算寿命耗尽?还是误码率达到一定水平就算耗尽?亦或者是性能出现下跌、数据存储时间不过关就算寿命耗尽?这其中每个人、每个厂商都有不同的思考,并没有所谓的正确答案。在谈论寿命之前,最起码要知道自己在说什么、在说哪个寿命。

关于寿命的两个经典误区,TBW和健康度,在此我进行一些解释:
首先说说TBW/PBW,这是一个厂商针对自己产品保修政策设定的值,并非是说写了那么多他就会坏,比如pceva给几块硬盘写了差不多3pb健康度才归0。厂商的dpwd其实也是一种针对产品的预估以及定位,和绝对寿命反倒没有什么特别的关系。例如Intel750的1.2T版本与400G版本,tbw都是127T,这显然不符合客观的实际,写了差不多800T还活蹦乱跳的大把存在。在这点上可以理解汽车的保修路程,十万公里之后厂商便不对其进行保修,但你或许开了二十几万公里也没有任何问题。当然具体的情况比较复杂,一些厂商不看写入量只看健康度,一些厂商按照先到达者去计算,一些厂商直接保证无条件质保(某些highend型号的DC SSD,实际上为无条件质保,协议上出现的任何问题都会给予售后和赔偿)。
如果你认为TBW可以代表寿命,并以此为论据痛骂QLC多么垃圾,那么你就要接受960PRO 1T有800TBW、NM800 1T有3000TBW、SN550 1T有500TBW,而p41 plus有400TBW的事实,从这一角度来看nm800的寿命吊打960pro、p41plus的寿命和sn550差不多。如果你已经了解到了TBW不等于寿命,并认可jedec218B的测试标准以及pceva等进行的耐久性测试,那么请进入下面一个内容。 

为什么健康度是不可完全信任的?首先我们要理解这个健康度是怎么来的,对于一个block,我们如何推断出他的磨损程度?答案是写入一个电平,然后去观察这个一片block的整体写入速度,以及读取电压去预估他的磨损程度,再去代入一个以及预设好的多元函数求解,以猜测这一块的相对寿命。当然,主控不可能为了测试相对寿命主动而大批量的去进行主动的磨损测试,因此健康度的预估更多是在读写以及进行磨损平衡、数据校验时根据误码率、写入延迟等进行被动的分析,其中坏块数量、备用块使用量(有些叫做block重映射,这两个是一个意思)也会对健康度产生较大影响。
可以看出健康度曲线本质上是一个依据nand写入量、误码率以及写入延迟等因素去预设的一个模型,这是厂商在研发时候就预先设定好的数据,而并非是一个神奇的盒子,你塞进去一个SSD他就告诉你准确的答案。那么问题来了,如果说健康度曲线相对不准确,明明是还有大把寿命的cell却误判为了bad cell,或者使用者长期在高温工作造成cell的电平流失更加严重,这些都会造成健康度的异常情况。
况且cell的磨损并非是线性的,这是很多人不理解、也无法认识到的一个事情,他在度过了一段的平滑期后就会迅速下跌,因此单纯的用除法计算寿命是一个很可笑的事情。他可能在写入500t时候健康度还剩下90%,但是在写入600t时候直接归零,也有可能一个写了50t就95%健康度的固态直到写了600t还剩下90%,这些都是完全有可能的事情。按照一个最极端的例子:清零的固态健康度肯定是100%,但是你觉得他的寿命还是那么靠谱吗?

我觉得在谈论寿命之前,先要理解自己所说的寿命是什么、如何测量你所说的寿命、如何正确的理解Datasheet以及耐力赛里面的数据。

有兴趣和疑问的同学可以在下面留言,我可能会抽时间进行回答,更有兴趣的同学也可以扣1复活(x),也可以留言说一下这事情,感兴趣的人多的话我可能会专门写一个文章去说这个事情。

#基础科普
看了下消息,有朋友说Samsung pm9b1淘宝可以买到了,发现竟然是马牌主控?!我印象中这是Samsung近几年第一次使用其他家的主控

按照Samsung目前的定位高低划分(消费级/oem)
pcie 4.0产品:
980pro/9a1
pm9b1(目前无消费级对应产品,主控马牌88ss1322,dramless设计)
pcie 3.0产品:
970evo plus/pm981a,老版是970evo的凤凰主控,仅仅升级了96l 3d3。新版本也是144l 3d4了,并且主控同时变成了980pro同款elips战争女神主控,似乎可以看作那个dell定制1.8a的pm9a1版本?)
980(无对应oem产品,pablo主控,与980pro同样是144l 3d4 nand,因为dramless所以我觉得定位比970evoplus低)
pm991a(主控不知道,高集成度方案,无消费级对应产品,dramless)

那么答案就很明显了,9b1估计就是为了占领4.0的入门市场,原本Samsung是想要用970evo plus/980的组合去应对各种入门4.0主控产品,但是低估了新主控带来的性能提升(2267xt/e19的入门4.0方案如m10e等就已经可以和3.0 flagship打得有来有回,而SM2269xt方案直接就是真超越了3.0 flagship)、低估了oem与ps5那边对于4.0这一名头的热门,所以拿出了这一个产品去应对。不过也有可能是Samsung想要尝试其他的主控方案,以应对Intel+sk联合带来的挑战,这些都说不定。

#丁真吹存储
拆一个最耻辱的DC SSD,堪称Intel dc ssd的黑历史:无论是3d1+不够先进的主控带来的羸弱性能、还是极高的发热,这些都使得p4500/4600堪称耻辱,推出不到一年就被3d2的p4510/4610所提到。(需要注意到的是,p3500/p4500等5系dc ssd,Intel一向有尽管主控和nand一致但是就是给你锁性能、锁寿命的骚操作,这估计是为了产品定位而去刻意区分)
最有趣的还是寿命,20nm mlc的p3500标称tbw仅有1pb,而3d1 32l tlc的p4500为2pb;而专为写入优化的p4600寿命则和p3600持平,为10pb,我想这也算是“打脸”了不少mlc寿命论、业界倒退式发展的论调,尽管tbw/pe等参数不能作为寿命的唯一与可靠指标,但是这多多少少也可以证明在新算法与新nand加持下的tlc并非差劲的代名词。
不过在3d1上,还能看到Intel当年很多不成熟的设计,无论是顺序写性能的低下,还是高并发随机读写下主控的不够用、nand的拖后腿,这些都使得p4x00这代tlc堪称耻辱,结合sm961这个同属3d1但运行在mlc模式下的老oem盘,我们多少可以看到3d1时代业界在黎明前的停滞与思考。这也不外乎为什么在17年这个3d2尚未大规模量产、dc SSD还有大量mlc产品在服役、业界整体在3d1进步并不明显的阶段,有那么多对于tlc的质疑、对于SSD产品悲观的看法,但这些浮于表面的泛泛而谈恰恰忽视了正因为3d1时代的沉淀与尝试,业界才会在3d2时代爆发出如此大的力量、制造了那么多极其优秀甚至放在现在也毫不过时的产品。
目前我手上已经有pm961、Intel 600p、Intel p3500这几个3d1 SSD,有时间的话我会做一期review,去分析3d1时代业界整体的算法趋势与性能表现。

#丁真吹存储 #评测
说个有意思,但是比较匪夷所思的事情,你看到的市面上99%关于硅脂与导热垫的测试(甚至包括厂商),其实都是不严谨的。甚至可以这样说,99%对于硅脂的“横评”实际参考价值不大,尤其是在他的技术指标/数据上。
严谨的说,导热系数这个东西需要一些专业的仪器才能测量,并且这东西在不同压力、温差、导热材料厚度不同的情况下,也会呈现出不同的结果(应该第一个比较平滑的曲线)。甚至于热端冷端与导热材料接触的表面粗糙程度、材料的流动性与内部应力、剪切力都会影响。
如果说要测量各个硅脂对于散热系统的影响,应该考虑压力(这个可以使用扭力扳手解决,不过不同的散热器需要的磅数也不一样,所以这个同样需要测量大概是多少磅压力的时候有比较适合的表现)、硅脂的涂抹量、恒定CPU的功耗、测量不同风扇转速与CPU负载下的温度表现,并且不能只拿一个主板、一个CPU、一个散热器,必须要使用多个以避免误差,而且在测试不同硅脂前,需要把硅脂使用足够多的有机溶剂清理干净。

#丁真说其他的东西
512g?太小了
其实我的看法是,在1t以上ssd已经成为未来趋势的现在,全盘slc模拟这种算法即可以让中高端固态获得以往旗舰级别的体验、让旗舰的成本下降(绝大部分用户都不会爆出全盘模拟slc所设下的最低cache空间,这部分看厂商与产品的设计,一般是40g以上),同时又避免了越来越高的存储密度所带来的低容量ssd ce不足,导致原先固定slc算法盘在频繁的写入和读取中带来的性能不足问题。例如姿态 pc005,5g过小的slc cache是其在大部分场景中(尤其是轻载)性能不足的原因,即使他的Steady State稳定态性能区间足够优秀,但是大部分场景下体验并不尽如人意。4.0和5.0时代,面对越来越大的数据吞吐以及读取需求,原先固定容量的slc算法无疑显得有些不够用,而增加tlc直写以及主控性能带来的cost up最终还是要消费者买单。说白了,现在消费者和kol啥也不懂,就整天指手画脚教厂商做事,连全盘slc算法都能爆cache,这负载是不是有些大病,每天都nvme对拷是吧,但凡做个重回放脚本/抓一个io负载分析,都不会和个风沙、老弟水平一样天天缓外缓外。如果真的有高并发下性能一致性的需求,d7 p5510、pm1743、pm9a3、以及 自研主控新秀dapustor的高端系列、各种dc ssd,这些tlc直写以及配备完整掉电保护、超大op冗余、极其稳定的Steady State状态下性能一致性,才是dc hpc ws市场的可靠伙伴,而不是拿着几个消费级固态天天复读缓外缓外、存储行业倒退式发展等狗屁不通的论调。

至于你说的寿命,恰恰相反,因为还存在slc cache到tlc nand之间的write back,所以寿命相较于固定slc以及tlc直写无疑是下降的,尤其是面对高并发、重负载的场景,全盘模拟slc在面对大量吞吐进入Steady State稳定态时,面对同时涌入的大量数据以及cache的write back,主控和dram往往不堪重负,写放大无疑是增加的:特别是dramless SSD,他们的hmb算法压根不足以支持这样级别下的支援。but who f*cking care?现代SSD寿命早已超过绝大部分人的想象,1t 600tbw的标称,足以送走x代人,全盘slc算法对于家用和游戏环境,无疑是一个足够适合的算法。

#丁真吹存储 #基础科普
半夜写点东西,对于现在ssd市场的一些迷思吧。
部分消费者一定要买mlc、迷信mlc,其实是被很多半桶水的kol带进了坑里,事实是:高端硬盘对消费者的提升很小、即使是企业级也不会有一定要mlc这种奇怪的要求,只需要看性能是否满足需求就好。mlc也好、tlc也好、slc也好,都只是nand运行工作模式,实际性能还要结合主控、固件的策略并实际测试才知道,云出mlc ssd性能和稳定性就一定更好不可取。
现在即使是高并发高带宽的io型dc,也是大dram/optane/znand去做cache,然后tlc/qlc/hdd去做数据盘的分层方案。实际上在dc ssd市场,64l的时候已经大规模转向tlc了,96l实验性引入部分qlc产品,128/112/144l时代qlc将会是主流。Intel除了optane dc之外,最高端的ssd就是d7系列,是tlc;Samsung除了znand(slc)系列外,最高端的盘pm9a3,也是112l tlc(v6 vnand);micron、sk、东芝等flash厂也是这样的情况。如今nand运行在tlc模式,性能就足够达到客户的需求,要追求绝对并发性能自然有采用分级存储做cache的方案,Samsung的znand、东芝的xl flash、Intel的optane以及dram去做cache,各家厂商都有很多的低密度超高性能sku。
追求存储密度、性能、价格的平衡,是消费者与企业的共同选择。idc尚且更看重稳定性和性能,都大规模使用tlc/qlc产品,消费级那点需求又何必一定要mlc呢?终究还是要回归性能和需求去。至于怎么认知ssd、衡量ssd,我文章已经有些了。

#丁真吹存储 #基础科普