nandflash你不知道的那些事(一):存在的损耗
谈谈闪存的一些特点,或者说它作为存储介质面临的挑战。
闪存块(Block)具有一定的寿命,不是长生不老的。前面提到,当一个闪存块接近或者超出其最大擦写次数时,可能导致存储单元的永久性损伤,不能再使用。随着闪存工艺不断向前,这个擦写次数也变得越来越小。
图1-1 闪存损坏状态
在闪存当中的存储单元中,先天就有一些是坏掉的,或者说不稳定的。并且随着闪存的不断使用,坏的存储单元越来越多。所以,用户写入到闪存的数据,必须有ECC纠错码保护,这样即使其中的一些比特发生反转,读取的时候也能通过ECC纠正过来。一旦出错的比特超过纠错能力范围,数据就丢失,对这样的闪存块,我们应该废弃不再使用。
第一个问题是闪存先天有坏块,也就是说有出厂坏块。并且,用户在使用的时候,也会新添坏块,所以用户在使用闪存的时候,必须有坏块管理机制。
第二个问题是读干扰(Read Disturb)。什么意思?从闪存读取原理来看,当你读取一个闪存页(Page)的时候,闪存块当中未被选取的闪存页控制极都会加一个正电压,以保证未被选中的MOS管是导通的。这样问题就来了,频繁的在一个MOS管控制极加正电压,就可能导致电子被吸进浮栅极,形成轻微的写,从而最终导致比特翻转。但是,这个不是永久性损伤,重新擦除闪存块还能正常使用。注意的是,读干扰影响的是同一个闪存块中的其它闪存页,而非读取的闪存页本身。
图1-2 读干扰原理
第三个问题是写干扰(Program Disturb)。除了读干扰会导致比特翻转,写干扰也会导致比特翻转。还是要回到闪存内部的写原理上来。
图1-3 写干扰原理
我们写一个闪存页的时候,数据是0和1混合的。由于对擦除过的闪存块,其所有的存储单元初始值就是1,所以写的时候,只有写0的时候才真正需要写。如图3-48所示,方框里的单元是写0,需要写的,圆圈里的单元的代表写1,并不需要写操作。我们这里把方框里的单元称之为Programmed Cells,圆圈里的单元叫Stressed Cells。写某个闪存页的时候,我们是在其 WordLine的控制极加一个正电压(图3-48是20V)。对于Programmed Cells所在的String,它是接地的;不需要写的单元所在的String,它是接一正电压(图3-48为10V)。这样最终产生的后果是,Stressed Cell也会被轻微写。与读干扰不同的是,写干扰影响的不仅是同一个闪存块当中的其它闪存页,自身闪存页也受影响。相同的是,都是不期望的轻微写导致比特翻转,都非永久性损伤,经擦除后,闪存块还能再次使用。
第四个问题是存储单元之间的耦合影响(Cell-to-Cell interference)。前面提到,浮栅极闪存存储电荷的是导体,因此存储单元之间存在耦合电容,导致存储单元内的电荷发生意外变化,最终导致数据读取错误;
第五个问题是电荷泄漏。存储在闪存存储单元的电荷,如果长期不使用,会发生电荷泄漏。同样是非永久性损伤,擦除后闪存块还能使用。
第六个问题是EC(erase count),后面会提到,擦写次数多了会使浮栅极下面的绝缘层(Tunnel氧化物)变薄,最终永久性损伤
上面说的这些,是所有闪存面临的问题,包括SLC,MLC和TLC,这些问题的处理方法,在后面的FTL章节会进行介绍。不同商家的闪存,不同制成的闪存,以及2D/3D闪存,还有其特有的问题,用户在使用时需要用固件克服或者缓解这些问题。
寿命
我们大家生活在人间,祖祖辈辈和周围观察到的生灵告诉我们一个道理:所有的人和生物都不能像神仙一样长生不老。其实不只是生物,所有的存储器件都是有寿命的。
图1-4 SLC电压分布(来源:Inside NAND Flash Memory)
我们再来看图3-49这张0和1的分布图,横轴是电压,纵轴是存储单元的数量。0的区域表示被写过的那些单元电压分布区间,1的区域是被擦过的那些单元电压分布区间。所以说,如果要正确地读到数据,0和1这两个区间要尽量分割清楚,保证它们的主峰有足够远的距离。
除了0和1靠近之外,阈值电压也不能太偏。回忆一下读数据的原理。
图1-5 读操作电压示例
要读的单元栅极加 0V电压,这时擦过的晶体管阈值电压是-Vt,导通,沟道有电流,Bitline端的传感器能够检测到,读到“1”。而经过写的晶体管阈值电压是 Vt,不导通,沟道电流很小,读为“0”。随着擦写次数的增加,会发生三种故障:
l 擦过的晶体管阈值电压变大,从-Vt向0V靠近,这样读的时候沟道电流变小,传感器检测不到,读出错。
l 写过的晶体管阈值电压变小,从 Vt向0V靠近,有可能会被误检测为擦过的状态。
l 写过的晶体管阈值电压变大(如图3-50,>5V,即使控制极加5V电压,它也是截止的),有可能在其他的单元读的时候,把整个Bitline都给关了,一个死苍蝇害了一锅粥。
浮栅晶体管对浮栅极下面的绝缘层(Tunnel氧化物)很敏感,该氧化物厚度变薄(制程不断减小导致的)或者老化(Degradation,擦写次数多了)对浮栅极里面的电荷影响大。我们之前介绍了Charge Trap晶体管,其实随着擦写次数增多,浮栅晶体管的氧化层渐渐老化,产生不少Charge Trap,这些陷阱会吃掉电子。导致写之后,进入浮栅的电子数量会减少,最终的结局就是0和1两个区间不断靠近。
如图,上面是写后的阈值电压,下面是擦除后的阈值电压,很明显,擦除后的阈值电压在擦很多次之后显著变高。所以,一般擦除之后会做校验,方法是把所有的Wordline设为0V,再去检测每个Bitline的电流。如果某个Bitline电流是0,就意味着有个单元的擦除阈值电压接近0V,导致晶体管关断。所以这个闪存块应该标为坏块。
图1-6 阈值电压变化图(来源:Inside NAND Flash Memory)
了解了闪存存在的问题之后,我们再来看看固态硬盘设计实践中怎么解决这个问题。