发布日期:2022-10-09 点击率:51
到底为什么我们要讨论软错误呢?诚然,这一问题在几十年前就提出来了,但问题是,相关的措施到位吗?当然,就某种程度而言,是到位的。诸如降低串扰等设计层面的措施,以及不使用硼磷硅玻璃、采用低α封装和无铅化等制造层面的手段,所有这些都显著降低了由软错误导致的出错几率。
问题在于,这些减少软错误的技术都无法彻底根除软错误。另外,要减少由宇宙射线引发的错误,恐怕需要筑上几英尺厚的防护掩体,而这基本上是不现实的。更糟糕的是,软错误对当今复杂系统造成影响的严重程度可能比以前对简单系统的影响高几个数量级。例如,遭遇一个特殊软错误时,当如今的一个复杂系统很可能会要求重新启动,从而严重影响服务质量(QoS)。这就是为什么起源于航空和航天应用中静态随机存取存储器(SRAM)的软错误问题如今对网络设备供应商提出越来越严峻的考验,迫使他们采用更严苛的软错误规范,并施以更严格的约束。
随着工艺技术节点的微缩,SRAM的每百万位失效率(FIT)也在随之下降。但三重内容可寻址存储器(TCAM)的情况又怎样?在90nm节点,TCAM的故障率与SRAM基本相当,但就过去的两个节点而言,TCAM的故障率反有增加的趋向,所以我们必须对在65nm节点TCAM的故障率将超过SRAM的情况做出心理准备。另外,因故障率是以每百万位为计算给出的,所以,随着存储器容量的不断增加,该问题将进一步恶化。这种趋势非常关键,因为TCAM是网络搜索引擎中使用的一种底层技术,负责对网络信息包进行分类,并对数据包进行转发。
对此,软错误评估工具、软错误专业服务和辐射测试服务提供商iRoC Technologies公司总裁Olivier Lauzeral指出:“SRAM和TCAM中发生的绝大多数错误都是由单粒子反转(SEU)或单点错误(SBE)引起的。因此,为确保最高水准的网络QoS,并为了符合服务等级协议,TCAM必须采用最先进的纠错码(ECC)技术。那么,这些技术具体又是怎样的呢?
为将软错误存续时间降至最短,需要在系统中的不同层级配置纠错码(ECC)。例如,在高可靠性系统中,为确保正确的系统功能,要从自应用层起的功能链中各个环节都施加ECC。但是 ,在发现错误(或更准确地说是其造成的后果)的这个点上,将对QoS产生显著影响。对系统盒体级和网络系统级对错误进行持续监视并予以消除当然能够很好地避免许多灾难性的错误。但是,如果“迟”至应用级,则有可能无法对错误进行纠错。所以,在芯片级进行侦错的方法具有最高可靠性。
问题在于:是将ECC集成进TCAM,还是在外部应用ECC?毕竟,外部ECC方法已实施多年,业内经过时间洗礼,是一种被证明行之有效的存储器纠错方法。但是,外部ECC要求系统设计师在开发所需的电路时花费更多设计时间、付出更大努力和开销,且所用的器件成本和PCB面积也更高更大。它还需要系统处理器发布命令和进行控制,但这样也会增加系统延迟,进而可能对系统性能带来负面影响。随着TCAM变得越来越大,这些不利因素(特别是性能方面的影响)将会更严重。
将ECC集成进TCAM将免去所有这些问题。集成的ECC电路是专门为TCAM优化设计的,从而使完成相应功能所需增加的绝对门数和成本都最少。另外,ECC的工作会被器件延迟所“掩盖”,而在整个工作条件下,器件的延迟参数是具体及可预测的。另外,该设计和验证工作是由半导体厂商完成的;所以,系统设计师不必再为此劳心费力。
正因为这些原因,IDT将ECC集成进其搜索加速器。ECC可在内核内纠正单一错误并侦测出双重错误,它还检测接口的总线奇偶性。非常重要的是,它还检测最近一直没访问过的内容以侦测“沉默”的错误。所谓“沉默错误”,就是那些直到数据被访问前一直保留并可能导致灾难性后果(例如,一个转错了的911紧急呼叫)的错误。另外,集成ECC工作在后台模式,从而不会对搜索性能产生影响。
随着工艺技术节点的不断精进,以及TCAM变得越来越大,加之我们想方设法要从中获取更多性能方面的好处,对设备供应商来说,用于软错误纠正的集成ECC是唯一具成本效益的方案。纠正软错误不必等到“事后诸葛亮”。
作者:Dave CechIDT
IP协处理器产品线管理与营销总监
IDT公司
下一篇: PLC、DCS、FCS三大控
上一篇: 嵌入式开发:新机会在