技术与运用

SRAM存储面对的问题和未来发展目标

来源:深圳市连接器行业协会 李亦平编译 作者:陈宇轩
中号

  SRAM无法扩大规模,对于能力和性能目标提出挑战,迫使设计生态系统提出从硬件创新到重新思考设计布局的策略。与此同时,尽管SRAM设计历史很悠久,规模有限,它已经成为人工智能的主力内存

  SRAM和它稍小一点DRAM总是需要进行权衡。SRAM最常配置6个晶体管,这使它具有比DRAM更快的访问时间,但代价是功耗更大。相比之下,DRAM使用了一个晶体管(电容器)的设计,这使得它更便宜。但是DRAM会影响性能,因为电容器由于电荷泄漏而需要刷新,有时在内存加热时也会自动更新。因此,自引入60多年以来,SRAM一直是低延迟和可靠性应用优先考虑的首选内存。

  SRAM尺寸大小的收缩比过程慢

图1: SRAM尺寸大小的收缩比过程慢

  事实上,对于AI/ML应用,SRAM不仅仅是拥有自己的功能。“SRAM对于人工智能至关重要,尤其是嵌入式SRAM。它是性能最高的内存,可以将其与高密度逻辑直接集成。仅因为这些原因,这一点很重要。” Alphawave Semi CTO Tony Chan Carusone说。

功率和性能挑战

  Siemens EDA的内存技术专家Jongsin Yun说:“但在跟上CMOS扩展的步伐方面,由于功率和性能的影响,SRAM发展已经停滞了。在传统的平面器件尺寸上,栅极长度和栅极氧化物厚度一起缩小,提高性能和对短通道效应的控制。更薄的氧化物可以在较低的VDD水平下提高性能,这有利于SRAM减少泄漏和动态功率。然而,在最近的技术节点迁移中,我们几乎没有看到氧化物或VDD水平的进一步扩展。此外,晶体管的几何收缩导致金属互连变薄,寄生电阻增加,从而导致更多的功率损失和RC延迟。随着人工智能设计越来越要求更多的内部内存访问,SRAM在技术节点迁移中进一步扩大其能力,性能优势已成为一个重大挑战。”

  这些问题,再加上SRAM的高成本,不可避免地会导致性能上的妥协。因此不完全依赖于SRAM,而是有一个完整的内存/存储选项的层次结构,从芯片外的DRAM开始,它有不同的速度和架构配置。

  Rambus公司的杰出发明家Steve Woo说:“如果不能得到足够的SRAM来满足处理器核心的数据存储需求,那么核心数据将不得不从更远的地方进行传输。在SRAM和DRAM之间移动数据需要额外的电力,所以系统会消耗更多的电力。而且从DRAM访问这些数据需要更长的时间,所以性能将会下降。”

  在每个新节点上,情况可能不会改善,甚至可能变得更糟。

  Imec的DTCO项目主管Geert Hellings说:“展望未来的纳米芯片,SRAM的尺寸预计会很小。人们可能会说,如果所有其它工艺保持不变,用纳米片(15纳米宽)替换翅片(5纳米宽)将使SRAM位单元的高度增加40纳米。显然,这不是一个很好的价值主张。因此,在工艺布局边际上的侧翼改进有望抵消这一影响。然而,将SRAM从finFETs扩展到纳米片是一场艰苦的战斗。”

  Flex Logix首席执行官Geoffrey Tate说:“Flex Logix已经在几个最低的节点上工作,包括TSMC的N7和N5,最近也收到了英特尔1.8A节点的PDK,它非常熟悉这些挑战。我们在高级节点上工作的客户都在抱怨,其逻辑比SRAM扩展得更好、更快。这对处理器来说是个问题,因为拥有比整个处理器更大的缓存内存是不寻常的。但如果你把它远离芯片,表现会快速下降。”

  TSMC(台积电)正在雇佣更多的内存设计师来提高SRAM的密度,但他们能否从SRAM中获得更多的收益还有待观察。Tate说:“有时候,你可以通过联合更多的人来让事情变得更好,但只是在一定程度上。随着时间的推移,客户将需要考虑那些不像现在那样密集地使用SRAM的架构。”

  事实上,早在20纳米时,SRAM就无法按逻辑进行扩展,这预示着当芯片上的内存比芯片本身更大时,功率和性能都会面临挑战。为了应对这些问题,系统设计人员和硬件开发人员都在应用新的解决方案和开发新的技术。

  在这些方面,AMD采取了一种不同的方法。Rambus Woo说:“他们引入了一种名为3D V-Cache的技术,允许将单独芯片上额外的SRAM缓存堆叠在处理器上,增加处理器核心可用的缓存数量。额外的芯片增加了成本,但允许使用额外的SRAM。另一种策略是拥有多个级别缓存。处理器核心可以具有唯一可以访问的私人1级(非共享)和2级缓存,以及在处理器核心之间共享的更大的末级缓存(LLC)。由于处理器有这么多的核心,共享LLC允许一些核心有时使用更多的容量,而另一些则使用更少,以便在所有处理器核心上更有效地使用总容量。”

数据纠正

  可缩放性也增加了可靠性问题。 Flex Logix CTO Cheng Wang说:“SRAM传统上使用的是比逻辑单元更快速发展,尺寸更小,但它不像传统的逻辑门,总是在加入一些新东西。你必须克服当前的用途。但当你不用它时,还是强烈希望保持它的用途。SRAM只有6个晶体管,所以你不能添加太多的门。你也不能让SRAM太小,因为这可能会导致诸如阿尔法粒子等问题的单事件混乱(seu),在阿尔法粒子中,离子的能量超过了SRAM单元的能量,当SRAM收缩时,这种情况发生得更多。”

  因此,纠错很可能会成为一个普遍的要求,特别是对于汽车设备。

  Tate认为,seu在较低节点已经成为一个如此严重的问题,以前只用于军事/航空航天应用的辐射硬化技术正在用于N5及以下的SRAM。然而,由于激光硬化可以增加25%到50%的成本,它只可能用于起搏器等设备,没有人负担等待重启的费用。

  Tate说:“也许在10年后,一切都必须经过严格的设计。内存元素不能一直越来越小,我们并没有摆脱阿尔法粒子的影响。”

基本方法:权衡

  这在设计方面引起了很多变化。“每个人都试图在芯片上使用更少的SRAM,因为它们不会越来越小,”Cheng Wang说。“但是你使用SRAM来获取带宽,所以只要带宽存在。随着你的芯片变大,大容量带宽内存将被脱离芯片到DDR,但你仍然会有更小的高带宽内存块。”

  设计师采用的另一种方法是,如果可能,只使用单核内存。他说:“在较老的进程节点中,当我们编写寄存器文件时,更有可能使用双核内存。但所有这些也都增加了面积。因此,在较低节点中,设计人员试图让所有内容都在内存中使用单个端口,因为这是最小、功率最密集的做法。并不需要远离SRAM,但会试图尽可能地使用单核内存。使用更小的内存,并选择SRAM作为可用的带宽,而不是真正的大存储。大存储要么转移到DRAM,要么转移到HBM。”

替代方法:新的架构

  Yun表示,为了不断提高SRAM的功率性能,我们已经评估和应用了许多超越位单元设计的更新,包括SRAM外围设计中的额外支持电路。

  SRAM和外围不再共享功耗。相反,采用双动力轨道可以单独利用最有效的电压水平。在某些设计中,SRAM可以进入睡眠模式,保留数据所需的最小电压,直到下次CPU访问。这意味着显著降低功耗,因为漏电流与VDD呈指数相关。一些SRAM设计采用了额外的电路来解决工作弱点,旨在提高最低工作电压。

  例如,高密度(HD)SRAM单元可以通过对所有6个晶体管使用单鳍晶体管来实现最小的几何形状。然而,由于在写入操作过程中相同尺寸的上拉(PU)和通门(PG)晶体管之间存在竞争问题,HD电池在低压操作中面临着挑战。

  Yun说:“在SRAM辅助电路中,如负位线,瞬态电压崩溃技术被广泛采用,从而缓解这些问题,提高低电压操作。为了减轻寄生电阻的影响,最新的位单元设计使用双轨或三轨金属线作为合并位线(BL)或字线(WL)。基于操作的金属轨道之间选择性连接的飞行BL方法,降低了阵列顶部和底部之间的有效电阻和平衡放电率。在正在进行的开发中,人们正在探索一种埋地的供电轨道,进一步降低线路电阻。这包括将所有的电源轨道放置在晶体管下方,减轻晶体管上方的信号路径拥塞。”

其它存储,其它结构

  新的嵌入式内存类型通常作为SRAM替代方案,但每种类型都有自己的一些问题。Yun说:“MRAM和ReRAM,只需要一个晶体管区域,虽然它比SRAM的晶体管大,但它们的整体电池尺寸仍然是SRAM的三分之一。对于一个大尺寸目标,包括外围电路,可能大约是SRAM的一半大小。它有一个明显的尺寸优势,但读写速度仍然远慢于SRAM。在实验室中有一些读写速度和耐久性的研究成果。高速MRAM开发计划已经在汽车上扩展到eflash替代MRAM。L3缓存替换的尺寸优势当然值得考虑,但在eflash的MRAM生产中必须有一个提升。”

  如果物理学上不允许更小的SRAM,替代方案将需要重新思考架构和chiplets。imec的 Hellings说:如果SRAM在N3或N2中没有扩展,那么人们就可以将一个更先进的逻辑芯片与一个用旧技术制造的SRAM芯片结合起来。这种方法将受益于改进的PPA逻辑,同时为SRAM使用一个成本效益高的技术节点。原则上,AMD的基于v-cache的系统可以看到一个扩展,其中只有逻辑芯片被移动到下一个节点。然后,两者都需要使用3D集成或 chiplet方法(2.5D)进行组合。

  Ambiq的首席技术官Scott Hanson指出,chiplet 解决方案非常适合正在进行的集成革命。模拟电路很久以前就停止扩大规模了,除了少数例外,从规模中获益不多。从DRAM到SRAM或NVM的所有类型的内存,由于功率、性能和成本原因,更喜欢在不同的节点上制造。逻辑芯片更喜欢在仍然满足成本和泄漏要求的最小节点上制造。通过多模集成,我们在“理想”技术节点上制造每个电路,然后将模具组合成一个封装。很多人在移动和数据中心领域都听说过这一点,但在终端人工智能和物联网领域也在迅速发生。

  在有限的情况下,系统技术协同优化(STCO)也可以有所帮助。Hellings说:“对于某些应用,原则上不需要芯片上缓存。例如,在人工智能训练中,训练数据只使用一次,而模型参数应该很容易在芯片上获取。软件和芯片架构挂钩,促进这种一次性数据移动,绕过缓存层次结构,有很大的潜力。”

  所有这些都引发了人们对新的布局和互连协议的兴趣,比如UCIe和CXL。Synopsys战略营销经理Ron Lowman说:“当你有更大的人工智能工作量时,内存会随着计算而扩展,但如果其中一个组件的扩展速度比另一个组件快一点,那么根据系统的设计方式,你会出现不同的瓶颈。人工智能的工作负载大大增加了所需的处理器阵列的数量。他们甚至突破了芯片的十字线尺寸的限制,所以现在你需要像UCIe这样的高速互联系统,这意味着多芯片系统不可避免地要处理人工智能的工作负载。”

用一个新的堆栈来解决这个问题

  Winbond 公司的DRAM 市场部经理Omar Ma说:“ Winbond用其CUBE堆栈(定制的超带宽元素)重新考虑了内存架构。使用DRAM作为存储单元,通过通道进行3D堆叠。基本上,你可以从底部的衬底一直连接到SoC 芯片。它更经济有效,因为DRAM不使用SRAM的六个晶体管。”

  CUBE可以提供足够的高密度来通过高3级缓存替换SRAM。“为了达到一定的带宽需求,只有两种选择:增加时钟速度或增加I/O的数量,”Ma解释说。“有了CUBE,你可以随意增加它们,同时减少时间。这给系统层面带来了很多好处,包括减少了对电力的需求。CUBE目前正处于原型机阶段,但预计将在2024年第四季度或2025年初投入生产。”

结论

  在短期内,实用主义很可能会赢得激烈的设计变革。FlexLogix的Tate说:“这不会很有戏剧性。当设计师们谈论他们应该有多大的缓存时,它将像往常一样,在性能和价格之间需要取得平衡。如果SRAM的价格上涨,就会想办法来降低成本。也许会通过拥有更多的DRAM带宽来弥补。现在,这将是这种渐进式的权衡。你不会很快看到截然不同的架构。但如果这种趋势继续下去,这将导致人们考虑完全不同的方法。”

  至于SRAM将被完全取代,这似乎不太可能,至少在短期内是这样。“几年前,英特尔演示了使用铁电存储器进行缓存,”Objective Analysis总监Jim Handy说。“他们说这是一个DRAM,但说实话,这是一个FRAM。他们的优势是能够使用3D NAND技术。换句话说,它们显示了一个有大量记忆的小空间。很有可能,这些类型的研究工作,要么像英特尔所展示的,还是像MRAM这样的其他方法,最终会取代SRAM的位置,但这可能不会很快发生。”

  当它真的发生时,Handy希望它会导致架构和操作系统软件的变化。他说:“你不太可能看到同时使用SRAM缓存和铁电缓存的相同处理器,因为该软件必须经历一些变化才能充分利用这一点。此外,高速缓存的结构也将会有所不同。主缓存很可能会缩小一点,次缓存也会变得非常大。在某个时刻,最后一个拥有SRAM高速缓存的处理器将会出现。下一个处理器将有一个铁电或MRAM缓存,或类似的东西,以及对软件进行实质性的更改,使配置更好地工作。”

  • 0
  • 0
评论展开

使用微信访问可以评论

加载更多

SRAM存储面对的问题和未来发展目标