跳到主要内容

以Arm Neoverse进入3D与数字全流

Arm的Shawn Hung(来自Austin)和Cadence的Rod Metcalfe在Arm DevSummit上发表了题为《实现3D Neoverse N1: 3D设计优点满足深度分析》的演讲。他们描述的是在两个芯片上实现的Arm Neoverse N1的实现,然后通过称为混合晶圆键合的工艺面对面连接。这是Arm的第一个面对面的晶圆粘合设计。

人们对各种形式的先进封装的兴趣和使用都有了巨大的增长,这些封装通常冠以“超越摩尔”这个朗朗上口的名字。第一个使用3D技术的芯片实际上是用于相机的图像传感器,它将图像传感器本身翻转过来(这样光线就可以通过薄芯片的背面进入),然后将其连接到图像处理器上,然后图像处理器就可以从传感器上垂直提取数据,而不必将数据传输到图像传感器芯片的边缘。下一个引起关注的3D芯片是赛灵思的大型FPGA,他们将阵列分成四个相同的芯片,并将它们安装在一个中间处理器上。AMD的cpu产品线都是由一系列组装在中间层上的芯片构成的。AMD的驱动因素是,这么大的芯片不会产生,或者可能甚至不适合瞄准镜,加上高端芯片使用HBM2内存,这几乎需要一个中介。要了解使用高级SiP (system-in-package)的设计范围,请参阅我的文章热芯片:芯片化设计

Shawn描述的是更有野心的东西:采用一个整体设计,并将其分成两个大小相同的模具,然后将顶部的模具翻转过来,并将其连接到较低的模具上形成三明治(如上图所示)。他把它描述为一个测试芯片,但实际上它更多的是一个概念验证,并没有计划实际录制和制造测试芯片。

为什么你可能想要制造这样的处理器有几个动机:

  • 节能带宽和低延迟内存访问
  • 较低的成本,因为两个较小的模具产量优于一个大的
  • 更高的计算密度带来更好的可伸缩性

去年,他们做了一个名为Trishul的概念验证设计(他们在Arm TechCon上报道了这个设计,尽管我没有看到),以证明3D堆叠的可行性:

  • 制程GF 12LP FinFET
  • 工作频率2.7GHz (TT, 1V, 85°C)
  • 在CMN-600 (Porter)上演示了2.355 Tbps和3.68 Tbps /mm2的3D带宽。
  • 测量到的三维层之间的门延迟在10-12ps之间。相当于2D中的FO2栅极延迟
  • 跨三维栅极延迟在6-8ps是可行的
  • 3D设计不需要特别考虑3D界面寄生(全局导线等效)
  • 晶圆之间的工艺偏差可管理
  • 3D连接间距为3.76um
  • 在34片晶圆上测试了2000多个芯片:累计13485万个3D连接

对于这个项目,我们的计划是将主存堆叠在3D微处理器的上层,因为主存是一个重要的瓶颈。原则上,对于具有相当大内存需求的处理器,增加片上L2缓存的大小是提高性能的有效方法……除了增加L2缓存的大小会增加访问这个内存的时间。将缓存折叠到管道的逻辑阶段之上可以减少此访问时间。设计在7nm完成。

实际上,出于热原因,将内存(L1和L2缓存)放在底层而将逻辑放在顶层更有意义。这也使他们能够将二级缓存的大小增加一倍。只有在3D中构建一个9周期读取的1MB二级缓存是可能的。在2D中,它需要两个额外的循环。

Rod解释了Cadence 3D-IC解决方案的一些细节。我不会重复这一点,因为我已经广泛地讨论过了,比如在我的帖子中约翰·帕克关于小芯片的网络研讨会几个月前的。

这是这个设计中使用的流程。有一些关于什么放在哪里的考虑。频繁通信的块应该分配到相邻的层,因为这样可以减少块间连接的长度。这既增加了通信带宽,又降低了功耗。但高开关活动的块不应垂直堆叠,以保持温度分布在规定的范围内。垂直连接被处理为虚拟锚定细胞,它们是成对的,每个骰子上一个,在概念上以3D方式排列(见示例图)。

这个设计实际上是用一根不存在的虚拟电线连接虚拟锚细胞完成的。最终,电线被拔掉,两个骰子被翻转。但与此同时,所有的二维设计算法都能正常工作。

由于两个芯片都是面对面粘合的(并且尺寸相同),传统的倒装芯片封装将不起作用,因为堆栈的“顶部”和“底部”实际上是芯片的背面。电源是通过硅通孔(tsv)通过底部模具处理的。然后,它通过底部模具扩散,并通过晶圆键为顶部模具提供动力。

Shawn还深入介绍了使用Innovus Implementation和CCOpt工具在两个die上构建时钟树的很多细节。我将跳过这一点,因为对于这样的帖子来说,这太深入了。但是时钟树比2D实现更好,时钟延迟降低了18%,时钟缓冲区数量减少了一半,时钟树功耗降低了27%。有什么不喜欢的呢?

即使是2D微处理器也需要一定程度的热分析。对于这样的设计来说,由于底部模具夹在封装基板和顶部模具之间,因此热量“逸出”的路径更有限,因此更重要。顶部的模具是在热接触与散热器,所以是一个较小的挑战。使用摄氏温度求解器创建热图。

上面的热图在左边显示了2D的N1(用于开发封装和散热器的模型),在右边显示了两个折叠的N1芯片。Celsius显示,在“最大功率”下运行时的稳态温度比2D N1高6°C。在现实中,它可能更低,因为“maxpower”是不现实的,是一个病毒式传播的力量载体。

采用Voltus进行红外光谱分析。这比以往任何时候都更加关键,因为所有顶部模具的动力都通过底部模具。事实上,Voltus显示,大多数IR下降是通过堆叠在TSV顶部的柱子(见前面的图表)。

最终结论:

  • 采用面对面(F2F)晶圆键合技术,对3D高性能微处理器Neoverse N1 CPU的签收质量物理设计进行了全面研究
  • 内存分区上的逻辑实现了比2D低2个周期的L2访问
  • RTL使用完整的Cadence数字流程来签署3D CPU实现,与2D设计相比,实现了相当的频率(<5%)和实质性的面积/功率优势,成为行业的先驱
  • 时钟树合成显示时钟延迟降低18%,时钟缓冲减少约50%,时钟树功耗降低27%
  • 详细的3D PDN和热分析完成:
    • PDN位于逻辑芯片底部,最坏情况下下降6.2%,进一步优化从TSV堆叠的通孔柱可以减少影响,对PPA的影响最小
    • 热分析显示,最坏情况下的峰值温度上升比2D高6度,实际影响可能更低,可以通过先进的冷却技术减轻
  • Trishul的测量数据展示了应用3D堆叠技术的固体硅证明点