跳到主要内容

将Arm Neoverse带入3D数字全流

Arm的Shawn Hung(来自Austin)和Cadence的Rod Metcalfe在Arm DevSummit上发表了题为《实现3D Neoverse N1: 3D设计优点满足深度分析》的演讲。他们描述的是Arm Neoverse N1的实现,实现在两个模具上,然后通过称为混合晶圆键合的过程面对面连接。这是Arm的第一个面对面晶圆键合设计。

人们对各种形式的高级包装的兴趣和使用有了极大的增加,这些包装通常冠以朗朗上口的名字“More than Moore”。第一个使用3D技术的芯片实际上是用于相机的图像传感器,它将图像传感器本身翻转过来(因此光线从变薄的模具背面进入),然后将其连接到图像处理器上,然后可以垂直地从传感器上提取数据,而不必将数据传输到图像传感器模具的边缘。下一个引起关注的3D芯片是Xilinx的大型FPGA,他们将阵列分成四个相同的芯片,并将它们安装在一个插入器上。AMD的cpu产品线都是由一系列的晶片组装在中间片上而成。AMD的驱动因素是,那么大的芯片不会屈服,或者可能甚至不适合划线,再加上高端芯片使用HBM2内存,这几乎需要一个插入器。要了解使用高级SiP (system-in-package)的设计范围,请参阅我的文章热芯片:chipletification设计

Shawn描述的是更有野心的东西:取一个整体设计,把它分成两个相同大小的模具,然后把上面的模具翻转过来,把它连接到下面的模具上,形成一个三明治(如上图所示)。他将其描述为一个测试芯片,但实际上它更像是一个概念验证,目前还没有计划实际制作测试芯片。

有几个动机可以解释为什么你想要制造这样一个处理器:

  • 节能带宽和低延迟内存访问
  • 成本更低,因为两个较小的模具比一个较大的模具产量更好
  • 更高的计算密度带来更好的可伸缩性

他们在去年做了一个名为Trishul的概念验证设计(他们在Arm TechCon上报告了,尽管我没有看到),以证明3D堆叠的准备工作:

  • GF 12LP FinFET工艺
  • 工作频率2.7GHz (TT, 1V, 85°C)
  • 在CMN-600 (Porter)上演示的3D带宽为2.355 Tbps和3.68 Tbps /mm2。
  • 测量的三维层之间的栅极延迟在10-12ps范围内。相当于2D中的FO2门延迟
  • 跨三维栅极延迟在6-8ps可行
  • 3D设计不需要特别考虑3D接口寄生(全局线等效)
  • 可控制晶圆之间的工艺倾斜
  • 3D连接节距为3.76um
  • 在34片晶圆上测试了2000多个晶圆片:累积了13485万个3D连接

对于这个项目,我们的计划是将主存堆叠在3D微处理器的上层,因为主存是一个重要的瓶颈。原则上,对于内存需求相当大的处理器,增加片上L2缓存的大小是提高性能的有效方法……除了增加L2缓存的大小会增加访问这个内存的时间。将缓存折叠到管道的逻辑阶段之上可以减少此访问时间。该设计采用7nm工艺。

事实上,出于热的原因,将内存(L1和L2缓存)放在底层,将逻辑放在顶层更有意义。这也使他们能够将L2缓存的大小增加一倍。它只能构建一个1MB的L2缓存,并在3D中读取9个周期。在2D中,它需要两个额外的循环。

Rod解释了Cadence 3D-IC解决方案的一些细节。我不会重复这一点,因为我已经广泛地讨论过了,比如在我的帖子中John Park关于Chiplets的网络研讨会从几个月前开始。

这是用于此设计的流程。这里有一些关于什么应该放在哪里的考虑。频繁通信的块应该分配到相邻的层,因为这样可以减少块间连接的长度。这既增加了通信带宽,又降低了功率。但高开关活动的块不应垂直放置在彼此的顶部,以保持温度分布在规定的范围内。垂直连接被处理为成对的虚拟锚单元格,每个骰子上有一个,在概念上以3D对齐(参见示例图)。

这个设计实际上是用一根不存在的虚拟电线连接虚拟锚细胞完成的。最终,这条线被移除,两个骰子被翻转。但与此同时,所有的二维设计算法都能正常工作。

由于两个芯片是面对面连接的(并且尺寸相同),传统的倒装芯片封装将无法工作,因为堆栈的“顶部”和“底部”实际上都是芯片的背面。电力处理通过硅通孔(tsv)通过底部的模具。然后,它通过底部的模具扩散,并通过晶圆债券的权力顶部模具。

Shawn还详细介绍了如何使用Innovus Implementation和CCOpt工具在两个芯片上构建时钟树。对于这篇文章来说,我将跳过这一点,因为它太深入了。但是时钟树比2D实现更好,时钟延迟降低了18%,时钟缓冲区数量减少了一半,时钟树功率降低了27%。有什么不喜欢的呢?

即使是2D微处理器也需要某种程度的热分析。对于这样的设计来说,底部模具是夹在封装基板和顶部模具之间的,因此热量“逸出”的路径更有限。顶部模具与散热器的热接触,因此较少的挑战。使用摄氏温度求解器来创建热图。

上面的热图在左边显示了二维N1(用于开发封装和散热器的模型),在右边显示了两个折叠的N1模具。摄氏度显示,在“最大功率”下运行时的稳态温度比2D N1高6°C。实际上,它可能更低,因为“最大威力”超出了现实,是一个病毒力量向量。

Voltus被用来做红外分析。这是更关键的比以往任何时候,因为所有的权力为顶部模具通过底部模具。事实上,Voltus展示了大部分的红外衰减是通过堆叠在TSV顶部的柱子(见前面的图表)。

最终结论:

  • 采用面对面(F2F)晶圆键合技术,对3D高性能微处理器Neoverse N1 CPU的签收质量物理设计进行了全面研究
  • 逻辑内存分区,实现比2D低2周期的L2访问
  • RTL使用完整的Cadence数字流程进行3D CPU实现,与行业先驱2D设计相比,实现了相当的频率(<5%)和显著的面积/功率效益
  • 时钟树合成表明时钟延迟降低18%,时钟缓冲区减少50%,时钟树功率降低27%
  • 详细的3D PDN和热分析完成:
    • PDN显示,位于底部逻辑芯片的最坏情况下下降了6.2%,进一步优化TSV堆叠的过孔柱可以减少对PPA的影响,而对PPA的影响最小
    • 热分析显示,最坏情况下的峰值温度上升比2D高6度,现实世界的影响可能更低,可以通过先进的冷却技术缓解
  • Trishul的实测数据证明了三维堆垛技术对固体硅的有效性