冲破冯·诺伊曼瓶颈,存内计算终爆发?

标签:存内计算
分享到:

过去多年里,逻辑和内存分别独立的冯·诺依曼 (JOHN VON NEUMANN) 的原始计算机架构运行良好。但一些公司认为现在是改变的时候了。

  近年来,向更多并行处理的转变以及神经网络规模的大幅增加意味着处理器需要更快地从内存中访问更多数据。然而,“DRAM 和处理器之间的性能差距比以往任何时候都大,”韩国先进科学技术研究所 3D 存储芯片专家、IEEE Fellow Joungho Kim说。冯诺依曼架构成为冯诺依曼瓶颈。

image.png

 

  相反,如果至少有一些处理发生在内存中呢?则意味着需要在芯片之间移动的数据更少,而且您也可以节省能源。这不是一个新想法。但它的时刻可能终于到来了。

  去年,全球最大的动态随机存取存储器 (DRAM) 制造商三星开始推出内存处理 (PIM) 技术。其首个 PIM 产品于 2021 年 2 月推出,在其Aquabolt-XL高带宽内存中集成了专注于 AI 的计算内核。HBM 是一种围绕一些顶级 AI 加速器芯片的专用 DRAM。时任三星内存业务部高级副总裁的 IEEE 院士Nam Sung Kim表示,新内存旨在作为普通 HBM 芯片的“直接替代品”。

  去年 8 月,三星公布了在合作伙伴系统中的测试结果。当与 Xilinx Virtex Ultrascale + (Alveo) AI 加速器一起使用时,PIM 技术为语音识别神经网络提供了近 2.5 倍的性能提升和 62% 的能耗降低。三星一直在提供集成到当前一代高带宽 DRAM HBM2 中的技术样本。它还为下一代 HBM3 和移动设备中使用的低功耗 DRAM 开发 PIM。它预计将在 2022 年上半年与JEDEC一起完成后者的标准。

  有很多方法可以将计算智能添加到存储芯片中。三星选择了一种快速而简单的设计。HBM 由一堆 DRAM 芯片组成,这些芯片通过称为硅通孔 (TSV) 的互连垂直连接。存储器芯片堆栈位于作为处理器接口的逻辑芯片之上。

  一些内存中处理项目

  美光科技

  这家第三大 DRAM 制造商表示,它没有内存处理产品。然而,在2019 年,它收购了人工智能技术初创公司 Fwdnxt,目标是开发“让内存和计算更紧密结合的创新”。

  NeuroBlade

  这家以色列初创公司开发了具有集成处理核心的内存,旨在加速数据分析中的查询。

  Rambus

  DRAM 接口技术公司的工程师对内存处理 DRAM 进行了探索性设计,重点是降低高带宽内存 (HBM) 的功耗。

  三星

  全球最大的 DRAM 制造商正在提供具有集成 AI 计算核心的 Aquabolt-XL。它还开发了用于内存模块的 AI 加速器,并致力于标准化 AI 加速的 DRAM。

  SK海力士

  第二大 DRAM 制造商和普渡大学的工程师在2020 年公布了 Newton(一种AI 加速 HBM DRAM)的结果,但该公司决定不将其商业化,而是为标准 DRAM 寻求 PIM。

  堆栈中最高的数据带宽位于每个芯片内,其次是 TSV,最后是与处理器的连接。因此三星选择将处理放在 DRAM 芯片上,以利用那里的高带宽。计算单元旨在执行最常见的神经网络计算,称为乘法和累加,除此之外别无他物。其他设计已将 AI 逻辑放在接口芯片上或使用更复杂的处理核心。

  三星最大的两个竞争对手, SK海力士与美光科技,还没有准备好要为HBM上PIM,虽然他们已经实现每对其他类型的存内处理。

  位于韩国利川的第二大 DRAM 供应商 SK 海力士正在从多个角度探索 PIM ,该公司副总裁兼内存解决方案产品开发主管Il Park表示,目前他们正在标准 DRAM 芯片中寻求 PIM,而不是 HBM,后者可能更容易被客户采用。

  对于 SK 海力士来说,HBM PIM 更像是一种中长期的可能性。目前,客户已经在处理足够多的问题,因为他们试图将 HBMDRAM 从物理上移到更靠近处理器的位置。“该领域的许多专家不想在涉及 HBM 的已经很繁忙的情况之上增加更多且相当重要的复杂性,”Park 说。

  也就是说,SK 海力士的研究人员在 2019 年与普渡大学的计算机科学家合作,对一种名为 Newton的HBM-PIM 产品进行了全面设计。与三星的 Aquabolt-XL 一样,它在存储库中放置了乘法和累加单元,以利用芯片本身的高带宽。

  此同时,Rambus 研究员和杰出发明家Steven Woo表示,由于功耗问题,位于加利福尼亚州圣何塞的 Rambus 有动力探索 PIM 。该公司设计了处理器和内存之间的接口,片上系统及其 HBM 内存消耗的三分之二的功率用于在两个芯片之间水平传输数据。在 HBM 内垂直传输数据使用的能量要少得多,因为距离要短得多。“你可能需要水平移动 10 到 15 毫米才能将数据传回 SoC,”Woo 说。“但从垂直方向看,你说的是几百微米的数量级。”

  Rambus 的实验性 PIM 设计在 HBM 堆栈的顶部添加了一个额外的硅层来进行 AI 计算。为了避免 HBM 中央硅通孔的潜在带宽瓶颈,该设计添加了 TSV 以将存储库与 AI 层连接起来。Woo 认为,在每个内存芯片中都有一个专用的 AI 层可以让内存制造商为不同的应用定制内存。

  采用 PIM 的速度将取决于 AI 加速器的制造商对其提供的内存带宽缓解的绝望程度。Technalysis Research 的首席分析师 Bob O'Donnell表示:“三星已经投入了大量资金。”“[PIM] 能否取得商业成功还有待观察。

 
继续阅读
冲破冯·诺伊曼瓶颈,存内计算终爆发?

过去多年里,逻辑和内存分别独立的冯·诺依曼 (JOHN VON NEUMANN) 的原始计算机架构运行良好。但一些公司认为现在是改变的时候了。