到 2024 年,如果需要将数十、数百、数千甚至数万个加速器拼接在一起,则不会缺少互连。
Nvidia 有 NVLink 和 InfiniBand。Google 的 TPU PoD使用光路开关 (OCS) 相互通信。AMD 拥有用于ie-to-die, chip-to-chip以及很快node-to-node流量的 Infinity Fabric。当然,还有良好的老式以太网,英特尔在 Gaudi2 和 Gaudi3 中使用的就是这种以太网。
这里的技巧不是构建一个足够大的网格,而是避免与脱包(going off package)相关的巨大性能损失和带宽瓶颈。它也没有采取任何措施来解决所有 AI 处理所依赖的 HBM 内存与计算以固定比率联系在一起的事实。
“这个行业正在使用 Nvidia GPU 作为世界上最昂贵的内存控制器,”戴夫·拉佐夫斯基 (Dave Lazovsky) 说道,他的公司 Celestial AI 刚刚在 USIT 和众多其他风险投资巨头支持的 C 轮融资中获得了 1.75 亿美元的商业化资金它的Photonic Fabric。
去年夏天,我们研究了 Celestial 的 Photonic Fabric,它包含一系列硅光子互连、中介层和小芯片,旨在将人工智能计算从内存中分离出来。不到一年后, light wranglers 表示,他们正在与几家超大规模客户和一家大型处理器制造商合作,将其技术集成到他们的产品中。令我们失望的是,但当然并不令人惊讶的是,不过Lazovsky并没有点名。
但事实上,Celestial 将 AMD Ventures 视为其支持者之一,其高级副总裁兼产品技术架构师 Sam Naffziger 在公告发布当天就讨论了共同封装硅光子小芯片的可能性,这无疑引起了一些人的关注。话虽如此,AMD 资助这家光子学初创公司并不意味着我们会在 Epyc CPU 或 Instinct GPU 加速器中看到 Celestial 的小芯片。
虽然 Lazovsky 无法透露 Celestial 与谁合作,但他确实提供了一些有关该技术如何集成的线索,以及对即将推出的 HBM 内存设备的预览。
正如我们在最初探讨 Celestial 的产品战略时所讨论的那样,该公司的部件分为三大类:小芯片、中介层以及基于英特尔 EMIB 或台积电 CoWoS (称为 OMIB)。
毫不奇怪,Celestial 的大部分吸引力都集中在小芯片上。“我们所做的并不是试图强迫我们的客户采用任何一种特定的产品实施。目前提供光子结构接口的风险最低、速度最快、最简单的方法是通过小芯片,”Lazovsky 告诉The Next Platform。
一般来说,这些小芯片可以通过两种方式使用:要么添加额外的 HBM 内存容量,要么作为芯片间互连、排序或类似光学 NVLink 或 Infinity Fabric。
这些小芯片比 HBM 堆栈稍小,并提供适合 14.4 Tb/秒或 1.8 GB/秒片外总带宽的光电互连。
话虽如此,我们被告知可以制作小芯片来支持更高的带宽。第一代技术每平方毫米可支持约 1.8 Tb/秒。与此同时,Celestial 的第二代 Photonic 结构将从 56 Gb/秒提高到 112 Gb/秒 PAM4 SerDes,并将通道数量从 4 个增加到 8 个,从而有效地将带宽增加到四倍。
因此,14.4 Tb/秒并不是上限,而是现有芯片架构能够处理的结果。这是有道理的,因为否则任何额外的容量都会被浪费。
这种连接意味着 Celestial 可以实现类似于 NVLink 的互连速度,只是需要更少的步骤。
虽然芯片到芯片的连接相对来说是不言自明的——在每个封装上放置一个光子结构小芯片并对齐光纤连接——但内存扩展完全是另一种动物。虽然 14.4 Tb/秒 远非慢,但它仍然是多个 HBM3 或 HBM3e 堆栈的瓶颈。这意味着添加更多 HBM 只会使您的容量超过某个点。不过,用两个 HBM3e 堆栈代替一个堆栈并不是什么都不是。
Celestial 通过其内存扩展模块对此有一个有趣的解决方法。由于无论如何带宽上限为 1.8 GB/秒,因此该模块将仅包含两个总计 72 GB 的 HBM 堆栈。一组四个 DDR5 DIMM 对此进行了补充,支持高达 2 TB 的额外容量。
Lazovsky 犹豫是否要透露该产品的所有细节,但确实告诉我们它将使用 Celestial 的硅光子中介层技术作为 HBM、互连和控制器逻辑之间的接口。
说到该模块的控制器,我们得知 5 纳米switch ASIC 有效地将 HBM 转变为 DDR5 的直写式缓存。“它为您提供了 DDR 的容量和成本以及 HBM 的带宽和 32 个伪互连通道的所有优势,这隐藏了延迟,”Lazovsky 解释道。
他补充说,这与英特尔 Xeon Max 的表现或 Nvidia 的 GH200 超级芯片的表现相差不远。“它基本上是一个增压的 Grace-Hopper,没有所有成本开销,而且效率要高得多。”
效率提高了多少?Lazovsky 声称:“我们的内存事务能量(memory transaction energy )开销约为每比特 6.2 皮焦耳,而通过 NVLink、NVSwitch 进行远程内存事务的能量开销约为 62.5 皮焦耳”,并补充说延迟也不算太糟糕。
“这些远程内存事务的总往返延迟(包括通过光子结构的行程和内存读取时间)为 120 纳秒,”他补充道。“所以它会比本地内存的大约 80 纳秒多一点,但它比前往 Grace 读取参数并将其拉至 Hopper 要快。”
据我们了解,这些内存模块中的十六个可以组合在一起形成一个内存交换机,并且可以使用光纤洗牌来连接多个这些设备。
这里的含义是,除了计算、存储和管理网络之外,使用 Celestial 互连构建的芯片不仅能够相互连接,而且能够建立公共内存池。
“这让你能够以非常非常高效的方式进行机器学习操作,例如广播和归约( broadcast and reduce),而无需进行切换,”Lazovsky 说。
Celestial面临的挑战是时机。Lazovsky 告诉我们,他预计将在 2025 年下半年的某个时候开始向客户提供Photonic Fabric小芯片样品。然后,他预计至少还需要一年时间,我们才能看到使用该设计的产品进入市场,并在 2027 年销量大幅增加。
然而,Celestial 并不是唯一一家追求硅光子学的初创公司。Ayar Labs 是另一家得到英特尔投资支持的光子学初创公司,它已经将其光子互连集成到原型加速器中。
然后是 Lightmatter,该公司在 12 月份获得了 1.55 亿美元的 C 轮融资,并试图通过其Passage中介层做一些与 Celestial 非常相似的事情。当时,Lightmatter 首席执行官尼克·哈里斯 (Nick Harris) 声称,它的客户使用 Passage“扩展到 300,000 个节点超级计算机”。当然,和拉佐夫斯基一样,哈里斯也不会告诉我们它的客户是谁。
还有 Eliyan,它正试图完全摆脱中介层及其 NuLink PHY,或者增强中介层的性能和规模(如果您必须拥有它们)。
无论谁在这场竞赛中脱颖而出,向共同封装光学器件和硅光子中介层的转变真正开始似乎只是时间问题。