Jim Keller建议英伟达：使用以太网，而不是InfiniBand

时间：2024-04-15

　　作为开放标准的坚定支持者，Jim Keller 在推特上表示，Nvidia 应该在基于 Blackwell 的GB200 GPU 中使用以太网协议芯片到芯片连接，用于 AI 和 HPC。凯勒认为，这可以为英伟达及其硬件用户节省大量资金。这也将使这些客户更容易地将他们的软件迁移到不同的硬件平台，而英伟达不一定希望这样做。
　　当 Nvidia 推出用于 AI 和 HPC 应用的 GB200 GPU 时，该公司主要关注其 AI 性能和先进的内存子系统，很少介绍该设备的制造方式。与此同时，Nvidia的GB200 GPU由两个计算处理器组成，使用台积电的CoWoS-L封装技术和使用专有协议的NVLink互连技术缝合在一起。对于那些已经使用 Nvidia 硬件和软件的人来说，这不是问题，但这对业界从 Nvidia 平台移植软件提出了挑战。
　　传奇 CPU 设计师兼 Nvidia 竞争对手Tenstorrent首席执行官 Jim Keller建议 Nvidia 应该使用以太网而不是专有的NVLink ，这是有原因的。Nvidia 的平台使用专有的低延迟 NVLink 进行芯片到芯片和服务器到服务器的通信（与基于CXL协议的 PCIe 竞争），并使用专有的 InfiniBand 连接进行更高层的通信。为了最大限度地提高性能，该软件针对这两种技术的特点进行了调整。出于显而易见的原因，这可能会使软件移植到其他硬件平台变得更加复杂，这对 Nvidia 有利，但并不完全适合其竞争对手。
　　不过，有一个问题。以太网在硬件和软件层面都是一种无处不在的技术，它是 Nvidia 用于数据中心的低延迟和高带宽（高达 200 GbE）InfiniBand 互连的竞争对手。在性能方面，以太网（特别是下一代 400 GbE 和 800 GbE）可以与 InfiniBand 竞争。
　　然而，InfiniBand 在 AI 和 HPC 功能以及出色的尾延迟方面仍然具有一些优势，因此有些人可能会说以太网的功能无法满足新兴的 AI 和 HPC 工作负载。与此同时，由 AMD、博通、英特尔、Meta、微软和甲骨文带头的行业正在开发超以太网互连技术，准备为人工智能和高性能计算通信提供更高的吞吐量和功能。当然，对于此类工作负载，超级以太网将成为 Nvidia InfiniBand 更有效的竞争对手。
　　Nvidia 还面临着 CUDA 软件平台主导地位的挑战，因此受到业界广泛支持的统一加速器基金会 (UXL)的出现，这是一个包括 Arm、英特尔、高通和三星等在内的行业联盟，旨在提供一种替代方案到 CUDA。
　　当然，英伟达需要开发可供此时使用的数据中心平台，这可能至少是其花费数十亿美元购买专有技术的愿望的一部分。如果像带有 CXL 的 PCIe 和 Ultra 以太网这样的开放标准技术在性能和功能方面将超过 Nvidia 专有的 NVLink 和 InfiniBand 技术，那么 Nvidia 将不得不重新开发其平台，因此 Keller 建议Nvidia 应采用以太网。然而，这可能还需要数年时间，因此目前英伟达的设计继续利用专有的互连。

上一篇：陈军院士：我国有望在1-2年内攻克600Wh/kg氧化物/聚合物复合电解质固态电池中国电子报中国电子报

下一篇：鹏博士集团副总裁孙向东：统筹智算资源能破解大模型“算力荒”

免责声明: 凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处。非本网作品均来自互联网，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。