Jim Keller建议英伟达:使用以太网,而不是InfiniBand

时间:2024-04-15
  作为开放标准的坚定支持者,Jim Keller 在推特上表示,Nvidia 应该在基于 Blackwell 的GB200 GPU 中使用以太网协议芯片到芯片连接,用于 AI 和 HPC。凯勒认为,这可以为英伟达及其硬件用户节省大量资金。这也将使这些客户更容易地将他们的软件迁移到不同的硬件平台,而英伟达不一定希望这样做。
  当 Nvidia 推出用于 AI 和 HPC 应用的 GB200 GPU 时,该公司主要关注其 AI 性能和先进的内存子系统,很少介绍该设备的制造方式。与此同时,Nvidia的GB200 GPU由两个计算处理器组成,使用台积电的CoWoS-L封装技术和使用专有协议的NVLink互连技术缝合在一起。对于那些已经使用 Nvidia 硬件和软件的人来说,这不是问题,但这对业界从 Nvidia 平台移植软件提出了挑战。
  传奇 CPU 设计师兼 Nvidia 竞争对手Tenstorrent首席执行官 Jim Keller建议 Nvidia 应该使用以太网而不是专有的NVLink ,这是有原因的。Nvidia 的平台使用专有的低延迟 NVLink 进行芯片到芯片和服务器到服务器的通信(与基于CXL协议的 PCIe 竞争),并使用专有的 InfiniBand 连接进行更高层的通信。为了最大限度地提高性能,该软件针对这两种技术的特点进行了调整。出于显而易见的原因,这可能会使软件移植到其他硬件平台变得更加复杂,这对 Nvidia 有利,但并不完全适合其竞争对手。
  不过,有一个问题。以太网在硬件和软件层面都是一种无处不在的技术,它是 Nvidia 用于数据中心的低延迟和高带宽(高达 200 GbE)InfiniBand 互连的竞争对手。在性能方面,以太网(特别是下一代 400 GbE 和 800 GbE)可以与 InfiniBand 竞争。
  然而,InfiniBand 在 AI 和 HPC 功能以及出色的尾延迟方面仍然具有一些优势,因此有些人可能会说以太网的功能无法满足新兴的 AI 和 HPC 工作负载。与此同时,由 AMD、博通、英特尔、Meta、微软和甲骨文带头的行业正在开发超以太网互连技术,准备为人工智能和高性能计算通信提供更高的吞吐量和功能。当然,对于此类工作负载,超级以太网将成为 Nvidia InfiniBand 更有效的竞争对手。
  Nvidia 还面临着 CUDA 软件平台主导地位的挑战,因此受到业界广泛支持的统一加速器基金会 (UXL)的出现,这是一个包括 Arm、英特尔、高通和三星等在内的行业联盟,旨在提供一种替代方案到 CUDA。
  当然,英伟达需要开发可供此时使用的数据中心平台,这可能至少是其花费数十亿美元购买专有技术的愿望的一部分。如果像带有 CXL 的 PCIe 和 Ultra 以太网这样的开放标准技术在性能和功能方面将超过 Nvidia 专有的 NVLink 和 InfiniBand 技术,那么 Nvidia 将不得不重新开发其平台,因此 Keller 建议Nvidia 应采用以太网。然而,这可能还需要数年时间,因此目前英伟达的设计继续利用专有的互连。
上一篇:陈军院士:我国有望在1-2年内攻克600Wh/kg氧化物/聚合物复合电解质固态电池 中国电子报 中国电子报
下一篇:鹏博士集团副总裁孙向东:统筹智算资源能破解大模型“算力荒”

免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。