Nvidia 在 GTC 2023 上谈到了其即将推出的基于 Arm 的 Grace CPU,但该公司宣布系统现在将在今年下半年发货,这比其最初定于 2023 年上半年的发布时间表有所延迟。我们询问了 Nvidia 首席执行官Jenson Huang 在今天的新闻问答环节中谈到了延迟,我们将在下面介绍。
Nvidia 还首次展示了其 Grace 芯片,并在其 GTC 主题演讲中提出了大量新的性能声明,包括其基于 Arm 的 Grace 芯片在 60% 的功率下比 x86 竞争对手快 1.3 倍,我们将还盖。
我向 Jensen Huang 询问了有关 Grace CPU 和 Grace Hopper Superchip 系统延迟交付终端市场的问题,他回答说:
“嗯,首先,我可以告诉你,Grace和Grace Hopper都在生产中,芯片现在正在工厂里飞。系统正在制作中,我们发布了很多公告. 世界上的原始设备制造商和计算机制造商正在建造它们。” Huang 还表示,Nvidia 只用了两年的时间来开发芯片,考虑到现代芯片通常需要多年的设计周期,这个时间相对较短。
今天对运输系统的定义可能很模糊——AMD 和英特尔的第一批系统通常在芯片看到普遍的现成可用性之前很久就被运送到超大规模处理器进行部署。然而,尽管 Nvidia 表示正在向客户提供芯片样品,但尚未表示 Grace 已部署到生产中。因此,根据公司的预测,这些芯片是迟到的,但公平地说,像英特尔这样的公司长期迟到的芯片发布并不少见。这凸显了推出新芯片的难度,即使是围绕占主导地位的 x86 芯片构建并建立了数十年的成熟硬件和软件平台。
相比之下,Nvidia 的 Grace 和 Grace+Hopper 芯片是对芯片设计的许多基本方面的全新思考,采用创新的芯片间互连。Nvidia 使用 Arm 指令集也意味着软件优化和移植的提升更大,并且该公司有一个全新的平台可以构建。
Jensen 在他的扩展回应中提到了其中的一些内容,他说:“我们从 Superchips 而不是 chiplet 开始,是因为我们想要构建的东西是如此之大,而这两种产品今天都在生产中。所以客户正在接受送样,软件是被移植到它,我们正在做很多测试。在主题演讲中,我展示了一些数字,我不想用很多数字来增加主题演讲的负担,但是一大堆数字将可用供人们欣赏。但性能真的非常棒。”
Nvidia 的声明令人印象深刻。例如,图上图,您可以看到 Nvidia 在 GTC 上首次实体展示的 Grace Hopper 芯片。在演示过程中,Huang 声称该芯片在 HiBench Apache Spark 内存密集型基准测试中比“平均”下一代 x86 服务器芯片快 1.2 倍,在谷歌微服务通信基准测试中快 1.3 倍,同时仅占 60%功耗。
Nvidia 声称这允许数据中心将 1.7 倍以上的 Grace 服务器部署到功率受限的装置中,每个装置提供 25% 的吞吐量。该公司还声称Grace 在计算流体动力学 (CFD) 工作负载方面的速度提高了 1.9 倍。
然而,虽然 Grace 芯片在某些工作负载中表现出超强的性能和效率,但 Nvidia 并没有将它们瞄准通用服务器市场。相反,该公司针对特定用例定制了芯片,例如 AI 和云工作负载,它们有利于卓越的单线程和内存处理性能以及出色的能效。
“现在几乎每个数据中心都受到功耗限制,我们将 Grace 设计为在功率受限的环境中表现出色,”Huang 在回答我们的问题时告诉我们。“在那种情况下,你必须既有非常高的性能,又必须有非常低的功率,而且效率非常高。因此,Grace 系统的功率/性能效率是最好的系统的两倍左右最新一代的 CPU。”
“而且它是针对不同的设计点而设计的,所以这是非常可以理解的,”Huang继续说道。“例如,我刚才描述的内容对大多数企业来说并不重要。它对云服务提供商很重要,对无限供电的数据中心也很重要。”
能源效率比以往任何时候都更受关注,我们最近评测过的 AMD EPYC Genoa和英特尔的 Sapphire Rapids 等芯片现在分别达到 400 瓦和 350 瓦。这需要奇特的新空气冷却解决方案来控制标准设置下的巨大功耗,并为最高性能选项提供液体冷却。
相比之下,Grace 的低功耗将使芯片更容易冷却。正如 GTC 上首次展示的那样,Nvidia 的 144 核 Grace 封装为 5" x 8",可以装入非常紧凑的被动冷却模块中。这些模块仍然依靠空气冷却,但两个可以在一个纤薄的 1U 机箱中进行空气冷却。
Nvidia 还在 GTC 上首次展示了其 Grace Hopper Superchip 芯片。Superchip 在同一个封装上结合了 Grace CPU 和 Hopper GPU。正如您在上面的相册中看到的,其中两个模块也可以装入一个服务器机箱中。
这种设计的最大收获是增强的 CPU+GPU 内存一致性,由芯片到芯片的低延迟连接提供,速度是 PCIe 接口的七倍,允许 CPU 和 GPU 共享内存中保存的信息以以前的设计无法实现的速度和效率。
Huang 解释说,这种方法非常适合 AI、数据库、推荐系统和大型语言模型 (LLM),所有这些都有着令人难以置信的需求。通过允许 GPU 直接访问 CPU 的内存,简化了数据传输以提高性能。
Nvidia 的 Grace 芯片可能有点落后于计划,但该公司拥有众多合作伙伴,华硕、Atos、技嘉、HPE、Supermicro、QCT、Wiston 和 Zt 都在为市场准备 OEM 系统。这些系统现在预计将在今年下半年推出,但 Nvidia 尚未说明它们是否会在下半年开始或结束时推出。
NVIDIA Grace CPU,为数据中心的节能计算铺平了快车道
结果出来了,它们指向了节能计算的新时代。
在实际工作负载测试中,NVIDIA Grace CPU Superchip在主要数据中心 CPU 应用程序中以相同的功率范围获得了比 x86 处理器高 2 倍的性能提升。这开辟了一系列全新的机会。这意味着数据中心可以处理两倍的高峰流量。他们可以将电费削减一半之多。他们可以在其网络边缘的密闭空间中加入更多的攻击力——或者上述任意组合。
数据中心经理需要这些选项才能在当今的节能时代蓬勃发展。 摩尔定律实际上已经死了。物理学不再允许工程师以相同的功率在相同的空间中封装更多的晶体管。这就是为什么新的 x86 CPU 通常比前几代 CPU 提供不到 30% 的增益。这也是越来越多的数据中心受到功率限制的原因。
随着全球变暖威胁的增加,数据中心无法扩展其功率,但它们仍然需要响应不断增长的计算需求。
然而,根据麦肯锡的一项研究,美国的计算需求每年增长 10%,并将在 2022 年至 2030 年的八年内翻一番。“因此,使数据中心可持续发展的压力很大,一些监管机构和政府正在对新建数据中心实施可持续性标准,”它说。
根据麦肯锡引用的一项调查(见下图),随着摩尔定律的终结,数据中心在计算效率方面的进步已经停滞。
在今天的环境中,NVIDIA Grace 提供的2倍收益相当于多代人的飞跃。它满足当今数据中心主管的要求。
管理着 240 多个数据中心的全球服务提供商 Equinix 的边缘基础设施负责人 Zac Smith 在一篇关于节能计算的文章中阐述了这些需求。
“你所获得的碳影响绩效是我们需要努力实现的目标,”他说。
“我们有 10,000 名客户指望我们在这段旅程中提供帮助。他们需要更多的数据和更多的智能,通常是人工智能,他们希望以可持续的方式获得。”他补充道。
得益于三项创新,Grace CPU 提供了如此高效的性能。 它使用超快结构在单个芯片中连接 72 个 Arm Neoverse V2 内核,在结构对分带宽中达到每秒 3.2 TB 的速度,这是吞吐量的标准衡量标准。然后它将其中两个裸片连接到一个带有NVIDIA NVLink-C2C互连的超级芯片封装中,提供 900 GB/s 的带宽。
最后,它是第一个使用服务器级 LPDDR5X 内存的数据中心 CPU。这可以以类似的成本提供高达 50% 的内存带宽,但功率仅为典型服务器内存的八分之一。其紧凑的尺寸使典型的基于卡的内存设计的密度提高了 2 倍。
如今,NVIDIA 工程师正在 Grace 上运行真实的数据中心工作负载。
他们发现,与使用相同功率足迹的数据中心中领先的 x86 CPU 相比,Grace 是:微服务快 2.3 倍、内存密集型数据处理速度提高2倍、在许多技术计算应用程序中使用的计算流体动力学方面速度提高 1.9 倍。
甚至在工作 CPU 上出现这些结果之前,用户就对 Grace 的创新做出了回应。
洛斯阿拉莫斯国家实验室在5月宣布,它将在 Venado 中使用 Grace,这是一台 10 exaflop AI 超级计算机,它将推进实验室在材料科学和可再生能源等领域的工作。与此同时,欧洲和亚洲的数据中心正在评估 Grace 的工作负载。
NVIDIA Grace 现在正在提供样片,将于今年下半年投入生产。ASUS、Atos、GIGABYTE、Hewlett Packard Enterprise、QCT、Supermicro、Wistron 和 ZT Systems 正在构建使用它的服务器。
编译自tomshardware