AMD向Arm芯片开炮,英伟达回击

时间:2024-07-25
  AMD 声称,其当前的数据中心硅片的速度已经比 Nvidia 的 Grace CPU 超级芯片快两倍多,效率高达 2.75 倍。
  该芯片设计公司是在上周发布的自己的测试之后做出上述断言的,在测试中该公司考虑了 Nvidia 的 2022 Grace CPU 超级芯片。
  该产品结合了一对 CPU 芯片,每个芯片包含 72 个 Arm Neoverse V2 内核,通过 900GB/秒的 NVLink 芯片间互连将它们连接起来,并支持高达 960GB 的高速 LPDDR5x 内存。不过,AMD 似乎正在测试 480GB 版本。
  需要明确的是,这不是 Nvidia 的 Grace-Hopper Superchip(GH200),它结合了单个 Grace CPU、高达 480GB 的 LPDDR5x 和 144GB H100 GPU 芯片。
  与 Nvidia 的 Grace CPU 相比,AMD测试了运行 Epyc 4 Genoa (9654) 和Bergamo (9754) 的单插槽和双插槽系统,每个系统都配备 768GB 的 DDR5 4800MT/秒内存。
  在十种工作负载(包括通用计算、服务器端 Java、电源效率、事务数据库、决策支持系统、Web 服务器、内存数据库、视频编码和高性能计算 (HPC))中,AMD 宣称其套件的性能是 Nvidia 芯片的 1.5 倍到 4 倍。
  值得一提的是,与任何供应商提供的基准测试一样,读者请谨慎对待。
  图片
  在 SPECpower-ssj2008 基准测试中,AMD 声称单个 128 核 Epyc 9754 的每瓦性能比 Nvidia 基于 Arm Neoverse V2 的芯片高出约 2.5 倍,而一对 Bergamo Epycs 将这一优势提升至 2.75 倍。
  图片
  对于那些一直关注 Grace 开发的人来说,这一切都不应该感到惊讶——尽管情况并不像 AMD 让你相信的那么简单。
  正如The Next Platform在二月份报道的那样,斯托尼布鲁克大学和布法罗大学的研究人员比较了从多个科研机构和一个云构建商收集的 Nvidia 的 Grace CPU 超级芯片和几台 x86 处理器的性能数据。
  当然,这些测试大多以 HPC 为中心,包括 Linpack、高性能共轭梯度法 (HPCG)、OpenFOAM 和 Gromacs。虽然 Grace 系统的性能在测试中差异很大,但最差的情况下,它介于英特尔的 Skylake 架构(大约 2015 年)和其 Ice Lake(2019 年)技术之间,击败了 AMD 的 Milan(自 2021 年开始),与2023 年初推出的Xeon Max 相差无几。
  研究结果表明,在正确的基准上,AMD 最强大的 Genoa 和 Bergamo Epyc 处理器可能会击败 Nvidia 的首款数据中心 CPU。
  但正如我们之前提到的,所有这些都取决于工作负载。在其 Grace CPU Superchip数据表中,Nvidia 显示,该芯片的性能是双 96 核 Epyc 9654s(与 AMD 测试中使用的 Genoa Epyc 相同)的 90% 到 2.4 倍,并且在各种云和 HPC 服务中的吞吐量高达三倍。
  虽然传统的 CPU 较量可能有意义——归根结底,Grace 和 Epyc 都是数据中心 CPU 平台——但我们还没有真正看到 Nvidia 的 Grace CPU 超级芯片在 HPC 应用之外得到广泛部署,通常是为了准备更大规模部署下一代 GH200 芯片。英国的Isambard-3 和 Isambard-AI 超级计算机就是该战略付诸实践的典范。
  Nvidia 自己将 CPU 超级芯片宣传为旨在“处理海量数据以最大程度地提高能源效率”的芯片,并特别提到了人工智能、数据分析、超大规模云应用程序和 HPC 应用程序。
  此外,在 GH200 配置中,大部分计算都由 GPU 完成 - Grace 主要为加速器提供数据。显然,Nvidia 认为 Grace 及其 NVLink-C2C 互连能够胜任这项任务,因为它选择在即将推出的 GB200 超级芯片上重复使用 CPU,我们在 Nvidia 的 GTC 开发者大会上回顾了这款芯片。
  可以说,这就是 Nvidia 需要 Grace 做的一切,才能取得成功。这也解释了为什么这家加速冠军已经开始着手开发其继任产品。
  我们必须想象,将 Grace-Grace 与第四代 Epyc 进行交叉购买的人数(当然,在 HPC 领域之外)是一个相当短的名单。老实说,我们更有兴趣看到 GH200 与 AMD 的MI300A APU之间的正面交锋。
  AMD 最后讨论了 Arm 兼容性——这个主题值得进行更多基准测试。
  我们感觉 AMD 的测试可能只是为了消除人们对 x86 失去动力和 Arm 接管的担忧。
  Arm 对 HPC 社区或云来说并不是新事物,这些市场远没有拒绝这种架构。事实上,现在每个主要的美国云提供商都拥有自己的 Arm CPU。
  但如果这真的是关于 AMD 的 Zen 4 和 Zen 4c 内核与 Arm 的 Neoverse V2 架构的比较,那么与亚马逊网络服务的 Graviton4 进行比较会更有用。
  Graviton4 于 2023 年末发布,基于与 Grace 相同的 Neoverse V2 核心,但拥有 96 个核心并支持标准双插槽配置和 12 个 DDR4 通道,而不是 Grace 的焊接 LPDDR5x 模块。
  运行 Graviton4 的实例已在预览版中推出数月,并于上周正式推出。或许更重要的是,AWS 同时提供基于 Epyc 4 和 Graviton 4 的实例,这使得人们将两者进行比较的可能性大大提高。
  与此同时,Nvidia 发布了类似的基准测试来反驳 AMD 的说法,正如您所想象的那样,它们看起来与 Team Red 提供的结果大不相同。根据 Nvidia 的说法,Grace CPU Superchip 在服务器端性能上比双插槽 EPYC 9654 快 2.4 倍,在数据中心吞吐量上快 3 倍。平均而言,Grace CPU 在多次测试中快 1.5-2.0 倍。
  AMD EPYC 处理器在性能和效率方面领先于 ARM 处理器,且毫不妥协
  数据中心是现代数字经济的支柱,为需要高性能、高能效和易用性的各种应用和服务提供支持。无论您运行的是在线购物、网站托管、数据分析、视频流还是人工智能 (AI) 工作负载,您都需要一款能够提供最佳结果且不影响任何方面的处理器,并且所有处理器都具有无缝可移植性,以便您可以专注于主要业务。
  数据中心业务的重要性日益增加,如今大量电力被专用于数据中心和云基础设施,这促使许多供应商提出替代处理器选择,这些选择通常声称比常见的 x86 解决方案更具优势。这些新替代方案之一来自Nvidia,其基于ARM处理器 IP 的“Grace Superchip”。通常,这些方案会大张旗鼓地推出,并声称与 x86 相比具有显著的性能和能效优势。但很多时候,这些说法很难转化为现实世界的竞争性工作负载场景——因为替代方案过时、不够优化或假设记录不充分。
  AMD EPYC 处理器继续在数据中心性能、能效、安全性和总拥有成本方面树立新标准,这得益于对成熟的 x86 架构的持续创新。无论是在本地部署、在云环境中部署还是在不同行业部署,第四代 AMD EPYC 处理器产品组合都能提供尖端解决方案来满足各种工作负载要求。广泛的 AMD EPYC 生态系统包含 250 多种不同的服务器设计,支持近 900 个独特的云实例,并受到全球一些最大公司的信任,用于运行其服务。AMD EPYC 处理器在广泛的基准测试中保持着 300 多项性能和效率世界纪录,包括商业应用程序、技术计算、数据管理、数据分析、数字服务、媒体和娱乐以及基础设施解决方案。
  正如我们在本文中所展示的,EPYC 在众多行业标准基准测试中领先于基于 ARM 的解决方案。此外,借助 AMD 首创的久经考验的 x86-64 架构,您无需昂贵的移植或架构转换即可获得这一优势。
  我们在十个关键工作负载上比较了 AMD EPYC 处理器和 NVIDIA Grace CPU Superchip 的性能,涵盖通用计算、服务器端 Java、电源效率、事务数据库、决策支持系统、Web 服务器、内存分析、视频编码和 HPC 工作负载。我们使用行业标准基准和测试方法来确保公平透明的比较。Raghu Nambiar 在博客中发布了一套完整的测试结果,其中包括测试讨论以及系统和测试配置的文档,链接如下。图 1 显示了结果摘要,即 AMD EPYC 处理器性能与 NVIDIA Grace CPU Superchip 系统性能的比率。
  可以看出,AMD EPYC 处理器在代表多个垂直行业的工作负载中提供的性能是 NVIDIA Grace CPU 超级芯片的两倍以上,展示了 AMD EPYC 处理器在数据中心性能方面的卓越能力,毫不妥协。
  值得注意的是,AMD EPYC 架构为您提供了开箱即用的性能和能效。您可以获得关键应用程序所需的所有性能,同时还有助于实现能源目标,而无需更改架构甚至系统供应商。领先的能效以基于 AMD EPYC 的服务器的形式提供,这些服务器来自您熟悉和信任的服务器供应商,可用于运营您当前的业务。下面的图 2 提供了上图中数据的细分,以更直接地关注使用备受推崇的 SPECpower_ssj2008 基准测试的系统结果,该基准旨在展示工作负载处理中的能效。
  如图所示,基于单插槽和双插槽 AMD EPYC 9754 的系统分别比 NVIDIA Grace 系统高出约 2.50 倍和约 2.75 倍。此外,在相同测试中,双插槽 AMD EPYC 9654 系统比同一 NVIDIA 系统高出约 2.27 倍。
  除了性能和效率之外,兼容性是数据中心运营商需要考虑的另一个重要因素。据估计,全球有数万亿行软件代码,其中大部分是为 x86 架构编写的。AMD EPYC 处理器基于 AMD 首创的 x86-64 架构,该架构是数据中心行业使用最广泛、支持最广泛的架构。这意味着您可以在 AMD EPYC 处理器上运行各种工作负载,而不会出现任何兼容性问题,也不需要昂贵的架构转换到不同的 ISA。人们很容易忘记软件端口是一回事,真正的负担在于必须管理和维护多个代码库。此外,每个 ARM 实现因芯片供应商而异,因此使用一个 ARM 芯片并不意味着您可以期望与另一个供应商的 ARM 芯片无缝兼容。
  AMD 认为架构变更既困难又昂贵,而且充满风险。基于开放标准的方法与不懈创新相平衡,为客户提供了更好的途径。AMD EPYC 处理器帮助服务器供应商和生态系统 IHV 支持向最新功能和标准(如 PCIe? 5.0、DDR5 和 CXL)的过渡,以确保面向未来和互操作性,并为客户提供平稳的采用路径。很少有 ARM 产品在将扩展的 IHV 服务器生态系统带入共同创新方面拥有良好的记录。AMD 继续执行稳定的处理器创新路线图,并为客户提供值得信赖的选择来推进其数据中心。
  AMD EPYC 处理器是数据中心性能和效率的最佳选择,因为它们在十种关键工作负载中的表现优于 NVIDIA Grace CPU Superchip,这是基于大量行业标准基准测试出版物和测试的结果。AMD EPYC 处理器还具有 x86 处理器架构兼容性的优势,使您能够部署广泛的工作负载,而不会做出任何妥协,也无需昂贵的架构转换到不同的 ISA。对于希望通过简单的按钮最大限度地提高性能,同时最大限度地降低数据中心的功耗和空间占用的数据中心运营商来说,AMD 处理器是最佳选择。在人工智能时代,您需要为新兴的人工智能工作负载提供容量,AMD 提供了最佳选择,它基于行业标准,数据和基准的透明度,以及整个生态系统中平台和解决方案的广泛可用性,无需昂贵的架构转换。

上一篇:苹果自研5G基带明年发布,抛弃高通倒计时
下一篇:亚洲半导体供应链开始出现分化

免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。