Arm服务器芯片Ampere AmpereOne A192-32X测评
时间:2024-11-07
它是 192 核 3.2GHz(因此是 A192-32X)部件,按照 2024 年的标准来看,这似乎很平凡。据称,它于 2022-2023 年首次出售,主要在 Oracle Cloud 上。最初流向云提供商的量意味着它花了相当长的时间才进入其他客户手中。在 2024 年,情况发生了变化,现在 有了像Supermicro MegaDC ARS-211M-NR这样的服务器。
这似乎不是什么大问题,但这就是 AmpereOne 以 192 个内核进入企业市场时所拥有的大量内核与英特尔如今在下个季度拥有 144 个 250W 的 E 内核以及在 2024 年第三季度拥有 128 个 P 内核(256 个线程)之间的区别。AMD 在第四季度初的处理器现在拥有 192 个内核/每个插槽 384 个线程。或者让 这样说。在 2022-2023 年,192 个内核的 Arm CPU 是超凡脱俗的。到 2024 年,x86 团队已经基本赶上来了。
Ampere 专注于提供一种可通过容器或虚拟机同时为多个客户提供分区的芯片。尽管它宣称性能如此出色,但让 先实事求是一点。Ampere 并非试图打造一款 HPC CPU。这是一款云原生芯片。
Ampere 凭借 AmpereOne 取得进一步发展的一个领域是定价。AmpereOne 的定价高于 Altra Max,但性能更高。不过,英特尔、AMD 和 NVIDIA 并不认为其芯片的 10,000 美元定价是上限。
AmpereOne 和 Altra Max 之间的另一个重大区别是功能集进行了重大修改。这是 2022 年的原始幻灯片,A192-32X 是 400W 部件。不过,嵌套虚拟化等功能在 AmpereOne 中是新特性。 还获得了 PCIe Gen5 和 DDR5 支持。
在Hot Chips 2024 的 Ampere AmpereOne 架构上进行了更详细的介绍, 但 Ampere 也改变了其制造芯片的方式。您看到的中心芯片具有台积电 5nm 的内核和缓存。主芯片周围是处理 PCIe 和 DDR5 连接的较小芯片。最终,借助 AmpereOne M,Ampere 将再添加两个 DDR5 芯片,并实现与 AMD 和英特尔相匹配的 12 通道 DDR5。目前, 正在研究 8 通道 DDR5 机器。
云原生设计的其他一些影响体现在核心和缓存方面。中心计算块是 24 个 8 核集群中的 192 个核心。每个核心都有自己的 2MB L2 缓存,并且不使用 SMT。因此,一个核心就是一个线程。对于担心未来 Spectre/Meltdown 漏洞的组织来说,一个核心/一个线程可以防止这种情况发生。值得注意的是,英特尔和 NVIDIA 也采用了这种方法。
这款芯片与 Intel Xeon 6 Granite Rapids-AP(甚至是 Sapphire Rapids/Emerald Rapids)或 AMD EPYC 9005“Turin”相比,非常不同的是,它有一个 64MB 的小型共享 L3 缓存。这比 144 核 Intel Xeon 6700E 还要小得多,与 AMD 的 L3 缓存相比更是微不足道。同样,这款芯片的设计目的是分区并出售给多个客户,因此从概念上讲,在该模型中拥有大型共享 L3 缓存可能具有挑战性。此外,大型 L3 缓存占用了大量的芯片面积。
不过,这种方法的一个好处是,由于只有一个计算块,因此核心到核心的延迟可以比英特尔和 AMD 更好。
聊聊当你获得 Ampere AmpereOne A192-32X 处理器时会发生什么。有 192 个核心没有 SMT,所以有 192 个线程。这与 Intel Xeon 6 6700E Sierra Forest类似,因为没有 SMT,而且这更像是 x86 术语中的 E 核而不是 P 核设计。
这款 CPU 表现非常出色的一个方面是让所有核心都以 3.2GHz 运行。这是在 192 个核心上运行的压力测试,3.2GHz 时钟速度是在所有 192 个核心上运行的。
在某些服务器 CPU 架构中,可能会看到一些内核运行得更快,而其他内核运行得稍慢。AmpereOne 的设计使所有内核都能以相同的速度运行。在过去的几代产品中尤其如此。从 AMD EPYC Bergamo 系列开始, 已经看到一些竞争性 x86 架构的表现类似。
SPEC CPU2017 结果
SPEC CPU2017 可能是服务器 RFP 中最广为人知和使用的基准测试。 自己进行 SPEC CPU2017 测试,结果通常比 OEM 提交的官方结果低几个百分点。由于 OEM 为这些重要的基准测试做了大量优化工作,因此结果始终保持在约 5% 左右。由于目前已经有了官方数据,因此如果 谈论的是行业基准测试,那么使用官方数据感觉是正确的。
在这里使用官方结果,这意味着优化的编译器。Ampere 建议使用所有 gcc,并显示其将 AMD 和 Intel 的评级降至此基准的 gcc 数字。这种讨论就像辩论宗教一样。
有人可能会说 GCC 是最小公分母,所以这是正确的看待这个问题的方式。另一方面,最大的芯片公司 NVIDIA 已经使用 CUDA 和优化的工具链达到了这一点。如果 说 需要在这里使用 GCC,那么 是否需要避免使用 NVIDIA 的工具来查看其 AI 性能? 认为,既然官方分数可以自由使用他们想要的任何编译器,那应该是 使用的方法。
首先,Altra Max 和 AmpereOne 之间的性能有了巨大的飞跃。内核增加了 50%,但性能几乎提高了一倍。
当 将结果与 AMD 进行比较时,Turin Dense 简直就是怪物。AMD 的每插槽性能是其两倍,线程也是其两倍。Ampere 可能会争论编译器,而 1 核/1 线程使其能够每 CPU 执行 192x 1 vCPU VM。AMD 可能会反驳说,它可以每 CPU 执行 192x 2 vCPU VM。
与英特尔相比,同样使用不同的编译器,144 核的英特尔至强 6780E 非常接近。Ampere 可以声称它可以每 CPU 执行 192x 1 vCPU VM,而英特尔只能执行 144 个。如果您是云提供商,则更多的 vCPU 意味着每个系统有更多的客户。
随着 Sierra Forest-AP 于 2025 年第一季度推出, 预计 288 核部分将达到 1250-1410。如果 AmpereOne M 线性扩展到 256 核,则为 936。这接近 AMD EPYC Bergamo 128 核/256 线程部分。
免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。