AI芯片的TOPS竞争，跑偏了？

时间：2024-06-13

　　人工智能 PC 已经成为了一场 TOPS 竞赛——英特尔、AMD 和高通都在试图超越其他公司。
　　正如我们上周了解到的，AMD 的下一代 Ryzen 300 系列芯片将拥有50 个 NPU TOPS，而英特尔的 Lunar Lake 部件将提供48 个 NPU TOPS。与此同时，高通和苹果此前已宣布他们的 NPU 将分别达到 45 和 38 TOPS。
　　从历史上看，这种营销方式非常有效——数字越大，我们客户就越容易理解。但是，就像时钟速度和核心一样，它从来都不像营销人员说的那么简单。对于 TOPS 来说，情况确实如此。
　　最大的问题之一是 TOPS（即芯片每秒可以处理多少万亿字节大小的运算）缺少一个关键信息：精度。这意味着 16 位精度的 50 TOPS 与 8 位或 4 位精度的 50 TOPS 不同。
　　通常，当我们谈论 TOPS 时，它被认为是 INT8，即 8 位精度。然而，随着 6 位和 4 位低精度数据类型变得越来越普遍，它不再是理所当然的。值得称赞的是，英特尔和 AMD 在澄清精度方面做得更好，但对于试图做出明智决定的消费者来说，这仍然是一个潜在的混淆点。
　　即使假设声称的性能是以相同的精度测量的，TOPS 也只是影响 AI 性能的众多因素之一。仅仅因为两个芯片能够以 TOPS 或 TFLOPS 产生类似的性能并不意味着它们实际上可以利用它们。
　　以 Nvidia 的 A100 和 L40S 为例，它们的额定密度分别为 624 和 733 INT8 TOPS。显然，L40S 在运行（推理）AI 应用时的表现会略好一些，对吧？其实没那么简单。从技术上讲，L40S 更快，但其内存要慢得多：速度为 864GB/秒，而 40GB 的 A100 的带宽为 1.55TB/秒。
　　内存带宽对于人工智能 PC 和强大的数据中心芯片同样重要，它对性能的影响可能比你想象的要明显得多。
　　从大型语言模型的角度来看，推理性能可以分为两个阶段：第一和第二个标记延迟。
　　对于聊天机器人来说，第一个token延迟是指它需要多长时间思考你的问题才能开始回答。此步骤通常受计算限制 - 这意味着 TOPS 越多肯定越好。
　　同时，秒级延迟是指聊天机器人响应的每个字出现在屏幕上所需的时间。这一步受到内存带宽的严重限制。
　　这一阶段对于最终用户来说将会更加明显——你将会感受到每秒可以生成 5 个单词的聊天机器人与每秒可以生成 20 个单词的聊天机器人之间的差异。
　　这就是为什么 Apple 的 M 系列芯片被证明是运行本地 LLM 的绝佳小型机器。它们的内存与 SoC 一起封装，可以降低延迟并提高带宽。即使是像 M1 Max 这样的老款芯片也能够运行 LLM，因为它有 400GB/秒的内存带宽可供使用。
　　现在，我们开始看到更多芯片制造商（如英特尔）将内存与计算功能打包在一起。英特尔即将推出的 Lunar Lake 处理器将配备高达32GB 的 LPDDR5x 内存，运行速度为 8500MT/秒，支持四个 16 位通道。
　　这应该会大大提高在设备上运行 LLM 时的性能 - 但可能不会受到修复权倡导者的欢迎。
　　我们可以通过开发能够以较低精度运行的模型来帮助减少内存压力——例如，将它们量化为 4 位权重。这还有利于减少将模型装入内存所需的 RAM 量。
　　然而，我们要么需要更小更灵活的模型，要么需要更多的内存来容纳它们。不知何故，在 2024 年，我们仍在推出配备 8GB 内存的 PC——如果你想在 PC 上运行超过最小的模型，那么内存会相当紧张。一般来说，4 位量化模型每十亿个参数大约需要 512MB——对于像 LLama3-8B 这样的模型，大约需要 4GB 内存。
　　我们可以使用较小的模型，例如 Google 的 Gemma-2B，但更可能的是，我们的系统上会同时运行多个模型。因此，您使用 AI PC 所能做的事情不仅取决于 TOPS 和内存带宽，还取决于您拥有多少内存。
　　当模型处于非活动状态超过一定时间时，您可以将模型暂停到磁盘，但这样做会在恢复时导致性能损失 - 因为模型会被重新加载到内存中 - 所以您还需要非常快的 SSD。
　　在日益移动化的计算世界中，功率是一个主要因素，但这一因素并不总是得到明确的解决。
　　以两块能够产生大约 50 TOPS 的芯片为例。如果一块芯片消耗 10 瓦，另一块芯片需要 5 瓦，那么你会注意到电池消耗的差异，尽管理论上它们的性能应该差不多。同样，如果一块芯片产生 25 TOPS，但只需要 3 瓦，那么即使它需要的时间是一块以 10 瓦的功率产生 50 TOPS 的芯片的两倍，它也会消耗更少的电量。
　　简而言之，许多因素都与你的芯片可以输出多少 TOPS 一样重要，甚至更重要。
　　这并不是说 TOPS 不重要。它们很重要。每一代 Nvidia、AMD 和 Intel 都在加大芯片的开发力度，这是有原因的。更多的 TOPS 意味着你可以解决更大的问题，或者更快地解决同样的问题。
　　但与大多数系统一样，仔细平衡内存、计算、I/O 和功耗对于实现 AI PC 所需的性能特征至关重要。不幸的是，传达任何这些都比指出更大的 TOPS 数字要困难得多——因此，我们似乎注定要再次重复 GHz 之战。

上一篇：三星发布最新工艺路线图

下一篇：美国能成为半导体大赢家？

免责声明: 凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处。非本网作品均来自互联网，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。