AI芯片的TOPS竞争,跑偏了?

时间:2024-06-13
  人工智能 PC 已经成为了一场 TOPS 竞赛——英特尔、AMD 和高通都在试图超越其他公司。
  正如我们上周了解到的,AMD 的下一代 Ryzen 300 系列芯片将拥有50 个 NPU TOPS,而英特尔的 Lunar Lake 部件将提供48 个 NPU TOPS。与此同时,高通和苹果此前已宣布他们的 NPU 将分别达到 45 和 38 TOPS。
  从历史上看,这种营销方式非常有效——数字越大,我们客户就越容易理解。但是,就像时钟速度和核心一样,它从来都不像营销人员说的那么简单。对于 TOPS 来说,情况确实如此。
  最大的问题之一是 TOPS(即芯片每秒可以处理多少万亿字节大小的运算)缺少一个关键信息:精度。这意味着 16 位精度的 50 TOPS 与 8 位或 4 位精度的 50 TOPS 不同。
  通常,当我们谈论 TOPS 时,它被认为是 INT8,即 8 位精度。然而,随着 6 位和 4 位低精度数据类型变得越来越普遍,它不再是理所当然的。值得称赞的是,英特尔和 AMD 在澄清精度方面做得更好,但对于试图做出明智决定的消费者来说,这仍然是一个潜在的混淆点。
  即使假设声称的性能是以相同的精度测量的,TOPS 也只是影响 AI 性能的众多因素之一。仅仅因为两个芯片能够以 TOPS 或 TFLOPS 产生类似的性能并不意味着它们实际上可以利用它们。
  以 Nvidia 的 A100 和 L40S 为例,它们的额定密度分别为 624 和 733 INT8 TOPS。显然,L40S 在运行(推理)AI 应用时的表现会略好一些,对吧?其实没那么简单。从技术上讲,L40S 更快,但其内存要慢得多:速度为 864GB/秒,而 40GB 的 A100 的带宽为 1.55TB/秒。
  内存带宽对于人工智能 PC 和强大的数据中心芯片同样重要,它对性能的影响可能比你想象的要明显得多。
  从大型语言模型的角度来看,推理性能可以分为两个阶段:第一和第二个标记延迟。
  对于聊天机器人来说,第一个token延迟是指它需要多长时间思考你的问题才能开始回答。此步骤通常受计算限制 - 这意味着 TOPS 越多肯定越好。
  同时,秒级延迟是指聊天机器人响应的每个字出现在屏幕上所需的时间。这一步受到内存带宽的严重限制。
  这一阶段对于最终用户来说将会更加明显——你将会感受到每秒可以生成 5 个单词的聊天机器人与每秒可以生成 20 个单词的聊天机器人之间的差异。
  这就是为什么 Apple 的 M 系列芯片被证明是运行本地 LLM 的绝佳小型机器。它们的内存与 SoC 一起封装,可以降低延迟并提高带宽。即使是像 M1 Max 这样的老款芯片也能够运行 LLM,因为它有 400GB/秒的内存带宽可供使用。
  现在,我们开始看到更多芯片制造商(如英特尔)将内存与计算功能打包在一起。英特尔即将推出的 Lunar Lake 处理器将配备高达32GB 的 LPDDR5x 内存,运行速度为 8500MT/秒,支持四个 16 位通道。
  这应该会大大提高在设备上运行 LLM 时的性能 - 但可能不会受到修复权倡导者的欢迎。
  我们可以通过开发能够以较低精度运行的模型来帮助减少内存压力——例如,将它们量化为 4 位权重。这还有利于减少将模型装入内存所需的 RAM 量。
  然而,我们要么需要更小更灵活的模型,要么需要更多的内存来容纳它们。不知何故,在 2024 年,我们仍在推出配备 8GB 内存的 PC——如果你想在 PC 上运行超过最小的模型,那么内存会相当紧张。一般来说,4 位量化模型每十亿个参数大约需要 512MB——对于像 LLama3-8B 这样的模型,大约需要 4GB 内存。
  我们可以使用较小的模型,例如 Google 的 Gemma-2B,但更可能的是,我们的系统上会同时运行多个模型。因此,您使用 AI PC 所能做的事情不仅取决于 TOPS 和内存带宽,还取决于您拥有多少内存。
  当模型处于非活动状态超过一定时间时,您可以将模型暂停到磁盘,但这样做会在恢复时导致性能损失 - 因为模型会被重新加载到内存中 - 所以您还需要非常快的 SSD。
  在日益移动化的计算世界中,功率是一个主要因素,但这一因素并不总是得到明确的解决。
  以两块能够产生大约 50 TOPS 的芯片为例。如果一块芯片消耗 10 瓦,另一块芯片需要 5 瓦,那么你会注意到电池消耗的差异,尽管理论上它们的性能应该差不多。同样,如果一块芯片产生 25 TOPS,但只需要 3 瓦,那么即使它需要的时间是一块以 10 瓦的功率产生 50 TOPS 的芯片的两倍,它也会消耗更少的电量。
  简而言之,许多因素都与你的芯片可以输出多少 TOPS 一样重要,甚至更重要。
  这并不是说 TOPS 不重要。它们很重要。每一代 Nvidia、AMD 和 Intel 都在加大芯片的开发力度,这是有原因的。更多的 TOPS 意味着你可以解决更大的问题,或者更快地解决同样的问题。
  但与大多数系统一样,仔细平衡内存、计算、I/O 和功耗对于实现 AI PC 所需的性能特征至关重要。不幸的是,传达任何这些都比指出更大的 TOPS 数字要困难得多——因此,我们似乎注定要再次重复 GHz 之战。
上一篇:三星发布最新工艺路线图
下一篇:美国能成为半导体大赢家?

免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。