Meta突然发布一颗芯片

时间:2024-04-11
  Meta 承诺其下一代定制人工智能芯片将更加强大,能够更快地训练其排名模型。
  Meta 训练和推理加速器 (MTIA) 旨在与 Meta 的排名和推荐模型完美配合。这些芯片可以帮助提高训练效率,并使推理(即实际的推理任务)变得更容易。
  该公司在一篇博客文章中表示,MTIA 是其长期计划的重要组成部分,该计划旨在围绕如何在其服务中使用人工智能来构建基础设施。它希望设计的芯片能够与其当前的技术基础设施和 GPU 的未来进步相配合。
  Meta 在其帖子中表示:“实现我们对定制芯片的雄心意味着不仅要投资于计算芯片,还要投资于内存带宽、网络和容量以及其他下一代硬件系统。”
  Meta于 2023 年 5 月发布了 MTIA v1,专注于向数据中心提供这些芯片。下一代 MTIA 芯片也可能瞄准数据中心。MTIA v1 预计要到 2025 年才会发布,但 Meta 表示这两款 MTIA 芯片现已投入生产。
  目前,MTIA 主要训练排名和推荐算法,但 Meta 表示,最终目标是扩展芯片的功能,开始训练生成式人工智能,如 Llama 语言模型。
  Meta 表示,新的 MTIA 芯片“从根本上专注于提供计算、内存带宽和内存容量的适当平衡。”该芯片将拥有 256MB 片上内存,频率为 1.3GHz,而 v1 的片上内存为 128MB 和 800GHz。Meta 的早期测试结果显示,在公司评估的四种型号中,新芯片的性能比第一代版本好三倍。
  Meta 致力于 MTIA v2 已有一段时间了。该项目内部称为 Artemis,此前有报道称仅专注于推理。
  随着人工智能的使用,对计算能力的需求不断增加,其他人工智能公司一直在考虑制造自己的芯片。谷歌于 2017 年发布了新的 TPU 芯片,而微软则发布了 Maia 100 芯片。亚马逊还有其 Trainium 2 芯片,其训练基础模型的速度比之前的版本快四倍。
  购买强大芯片的竞争凸显了需要定制芯片来运行人工智能模型。对芯片的需求增长如此之快,以至于目前在人工智能芯片市场占据主导地位的英伟达的估值达到了 2 万亿美元。
  Meta下一代训练和推理加速器
  Meta 的下一代大规模基础设施正在以人工智能为基础进行构建,包括支持新的生成式人工智能 (GenAI) 产品和服务、推荐系统以及先进的人工智能研究。随着支持人工智能模型的计算需求随着模型的复杂性而增加,Meta预计这项投资将在未来几年增长。
  去年,Meta推出了元训练和推理加速器 (MTIA:Meta Training and Inference Accelerator) v1,这是Meta在内部设计时考虑到 Meta 的人工智能工作负载的第一代人工智能推理加速器,特别是Meta的深度学习推荐模型,它正在改善各种体验我们的产品。
  在Meta看来,MTIA 是一项长期事业,旨在为 Meta 独特的工作负载提供最高效的架构。随着人工智能工作负载对我们的产品和服务变得越来越重要,这种效率将提高Meta为全球用户提供最佳体验的能力。MTIA v1 是提高公司基础设施的计算效率并更好地支持公司的软件开发人员构建 AI 模型以促进新的、更好的用户体验的重要一步。

  Meta表示,该推理加速器是公司更广泛的全栈开发计划的一部分,用于定制、特定领域的芯片,可解决独特的工作负载和系统问题。这个新版本的 MTIA 使Meta之前的解决方案的计算和内存带宽增加了一倍以上,同时保持了与工作负载的紧密联系。它旨在高效地服务于为用户提供高质量推荐的排名和推荐模型。

  据Meta介绍,该芯片的架构从根本上侧重于为服务排名和推荐模型(serving ranking and recommendation models)提供计算、内存带宽和内存容量的适当平衡。在推理中,即使批量大小(batch sizes)相对较低,Meta也认为需要能够提供相对较高的利用率。通过专注于提供相对于典型 GPU 而言超大的 SRAM 容量,Meta认为可以在批量大小有限的情况下提供高利用率,并能在遇到大量潜在并发工作时提供足够的计算。
  该加速器由 8x8 处理元件 (PE:processing elements) 网格组成。这些 PE 显着提高了密集计算性能(比 MTIA v1 提高了 3.5 倍)和稀疏计算性能(提高了 7 倍)。这部分归功于与稀疏计算流水线相关的架构的改进。它还来自Meta为 PE 网格供电的方式:Meta将本地 PE 存储的大小增加了两倍,将片上 SRAM 增加了一倍,将其带宽增加了 3.5 倍,并将 LPDDR5 的容量增加了一倍。
  Meta新的 MTIA 设计还采用改进的片上网络 (NoC) 架构,使带宽加倍,并允许以低延迟在不同 PE 之间进行协调。PE 中的这些功能和其他新功能构成了关键技术,这对于Meta将 MTIA 扩展到更广泛、更具挑战性的工作负载的长期路线图至关重要。
  Meta强调,有效地服务公司的工作负载不仅仅是一个硅挑战。共同设计硬件系统和软件堆栈以及芯片对于整体推理解决方案的成功更是至关重要。
  为了支持下一代芯片,Meta开发了一个大型机架式系统,最多可容纳 72 个加速器。它由三个机箱组成,每个机箱包含 12 个板,每个板包含两个加速器。Meta专门设计了该系统,以便可以将芯片的时钟频率设置为 1.35GHz(从 800 MHz 提高)并以 90 瓦的功率运行,而第一代设计的功耗为 25 瓦。Meta表示,这个设计能确保公司可以提供更密集的功能以及更高的计算、内存带宽和内存容量。这种密度也能使Meta能够更轻松地适应各种模型复杂性和尺寸。
  除此之外,Meta还将加速器之间以及主机与加速器之间的结构升级到 PCIe Gen5,以提高系统的带宽和可扩展性。如果选择扩展到机架之外,还可以选择添加 RDMA NIC。
  Meta重申,从投资 MTIA 之初起,软件就一直是公司重点关注的领域之一。作为 PyTorch 的最初开发者,Meta重视可编程性和开发人员效率。按照Meta所说, MTIA 堆栈旨在与 PyTorch 2.0 以及 TorchDynamo 和 TorchInductor 等功能完全集成。前端图形级捕获、分析、转换和提取机制(例如 TorchDynamo、torch.export 等)与 MTIA 无关,并且正在被重用 MTIA 的较低级别编译器从前端获取输出并生成高效且设备特定代码。这个较低级别的编译器本身由几个组件组成,负责为模型和内核生成可执行代码。
  下面是负责与驱动程序/固件连接的运行时堆栈。MTIA Streaming 接口抽象提供了推理和(未来)训练软件管理设备内存以及在设备上运行运算符和执行编译图所需的基本和必要操作。最后,运行时与位于用户空间的驱动程序进行交互——Meta解析说,做出这一决定是为了使公司能够在生产堆栈中更快地迭代驱动程序和固件。
  在许多方面,这种新芯片系统运行的软件堆栈与 MTIA v1 类似,这使得团队的部署速度更快,因为Meta已经完成了在该架构上运行应用程序所需的大部分必要的集成和开发工作。
  新的 MTIA 旨在与为 MTIA v1 开发的代码兼容。由于Meta已经将完整的软件堆栈集成到芯片中,因此开发者在几天内就可以使用这款新芯片启动并运行我们的流量。这使Meta能够快速落地下一代 MTIA 芯片,在不到 9 个月的时间内从第一个芯片到在 16 个地区运行的生产模型。
  此外,Meta还通过创建 Triton-MTIA 编译器后端来为 MTIA 硬件生成高性能代码,进一步优化了软件堆栈。Triton是一种开源语言和编译器,用于编写高效的机器学习计算内核。它提高了开发人员编写 GPU 代码的效率,Meta发现, Triton 语言与硬件无关,足以适用于 MTIA 等非 GPU 硬件架构。
  Triton-MTIA 后端执行优化以最大限度地提高硬件利用率并支持高性能内核。它还公开了利用 Triton 和 MTIA 自动调整基础设施来探索内核配置和优化空间的关键方法。
  按照Meta所说,他们实现了对 Triton 语言功能的支持并集成到 PyTorch 2 中,为 PyTorch 操作员提供了广泛的覆盖范围。例如,借助 orchInductor,开发人员可以在提前 (AOT) 和即时 (JIT) 工作流程中利用 Triton-MTIA。
  根据Meta的观察,Triton-MTIA 显着提高了开发人员的效率,这使Meta能够扩大计算内核的创作范围并显着扩展对 PyTorch 运算符的支持。
  Meta总结说,迄今为止的结果表明,这款 MTIA 芯片可以处理作为 Meta 产品组件的低复杂性 (LC) 和高复杂性 (HC) 排名和推荐模型。在这些模型中,模型大小和每个输入样本的计算量可能存在约 10 倍到 100 倍的差异。因为Meta控制整个堆栈,所以与商用 GPU 相比,Meta可以实现更高的效率。实现这些收益需要持续的努力,随着Meta在系统中构建和部署 MTIA 芯片,他们承诺将继续提高每瓦性能。
  Meta分享说,早期结果表明,在公司评估的四个关键模型中,这种下一代芯片的性能比第一代芯片提高了 3 倍。在平台层面,与第一代 MTIA 系统相比,凭借 2 倍的设备数量和强大的 2 路 CPU,Meta能够实现 6 倍的模型服务吞吐量和 1.5 倍的每瓦性能提升。为了实现这一目标,Meta在优化内核、编译器、运行时和主机服务堆栈方面取得了重大进展。随着开发者生态系统的成熟,优化模型的时间正在缩短,但未来提高效率的空间更大。
  MTIA 已部署在数据中心,目前正在为生产中的模型提供服务。Meta已经看到了该计划的积极成果,因为它使我们能够为更密集的人工智能工作负载投入和投资更多的计算能力。事实证明,它在针对元特定工作负载提供性能和效率的最佳组合方面与商用 GPU 具有高度互补性。
  Meta最后说,MTIA 将成为公司长期路线图的重要组成部分,旨在为 Meta 独特的人工智能工作负载构建和扩展最强大、最高效的基础设施。
  Meta也正在设计定制芯片,以便与公司现有的基础设施以及未来可能利用的新的、更先进的硬件(包括下一代 GPU)配合工作。实现我们对定制芯片的雄心意味着不仅要投资于计算芯片,还要投资于内存带宽、网络和容量以及其他下一代硬件系统。
  “我们目前正在进行多个计划,旨在扩大 MTIA 的范围,包括对 GenAI 工作负载的支持。”Meta说。


上一篇:传应用材料或搁置加州研发设施建设
下一篇:家电大厂宣布:大力发展芯片

免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。