NVIDIA 与 Meta 合作,宣布推出 Llama 3 的加速版本

时间:2024-04-23
  该版本针对 NVIDIA GPU 进行了优化,适用于云、数据中心、边缘和 PC 环境。
  开发人员可以在 ai.nvidia.com 上访问 Llama 3,它作为 NVIDIA NIM 微服务提供,具有标准 API,可实现部署灵活性。
  Meta 透露,其工程师在由 24,576 个NVIDIA H100 Tensor Core GPU组成的计算机集群上训练 Llama 3 ,该计算机集群与 NVIDIA Quantum-2 InfiniBand 网络相连。
  Meta 工程师在包含 24,576 个 NVIDIA H100 Tensor Core GPU(与 NVIDIA Quantum-2 InfiniBand 网络连接)的计算机集群上训练 Llama 3。在 NVIDIA 的支持下,Meta 为其旗舰法学硕士调整了网络、软件和模型架构。
  为了进一步推进生成式人工智能的最先进水平,Meta 最近描述了将其基础设施扩展到 350,000 个 H100 GPU 的计划。
  在 NVIDIA GPU 上加速的 Llama 3 版本现已推出,可用于云、数据中心、边缘和 PC。
  开发人员可以通过浏览器在 ai.nvidia.com上试用 Llama 3 。它被打包为 NVIDIA NIM 微服务,具有可部署在任何地方的标准应用程序编程接口。
  企业可以使用 NVIDIA NeMo 对其数据进行微调 Llama 3,这是一种适用于法学硕士的开源框架,是安全且受支持的 NVIDIA AI Enterprise 平台的一部分。自定义模型可以使用 NVIDIA TensorRT-LLM 进行推理优化,并使用 NVIDIA Triton 推理服务器进行部署。
  Llama 3 还在 NVIDIA Jetson Orin 上运行,用于机器人和边缘计算设备,创建像 Jetson AI 实验室中的交互式代理。
  此外,适用于工作站和 PC 的 NVIDIA RTX 和 GeForce RTX GPU 可加快 Llama 3 上的推理速度。这些系统为开发人员提供了超过 1 亿个 NVIDIA 加速系统的目标
  为聊天机器人部署 LLM 的最佳实践涉及低延迟、良好的读取速度和最佳 GPU 使用之间的平衡,以降低成本。
  这样的服务需要以大约用户阅读速度的两倍(大约每秒 10 个令牌)提供令牌(大致相当于法学硕士的单词)。
  应用这些指标,在使用具有 700 亿个参数的 Llama 3 版本的初始测试中,单个 NVIDIA H200 Tensor Core GPU 每秒生成约 3,000 个令牌,足以为约 300 个并发用户提供服务。
  这意味着配备 8 个 H200 GPU 的单个 NVIDIA HGX 服务器每秒可提供 24,000 个令牌,通过同时支持 2,400 多个用户来进一步优化成本。
  对于边缘设备,具有 80 亿个参数的 Llama 3 版本在 Jetson AGX Orin 上每秒生成高达 40 个令牌,在 Jetson Orin Nano 上每秒生成 15 个令牌。

上一篇:超低功耗、超高精度,三星GalaxyFit3采用汇顶GH3026健康监测芯片
下一篇:TDK推出更紧凑的通用型焊片式电容器

免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。