NVIDIA 与 Meta 合作，宣布推出 Llama 3 的加速版本

时间：2024-04-23

　　该版本针对 NVIDIA GPU 进行了优化，适用于云、数据中心、边缘和 PC 环境。
　　开发人员可以在 ai.nvidia.com 上访问 Llama 3，它作为 NVIDIA NIM 微服务提供，具有标准 API，可实现部署灵活性。
　　Meta 透露，其工程师在由 24,576 个NVIDIA H100 Tensor Core GPU组成的计算机集群上训练 Llama 3 ，该计算机集群与 NVIDIA Quantum-2 InfiniBand 网络相连。
　　Meta 工程师在包含 24,576 个 NVIDIA H100 Tensor Core GPU（与 NVIDIA Quantum-2 InfiniBand 网络连接）的计算机集群上训练 Llama 3。在 NVIDIA 的支持下，Meta 为其旗舰法学硕士调整了网络、软件和模型架构。
　　为了进一步推进生成式人工智能的最先进水平，Meta 最近描述了将其基础设施扩展到 350,000 个 H100 GPU 的计划。
　　在 NVIDIA GPU 上加速的 Llama 3 版本现已推出，可用于云、数据中心、边缘和 PC。
　　开发人员可以通过浏览器在 ai.nvidia.com上试用 Llama 3 。它被打包为 NVIDIA NIM 微服务，具有可部署在任何地方的标准应用程序编程接口。
　　企业可以使用 NVIDIA NeMo 对其数据进行微调 Llama 3，这是一种适用于法学硕士的开源框架，是安全且受支持的 NVIDIA AI Enterprise 平台的一部分。自定义模型可以使用 NVIDIA TensorRT-LLM 进行推理优化，并使用 NVIDIA Triton 推理服务器进行部署。
　　Llama 3 还在 NVIDIA Jetson Orin 上运行，用于机器人和边缘计算设备，创建像 Jetson AI 实验室中的交互式代理。
　　此外，适用于工作站和 PC 的 NVIDIA RTX 和 GeForce RTX GPU 可加快 Llama 3 上的推理速度。这些系统为开发人员提供了超过 1 亿个 NVIDIA 加速系统的目标
　　为聊天机器人部署 LLM 的最佳实践涉及低延迟、良好的读取速度和最佳 GPU 使用之间的平衡，以降低成本。
　　这样的服务需要以大约用户阅读速度的两倍（大约每秒 10 个令牌）提供令牌（大致相当于法学硕士的单词）。
　　应用这些指标，在使用具有 700 亿个参数的 Llama 3 版本的初始测试中，单个 NVIDIA H200 Tensor Core GPU 每秒生成约 3,000 个令牌，足以为约 300 个并发用户提供服务。
　　这意味着配备 8 个 H200 GPU 的单个 NVIDIA HGX 服务器每秒可提供 24,000 个令牌，通过同时支持 2,400 多个用户来进一步优化成本。
　　对于边缘设备，具有 80 亿个参数的 Llama 3 版本在 Jetson AGX Orin 上每秒生成高达 40 个令牌，在 Jetson Orin Nano 上每秒生成 15 个令牌。

上一篇：超低功耗、超高精度，三星GalaxyFit3采用汇顶GH3026健康监测芯片

下一篇：TDK推出更紧凑的通用型焊片式电容器

免责声明: 凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处。非本网作品均来自互联网，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。