Nvidia 的市值仅靠 GPU 销售的强力推动就达到了 2 万亿美元,而且该公司在软件方面还有增长空间。该公司希望通过斥资 7 亿美元收购 Run.ai 的协议来填补软件领域的巨大空白。
人工智能部署变得越来越大、越来越复杂,并且分布在更多的 GPU 和加速器上。Run.ai 提供中间件来编排和管理这些部署并确保资源不被浪费。
该中间件包括加速工作负载、管理资源并确保错误不会影响整个人工智能或高性能计算操作的工具。该中间件在 Kubernetes 层上运行,以在 GPU 上虚拟化 AI 工作负载。
Nvidia 的 GPU 是人工智能热潮中的热门产品,客户可以通过所有主要云提供商购买。
收购 Run.ai 将帮助 Nvidia 在不建设数据中心的情况下建立独立的云服务。Nvidia 希望在所有主要云提供商中创建自己的 GPU 和 DGX 系统网络。Run.ai 的中间件将为客户提供一个重要的钩子,以获取更多在线或本地可用的 GPU。
Nvidia 在博客文章中表示:“Run:ai 使企业客户能够管理和优化他们的计算基础设施,无论是在本地、云端还是混合环境中。”
Nvidia 软件堆栈的顶部是 AI Enterprise,其中包括编程、部署和其他工具。它拥有 300 个库和 600 个模型。
该堆栈包括专有的 CUDA 并行编程框架、编译器、AI 大语言模型、微服务和其他工具。该工具集还包括容器工具包,但 Run.ai 的中间件支持开源大语言模型部署。
Nvidia GPU 是云原生的,Google、Amazon 和 Oracle 拥有强大的 Kubernetes 堆栈。Nvidia 已经拥有自己的容器运行时作为 GPU 设备的 Kubernetes 插件,但 Run.ai 将为 AI 容器管理和编排带来更精细的控制。因此,Nvidia 将使用更多此类工具,而不是完全依赖云提供商配置。
问题
为 AI 任务分配多个 GPU 仍然不是一件简单的事情。Nvidia 的 GPU 位于部署在 所有主要云提供商的DGX 服务器盒中 。
Nvidia 的 Triton 推理服务器自动在配置中的多个 GPU 之间分配推理工作负载,但存在 问题。AI 工作负载还需要 Python 代码来指向云运营商,只有在此之后,AI 工作负载才会在云服务中的 Nvidia GPU 上执行。
Nvidia 正在收购 Run.ai。该公司希望减少对云运营商的依赖——这是将客户锁定在其软件堆栈上的又一步骤。客户可以在云端租用 GPU 时间,然后前往 Nvidia 来满足所有软件需求。
同时,它满足了 Nvidia 提供完整软件堆栈的主要需求。
为人工智能的未来做好准备
目前,人工智能训练和推理主要是在数据中心的 GPU 上完成的,但几年后这种情况将会改变。
随着时间的推移,人工智能(特别是推理)将从数据中心转移到边缘。人工智能电脑已经被用于推理。
当前使用耗电 GPU 的人工智能处理状态是不可持续的。这与加密货币面临的问题相同——大量饥饿的 GPU 全速运行复杂的数学运算,并具有快速挖掘结果的能力。
Nvidia 曾尝试与 Blackwell 合作降低其芯片的功耗。但该公司正在添加软件,Run.ai 将帮助协调 GPU 之间的工作负载,并进一步通过网络连接到 AI PC 和边缘设备。
人工智能处理也将在各种路径点上完成,例如电信芯片,当它通过无线和有线网络传输时。然而,要求较高的人工智能工作负载将保留在具有 GPU 的服务器上,而要求较低的工作负载将卸载到边缘。
包括 Rescale 在内的公司已经与其他公司合作,将高优先级任务保留在云中的 GPU 上,而低优先级任务则交付给其他地方的低端芯片。Run.ai 的编排可以通过 速度、能效和资源利用率的强大组合来管理这一点。
Run:ai 堆栈
一个小错误可能会导致整个人工智能操作瘫痪。Run.ai 的堆栈具有三个操作层,可以防止此类事故,并提供安全高效的部署。
最底层是AI集群引擎,它确保GPU得到充分利用并高效运行。
该引擎提供对整个人工智能堆栈的精细洞察,包括其上运行的计算节点、用户和工作负载。公司可以优先考虑特定任务,并确保闲置资源得到利用。
如果 GPU 看起来很忙,Run.ai 将重新分配资源。它还可以根据用户或 GPU 内的细分资源分配 GPU 配额,以确保正确分配。
第二层称为控制平面引擎,提供集群引擎和集群管理工具中使用的资源的精细可见性,以确保满足指标。它还制定有关访问控制、资源管理和工作负载的策略。它还具有报告工具。
顶层包括 API 和开发工具。开发工具还支持开源模型。
与 Nvidia 的新 GPU 保持一致
最大的变数是 Run.ai 是否会利用 Nvidia 最新 Blackwell GPU 中的一些 RAS(可靠性、可用性和可服务性)功能。Blackwell GPU 于 3 月份推出,包含更多细粒度功能,以确保芯片按预期运行。
GPU 具有片上软件来指出健康和不健康的 GPU 节点。Nvidia 副总裁兼 DGX 系统部门总经理Charlie Boyle 表示:“我们正在查看所有这些 GPU 的数据轨迹,每秒监控数千个数据点,以了解如何以最佳方式完成工作。” 在三月份的采访中。
如果 Run.ai 能够利用 Blackwell 的指标或信息,它的效率可能会提高。这种细粒度的报告可以在很大程度上确保人工智能任务顺利运行。
Nvidia 的收购历史
Nvidia 最近一个季度的收入为 221 亿美元,比去年同期增长了 265%。数据中心收入高达 184 亿美元。
该公司正在通过订阅 模式产生软件收入, 并最终希望它将成为一个数十亿美元的市场。收购 Run.ai 将实现这一目标。
英伟达因收购 ARM 失败而声名大噪,而这早在该公司成为价值 2 万亿美元的庞然大物之前。ARM 的收购因垄断和监管问题而受阻,但如果收购成功,这家芯片制造商将主导 CPU 和 GPU 市场。ARM 已经在移动市场占据主导地位,并且正在进军服务器和 PC 市场。
2011 年,这家芯片制造商斥资 3.67 亿美元收购了软件调制解调器制造商 Icera,但结果证明该公司失败了。Nvidia最终放弃了对手机市场的追逐,Icera产品也被放弃。
免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。