亚马逊CEO解析：为何自研芯片？考量四个指标！

时间：2023-04-21

亚马逊(首席执行官安迪·贾西 (Andy Jassy) 在他的第二份年度致股东信中为投资者提供了大量有价值的花絮。其中之一是关于热门的半导体行业，这是所有计算技术的基石。实际上，亚马逊多年来一直在投资自己的内部半导体设计，并且越来越关注高性能机器学习处理器，这些处理器为 ChatGPT 等大型语言模型 (LLM) 服务提供动力。
Nvidia 的股票最近一直在蓬勃发展，这是基于对其 LLM 长期收入增长前景的乐观情绪，因为其图形处理单元 (GPU) 在该部门处于领先地位。但亚马逊的芯片投资是否会给 Nvidia 带来麻烦？
Amazon Web Services (AWS) 是快速发展的云行业的先驱。今天，AWS 为亚马逊帝国买单，并帮助资助大量其他业务投资。但是亚马逊是如何决定投资半导体设计这样的新企业的呢？正如 Jassy 在 2022 年年度股东信中解释的那样.
显然，当 AWS 考虑设计数据中心芯片（为云提供动力的计算硬件）时，这四个问题的答案都是“是” 。为了启动其芯片梦，它于 2015 年以 3.5 亿美元的价格悄悄收购了以色列芯片设计初创公司 Annapurna Labs。
Annapurna Labs 为 AWS 设计了许多芯片，包括其 Graviton 处理器——基于 ARM 的芯片替代英特尔和AMD提供的 CPU 。但是，Nvidia 的 GPU 等计算加速器如何为 ChatGPT 等新的人工智能服务提供动力？
这就是 AWS Trainium 和 Inferentia 芯片的用武之地。这些计算加速器在纯粹的计算能力方面都无法与 Nvidia 最新和最好的设计相媲美（Alphabet的Google Cloud 内部芯片也是如此）。但这并不是亚马逊在开发 Trainium 和 Inferentia 时的主要目标，成本效益是他们目标。
正如他们的名字所暗示的那样，Trainium 旨在使用大量数据来训练LLM如何表现。Inferentia 用于推理，这是在训练 AI 模型后完成大量计算工作的地方。推理是受过训练的 AI 程序如何根据它已经学到的知识做出决定（比如当你向 ChatGPT 提问时，它会给出答案）。
AWS 自己使用 Trainium 和 Inferentia，但也向客户提供更具成本效益的加速器。Jassy 在致股东的信中表示，与类似的 GPU 系统相比，使用 Trainium 训练的普通人工智能模型“速度提高了 140%”，“成本降低了 70%”。至于人工智能推理，Jassy 表示，自 2019 年推出以来，其 Inferentia 芯片已经“为亚马逊等公司节省了超过一亿美元的资本支出”。
简而言之，亚马逊在 2015 年对 Annapurna 的 3.5 亿美元投资看起来将为 AWS 和股东带来令人难以置信的长期回报。
竞争是一件好事，因为它让商业领袖不断推动他们的公司不断改进。Nvidia 将从其面向高级 AI 的最尖端 GPU 中大赚一笔，但它还有许多其他芯片也可以不断改进。例如，在 3 月，它推出了面向 AI 推理的新 L4 GPU，并配有软件堆栈，以帮助优化各种 AI 工作负载并降低云提供商和客户的总拥有成本。
事实上，虽然亚马逊 AWS 和其他云提供商通过宣布他们自己的芯片设计来搅局，但 AWS 仍然是 Nvidia 的主要客户。AWS 的内部芯片目前在这家云巨头的运营中占据了一小部分。
当然，来自同行科技巨头的日益激烈的竞争对 Nvidia 来说是一个很大的风险。但它远非毫无防备。此外，云计算和人工智能仍处于采用曲线的早期阶段。正如 Jassy 在他的股东信的结尾所指出的那样，尽管 2022 年 AWS 的收入为 800 亿美元，但“全球 IT 支出的大约 90%”仍然是在尚未迁移到云端的本地系统中产生的。
换句话说，尽管亚马逊 AWS 在内部设计芯片方面取得了快速进展，但仍有大量新业务可以开展。英伟达会没事的。
亚马逊致股东信中关于芯片的描述摘译：
芯片开发就是一个很好的例子。在去年的信中，我提到了我们对名为 Graviton 的通用 CPU 处理器的投资。基于 Graviton2 的计算实例的性价比比最新一代基于 x86 的实例高出 40%；2022 年，我们交付了 Graviton3 芯片，性能比 Graviton2 处理器高 25%。
此外，随着机器学习的采用持续加速，客户渴望成本更低的 GPU（最常用于机器学习的芯片）。AWS 几年前开始投资这些专门用于机器学习训练和推理的芯片（推理是机器学习模型提供的预测或答案）。我们在 2022 年交付了第一款训练芯片（“Trainium”）；对于最常见的机器学习模型，基于 Trainium 的实例比基于 GPU 的实例快 140%，而成本最多降低 70%。
大多数公司仍处于训练阶段，但是当他们开发模型并逐步进入大规模生产阶段时，他们会发现大部分成本都在推理上，因为模型是定期训练的，而推理作为其相关应用程序一直在发生我们在 2019 年推出了我们的第一款推理芯片（“Inferentia”），它们已经为亚马逊等公司节省了超过一亿美元的资本支出。
我们刚刚推出的 Inferentia2 芯片的吞吐量比我们的第一款 Inferentia 处理器高四倍，延迟低十倍。随着机器学习即将到来的巨大增长，客户将能够以更低的成本使用 AWS 的训练和推理芯片完成更多工作。
我们在这方面的创新还没有结束，这项长期投资应该会为客户和 AWS 带来丰硕的成果。AWS 仍处于发展的早期阶段，并有机会在未来十年实现非同寻常的增长。
综合自fool

上一篇：工信部：我国算力规模排名全球第二，年增长率近30%

下一篇：一颗拥有1000多个RISC-V内核的AI芯片

免责声明: 凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处。非本网作品均来自互联网，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。