一批AI芯片公司,向英伟达发起挑战

时间:2025-02-12
      根据外媒报道,一家旨在与 Nvidia (竞争的初创芯片制造商周二表示,已融资 2,350 万美元,用于扩大其美国产人工智能芯片的生产。
  参与此轮融资的投资者包括以支持埃隆·马斯克的公司而闻名的 Valor Equity Partners、Atreides Management、Flume Ventures 和 Resilience Reserve。
  Positron 的芯片用于推理,即使用 AI 模型的阶段,而不是用于训练 AI 模型。目前,对训练芯片的需求更高,但分析师预测,随着更多 AI 应用的部署,对推理芯片的需求可能会超过训练芯片。
  随着企业努力应对 AI 资本支出、不断上升的成本和供应商锁定,Positron 为客户提供了高性能、节能的替代方案。Positron 的 Atlas 系统目前在推理方面实现了比 Nvidia H100 GPU 更高的 3.5 倍每美元性能和 3.5 倍的功率效率。Positron 的 FPGA 服务器利用内存优化架构,带宽利用率达到 93% 以上(而 GPU 仅为 10-30%),支持万亿参数模型,同时提供与 Hugging Face 和 OpenAI API 的即插即用兼容性。与 H100/H200 设置相比,这些系统的推理速度提高了 70%,功耗降低了 66%,将数据中心资本支出削减了 50%。
  除了规格之外(在受全球政治和经济紧张局势影响的生态系统中,这些规格同样重要),该公司的第一代 Atlas 系统完全在美国设计、制造和组装。
  Nvidia 挑战者 Groq 融资15 亿美元
  美国人工智能芯片制造商 Groq 报告称,该公司已获得沙特阿拉伯 15 亿美元的承诺。借助这笔资金,这个中东国家希望扩大先进人工智能芯片的供应。
  这家硅谷公司由前谷歌员工、TPU 的创造者乔纳森·罗斯创立,以生产优化速度和执行预训练模型命令的推理芯片而闻名。
  分析师认为 Groq 是Nvidia 的潜在竞争对手。后者目前是 AI 革命的最大赢家。凭借 Groq 及其自主研发的语言处理单元 (LPU),一个强大的竞争对手已经酝酿已久。15 亿美元投资的消息进一步证实了这一观点。
  LPU 计划于 2024 年初推出。虽然其他潜在的 Nvidia 竞争对手专注于训练和推理,但 Groq 的目标非常明确:Groq 是快速 AI 推理。通过与 OpenAI 兼容的 API 链接,该公司旨在吸引用户远离使用 GPT-4o 和 o1 等封闭模型。
  语言处理单元 (LPU) 的开发由前谷歌 TPU 设计师 Jonathan Ross 领导。LPU 于 2024 年初推出,可在线试用。与其他潜在的 Nvidia 竞争对手瞄准训练和推理相比,Groq 的目标很明确:“Groq 是快速 AI 推理”。得益于与 OpenAI 兼容的 API 连接,该公司的目标是让用户不再使用 GPT-4o 和 o1 等封闭模型。那么,与 Meta 和 DeepSeek 等公司合作的机会就很大了。
  这已经表明,Groq 可能并不打算直接与 Nvidia 竞争。自从我们一年前报道该公司以来,我们注意到像 Groq 这样的公司更愿意直接针对最终用户,而将硬件本身抽象出来。最终目标是尽可能降低延迟。如果您只是想在没有本地硬件的情况下快速运行 Llama 3.3 70B,那么这可能是正确的产品。鉴于 Groq 没有提供有关主要硬件交易的明确信息,我们只能假设除了国家实验室的实验和通过其 API 接触 Groq 的客户之外,这样的交易并不多。
  然而,LPU 是另一个调整 GPU 以适应企业实际计算需求的例子。“Groq LPU 架构始于软件优先原则”,该公司表示,这导致了专用于线性代数的芯片的诞生——“人工智能推理的主要要求”。实际上,编译器已经确定了芯片布局,没有路由器或控制器阻碍硬件与自身通信。用 Groq 的话来说,LPU 是一条“装配线”或“传送带”,将数据从其各种片上内存模块和芯片中转移出来。这是为了避免该公司所谓的 Nvidia 的“中心辐射”方法所固有的 GPU 开销。
  最终的结果是,该芯片能够达到 750 TOPS。每个芯片包含 230 MB 的 SRAM 和 80 TB/s 的片上内存带宽。鉴于一个 GroqChip 只是 GroqRack 计算集群的一部分,这些基本规格最终并不是该公司最突出的。它最出名的就是快速推理。也许大规模的人工智能采用将使 Groq 找到自己的利基市场,并向世界展示它的成功。到目前为止,我们只能根据撰写本文时对基于 Groq 的 LLM 发出的 1,425,093,318 个请求来判断。
  Meta 欲收购韩国 AI 芯片公司 Furiosa AI
  据报道,Meta Platforms(Meta)正在考虑收购韩国AI半导体设计初创公司Furiosa AI。
  11日(当地时间),美国经济媒体《福布斯》援引消息人士的话报道称,Meta 正在商谈收购 Furiosa AI 事宜,谈判最早可能在本月完成。
  Furiosa AI 是一家设计数据中心 AI 半导体的无晶圆厂公司(专门从事半导体设计),由曾在三星电子和 AMD 任职的 CEO 白俊浩于 2017 年创立。继 2021 年推出首款 AI 半导体“Warboy”后,该公司于去年 8 月推出了下一代 AI 半导体“Renegade”(RNGD)。
  目前已有多家企业对Furiosa AI表现出兴趣,据悉Meta是其中之一。有分析认为,Meta收购Furiosa AI是为了巩固自身AI芯片研发能力。
  目前,Meta 正花费巨额资金批量采购英伟达 AI 芯片,并与博通合作开发定制 AI 芯片。该公司今年计划投资高达 650 亿美元(约 93 万亿韩元),包括用于 AI 研究和新数据中心的建设。
  Furiosa AI 迄今已筹集约 1.15 亿美元(约 1671 亿韩元),并于本月初从风险投资公司 Krit Ventures 获得了额外的 20 亿韩元投资。Naver 和 DSC Investment 参与了初始融资,据报道,首席执行官 Baek Joon-ho 持有该公司 18.4% 的股权。
  OpenAI 自研芯片,挑战 Nvidia
  大型科技公司和人工智能初创公司仍然在很大程度上依赖 Nvidia 的芯片来训练和运行最先进的人工智能模型。然而,这种情况可能很快就会改变。OpenAI 正在带头开展一项大规模的全行业努力,将更便宜的定制人工智能加速器推向市场。如果成功,这一举措可能会削弱 Nvidia 在人工智能硬件领域的主导地位,使该公司陷入更艰难的市场。
  OpenAI 即将推出其首款定制设计的 AI 芯片。路透社预计,该公司将在未来几个月将芯片设计发送给台积电进行验证,然后于 2026 年开始量产。该芯片已进入流片阶段,但 OpenAI 可能需要大量员工才能在 AI 加速器市场实现完全自给自足。
  这款定制芯片由 Richard Ho 领导的“小型”内部团队设计,他一年多前离开谷歌加入 OpenAI。这个 40 人团队与 Broadcom 合作,Broadcom 是一家备受争议的公司,在创建定制 ASIC 解决方案方面有着良好的记录。两家公司于 2024 年开始谈判以芯片为重点的合作伙伴关系,最终目标是打造新的 AI 芯片。
  业内消息人士称,OpenAI 的设计既可以训练也可以运行 AI 模型,但该公司最初只会将其有限量地用于 AI 推理任务。台积电将在其 3nm 技术节点上制造最终的芯片,OpenAI 预计它将包含一定数量的高带宽内存,就像任何其他主要的 AI(或 GPU)硅片设计一样。
  尽管在未来几个月内 OpenAI 的芯片在公司基础设施中只扮演次要角色,但在不久的将来,它可能会成为一股重大的颠覆性力量。新设计首先需要顺利通过流片阶段,而 Ho 的团队需要修复在初始制造测试中发现的任何硬件错误。
  许多科技公司都在积极努力用自己的定制 AI 加速解决方案取代 Nvidia 产品,但这家 GPU 制造商仍占据着约 80% 的市场份额。微软、谷歌、Meta 和其他大型科技巨头正在雇用数百名工程师来解决芯片问题,而 OpenAI 在时间和员工规模方面都排在最后。
  简而言之,OpenAI 需要的不仅仅是目前由 Richard Ho 领导的开发 AI 芯片原型的小型内部团队。在内部,该芯片项目被视为不断发展的 AI 领域未来战略举措的关键工具。在等待台积电的设计验证的同时,OpenAI 工程师已经在计划更先进的迭代,以实现更广泛的应用。
  英伟达的弱点,芯片公司群起而攻之
  虽然没有哪家公司像 Nvidia 那样,市值飙升至数万亿美元,但 IBM 和(最近)英特尔等公司知道强者确实会衰落。当一个人处于巅峰时,自满情绪就会渗透进来。当 Nvidia 故事中所有关键人物都早早退休享受丰厚的退休金时,可能会发生人才流失。
  Nvidia 的另一个潜在弱点在于其实际产品:GPU。它们是功能极其强大的通用并行处理器。它们被设计为比世界上任何常见的处理器都更能处理并行化。然而,它们似乎已经达到了极限。最新的两代芯片(Ada Lovelace 和 Blackwell)已经达到了台积电的最大标线尺寸。
  换句话说,实际硅片无法超越其当前规模。Blackwell 应该通过融合芯片来解决这个问题,但这些已经导致了代价高昂的延迟。它们可能也会出现在下一代 Rubin 架构及以后的架构中。除此之外,GPU 的运行方式存在固有的开销,而这些开销是潜在竞争对手无法削减的。GPU 具有多面性,之所以被选为 AI 引擎,并不是因为它们被设计为高效处理 GenAI 工作负载,而是因为它们是手头上最接近的计算单元,而且具有可扩展性。
  推翻 Nvidia 的道路是采用特定的 GenAI 中心架构。这种芯片本质上是为 AI 革命量身定制的,拥有随之而来的所有效率和速度。他们的主要优势是简单地摆脱所有 GPU 开销并砍掉使 Nvidia 硬件如此通用的任何不必要的硅片。有些公司正在寻求这样做。
  一、Cerebras:晶圆级的“芯片上的模型”
  Cerebras Systems做出的承诺确实很高。这家美国公司拥有“世界上最快的推理速度”——比 GPU 快 70 倍——已成为 Nvidia 最突出的替代品之一。如果有人认为 Blackwell 芯片很大,那就看看 Cerebras 的庞然大物吧。他们的处理器是“晶圆级”的。这意味着它们是矩形硅片,大小几乎与代工厂标准 300 毫米晶圆尺寸允许的大小相当。
  单个 Cerebras WSE-3 带有 44GB 的片上内存,大约是 Nvidia H100 的 880 倍。真正的胜利是它的内存带宽。这通常是 GenAI 训练和推理的瓶颈:每秒 21 PB,这个数字比 H100 高出七千倍。当然,这都是理论上的吞吐量。即使是所谓的同类基准测试也无法告诉您需要多少优化才能利用这些强大的规格。
  Cerebras 的客户名单令人印象深刻,但更让人对公司的未来充满信心。Meta、Docker、Aleph Alpha 和纳斯达克等公司都在使用该公司的技术。这些可能与 Cerebras 的一项或多项产品有关。这些范围从包罗万象的 AI 模型服务到按小时付费或按模型付费的方案,以进行大规模训练、微调和/或推理。Llama 3.3 系列模型、Mistral 和 Starcoder 成为与 Cerebras 兼容的 LLM 的典范,并具有真正的影响力。
  Cerebras 极有可能还需要超过迄今为止在六轮融资中筹集的 7.2 亿美元的资金。考虑到 Nvidia 每年在研发上花费高达 800 亿美元,其晶圆级竞争对手最终的 IPO 可能会缩小这一差距。最终,性能和效率也可能对 Cerebras 有利。
  显而易见的是,大量的片上内存使芯片设计比通过以太网或 Nvidia 自己的 InfiniBand 连接在一起的 GPU 集群更接近 AI 模型所需的营养。毕竟,权重和激活就在那里,以接近光速的速度提供,而不必通过相对缓慢的互连。我们在这里谈论的是纳秒的差异,但仍然是数量级的。当你把几个月的 AI 训练和推理加在一起时,这种差距就变得巨大了。
  二、SambaNova:数据是关键
  另一个挑战者则走上了一条不同的架构路线:SambaNova。四年前,在 ChatGPT 出现之前,该公司已经积累了 10 亿美元。与 Cerebras 一样,目前的产品也直指 Nvidia 的 GPU 解决方案,并突出了其固有的 AI 缺陷。与此同时, SambaNova将其 RDU(可重构数据流单元)列为“为下一代 AI 工作负载(称为 Agentic AI)而构建”。换句话说,该公司围绕模型的计算图来组织其硬件,而不是依赖顺序指令。
  据称,单个 SN40L RDU 的内存中可以容纳“数百个模型”。这归功于其庞大的 1.5 TB DRAM、64GB 同封装 HBM 和超高速 520MB SRAM 缓存。单个 SN40L 节点可以以每秒超过 1TB 的速度传输数据。从表面上看,Nvidia 的最新一代 GPU Blackwell 已达到 8 TB/s 的速度。尽管如此,就目前情况而言,SambaNova 声称其数据流架构可实现地球上 Llama 3.1 405B 上最快的推理速度。据该公司称,RDU 在处理数据方面的内置效率意味着,在“一小部分占用空间”的情况下,可以获得比传统 GPU 更高的性能。
  目前尚不清楚 SambaNova 在企业中的实际部署情况。阿贡国家实验室和劳伦斯利弗莫尔等国家实验室似乎很支持,一些专门针对医疗保健的公司也是如此。SambaNova 的最终目标是为企业提供本地 AI 培训解决方案。尽管资金雄厚,但我们需要看到更多大牌公司涌向 SambaNova,才能更加确定其长期可行性——无论是否通过官方公告。
  三、Etched:一款主宰市场的transformer ASIC
  与变压器模型最接近的类比是transformer ASIC。正如 Nvidia 挑战者 Etched 对其 Sohu 芯片的描述,变压器是“蚀刻在硅片上的”。它看起来很像 GPU,其 VRM 围绕着硅片,呈矩形附加卡形状。8 个变压器似乎比 8 个 Nvidia B200 GPU 的吞吐量要小,更不用说 8 个早期的 H100 了。最终结果是:使用 Llama 70B 每秒可处理 500,000 个令牌。
  144GB HBM3E 仅向单个“核心”提供数据,实际上是将 LLM 的架构转移到硅片上。据说支持甚至达到 100 万亿个参数模型,远远超出了目前最先进的 LLM。完全开源的软件堆栈应该会吸引那些不愿意坚持使用 Nvidia 封闭的 CUDA 花园的人。
  至关重要的是,Etched 击中了Nvidia 的痛处。如前所述,GPU 已经达到了极限。如果不采用一些技巧,比如构建通常达不到硅片速度的互连,它们就无法发展。而且,对于一些竞争对手来说,它们并不像 Etched 所做的那样专注于算法。然而,有一件事仍不清楚,那就是搜狐究竟何时会出现。在 2024 年中期引起轰动之后,事情变得相当平静。
  四、AMD、英特尔、谷歌、亚马逊……
  我们应该注意其他一些更为人熟知的潜在 Nvidia 竞争对手。最明显的是 AMD,它将其 Instinct MI 系列加速器打造为最接近 Nvidia GPU 的嵌入式产品。该公司的一些型号甚至将 Instinct 与 Epyc 集成到芯片设计中。这融合了 GPU 和 CPU 功能,可提供有前途的一体化 AI 套件。问题在于,其 ROCm 软件似乎未被充分采用和重视。CUDA 占主导地位,Nvidia 也是如此。为什么要为不像其竞争对手那样无处不在的芯片开发框架或模型管道?
  英特尔也面临类似的问题,甚至更为严重。过去两年,英特尔的 Gaudi GPU 产品线并未产生推动 AMD 股价上涨的那种需求。除此之外,随着首席执行官帕特·基辛格 (Pat Gelsinger) 的离职,英特尔似乎失去了方向,在其他细分市场面临严峻挑战时,该公司在 AI 方面表现得毫无作为。如果没有业绩领先优势或 AMD 所拥有的挑战者地位,改变命运的希望就很渺茫。
  与此同时,云提供商是 Nvidia 最大的客户之一。他们都希望摆脱对 AI 芯片巨头的依赖。他们正在通过打造自己的替代方案来实现这一目标。谷歌多年来一直这样做,其张量处理单元 (TPU) 是那些希望在云端运行 AI 的人的首选。然而,如果它们只能通过 Google Cloud 获得,它们就永远不会无处不在。
  AWS 令人印象深刻的 Trainium 芯片和 Inferentia 系列也是如此,它们都可通过 AWS 获得。这些产品也永远不会在亚马逊拥有的数据中心之外找到。谷歌和 AWS(微软可能会效仿)需要构建一个开发人员堆栈来抽象架构。这通常意味着向 Nvidia 选项的可移植转变永远不会遥远。毕竟,只有当他们本来就有可能选择你的堆栈时,你才能吸引主要受众。
上一篇:特斯拉上海储能超级工厂正式投产
下一篇:台积电将有三项重大事项宣布

免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。