特斯拉的Dojo野心

时间:2024-12-30
  Dojo 是特斯拉的超级计算机系统,旨在作为人工智能(特别是 FSD)的训练场。这个名字是对练习武术的空间的致敬。
  超级计算机由数千台称为节点的小型计算机组成。每个节点都有自己的 CPU(中央处理器)和 GPU(图形处理器)。前者负责节点的整体管理,后者负责复杂的事情,例如将任务分成多个部分并同时处理它们。GPU 对于机器学习操作至关重要,例如那些支持模拟中的 FSD 训练的 GPU。它们还为大型语言模型提供支持,这就是生成式 AI 的兴起使 Nvidia 成为全球最有价值的公司的原因。
  甚至特斯拉也购买 Nvidia GPU 来训练其人工智能。
  特斯拉的纯视觉方法是特斯拉需要超级计算机的主要原因。FSD 背后的神经网络经过大量驾驶数据训练,可以识别和分类车辆周围的物体,然后做出驾驶决策。这意味着当 FSD 启动时,神经网络必须以与人类的深度和速度识别能力相匹配的速度持续收集和处理视觉数据。
  换句话说,特斯拉的意思是创造人类视觉皮层和大脑功能的数字复制品。
  为了实现这一目标,特斯拉需要存储和处理从全球汽车收集的所有视频数据,并运行数百万次模拟来根据数据训练其模型。
  特斯拉似乎依赖 Nvidia 为其当前的 Dojo 训练计算机提供动力,但它不想孤注一掷——尤其是因为 Nvidia 芯片价格昂贵。特斯拉还希望制造出更好的产品,以增加带宽并减少延迟。这就是为什么这家汽车制造商的 AI 部门决定推出自己的定制硬件程序,旨在比传统系统更有效地训练 AI 模型。
  该计划的核心是特斯拉专有的 D1 芯片,该公司表示该芯片针对人工智能工作负载进行了优化。
  特斯拉与苹果的观点类似,认为硬件和软件应该设计成协同工作。这就是为什么特斯拉正在努力摆脱标准 GPU 硬件,设计自己的芯片来为 Dojo 提供支持。
  特斯拉在 2021 年 AI Day 上发布了 D1 芯片,这是一款手掌大小的硅片。D1 芯片至少在今年 5 月就已投入生产。台湾半导体制造公司 (TSMC) 使用 7 纳米半导体节点制造该芯片。特斯拉称,D1 拥有 500 亿个晶体管和 645 平方毫米的大芯片尺寸。这一切都表明,D1 有望非常强大和高效,并能快速处理复杂任务。
  “我们可以同时进行计算和数据传输,我们的定制 ISA(即指令集架构)已针对机器学习工作负载进行了全面优化,”前 Autopilot 硬件高级总监 Ganesh Venkataramanan 在特斯拉 2021 年 AI Day 上表示。“这是一种纯粹的机器学习。”
  不过,D1 的性能仍不如 Nvidia 的 A100 芯片,后者也是由台积电采用 7 纳米工艺制造的。A100 包含 540 亿个晶体管,芯片尺寸为 826 平方毫米,因此性能略优于特斯拉的 D1。
  为了获得更高的带宽和更高的计算能力,特斯拉的人工智能团队将 25 个 D1 芯片融合成一个区块,以作为一个统一的计算机系统运行。每个区块的计算能力为 9 千万亿次浮点运算和每秒 36 兆兆字节的带宽,并包含电源、冷却和数据传输所需的所有硬件。你可以将区块想象成一台由 25 台小型计算机组成的自给自足的计算机。其中六块区块组成一个机架,两块机架组成一个机柜。十个机柜组成一个 ExaPOD。在 2022 年人工智能日,特斯拉表示 Dojo 将通过部署多个 ExaPOD 来扩展。所有这些加在一起构成了超级计算机。
  特斯拉还在研发下一代 D2 芯片,旨在解决信息流瓶颈问题。D2 芯片不会将各个芯片连接起来,而是将整个 Dojo 芯片放在一块硅片上。
  特斯拉尚未确认已订购或预计收到的 D1 芯片数量。该公司也没有提供 Dojo 超级计算机在 D1 芯片上运行所需的时间表。
  在回应6 月份 X 上的一篇帖子时,马斯克表示:“埃隆正在德克萨斯州建造一个巨大的 GPU 冷却器”,特斯拉的目标是在未来 18 个月左右实现“一半特斯拉 AI 硬件,一半 Nvidia/其他”。根据马斯克 1 月份的评论,“其他”可能是 AMD 芯片。
  控制自己的芯片生产意味着特斯拉有朝一日能够以低成本为人工智能训练程序快速增加大量计算能力,特别是在特斯拉和台积电扩大芯片生产规模的情况下。
  这也意味着特斯拉未来可能不需要依赖英伟达的芯片,因为英伟达的芯片价格越来越高,而且难以保证安全。
  在特斯拉第二季度财报电话会议上,马斯克表示,对 Nvidia 硬件的需求“如此之高,以至于很难获得 GPU”。他说他“非常担心我们是否能在需要时获得稳定的 GPU,因此我认为这要求我们在 Dojo 上投入更多精力,以确保我们拥有所需的训练能力。”
  尽管如此,特斯拉今天仍在购买 Nvidia 芯片来训练其 AI。6 月,马斯克在 X 上发帖称:
  我说过,特斯拉今年将在人工智能方面投入约 100 亿美元,其中约有一半是内部支出,主要是特斯拉设计的人工智能推理计算机和所有汽车中的传感器,以及 Dojo。在构建人工智能训练超级集群方面,Nvidia 硬件约占成本的 2/3。我目前对特斯拉今年收购 Nvidia 的最佳猜测是 30 亿至 40 亿美元。
  “推理计算”是指特斯拉汽车实时执行的人工智能计算,与 Dojo 负责的训练计算是分开的。
  Dojo 是一次冒险的赌注,马斯克曾多次表示特斯拉可能不会成功。
  从长远来看,特斯拉理论上可以基于其人工智能部门创建新的商业模式。马斯克表示,Dojo 的第一个版本将针对特斯拉计算机视觉标记和训练进行量身定制,这对于 FSD 和训练特斯拉的人形机器人Optimus非常有用。但它在其他方面用处不大。
  马斯克表示,未来版本的 Dojo 将更适合通用 AI 训练。一个潜在的问题是,几乎所有的 AI 软件都是为与 GPU 配合使用而编写的。使用 Dojo 训练通用 AI 模型需要重写软件。
  也就是说,除非特斯拉出租其计算能力,就像 AWS 和 Azure 出租云计算能力一样。马斯克在第二季度财报中还指出,他认为“Dojo 是一条与 Nvidia 竞争的道路。”
  摩根士丹利 (Morgan Stanley) 2023 年 9 月的一份报告预测,Dojo 可以通过以机器人出租车和软件服务的形式开辟新的收入来源,为特斯拉的市值 增加 5000 亿美元。
  简而言之,Dojo 的芯片是汽车制造商的一份保险单,但却可以带来红利。
  路透社去年报道称,特斯拉将于 2023 年 7 月开始生产 Dojo,但马斯克在2023 年 6 月的一篇帖子中暗示,Dojo 已经“上线并运行了几个月的有用任务”。
  大约在同一时间,特斯拉表示,预计到 2024 年 2 月,Dojo 将成为五大最强大的超级计算机之一——这一壮举尚未公开披露,因此我们怀疑它是否已经实现。
  该公司还表示,预计 Dojo 的总计算能力将在 2024 年 10 月达到 100 百亿亿次浮点运算。(1 百亿亿次浮点运算相当于每秒 1 千万亿次计算机操作。要达到 100 百亿亿次浮点运算,并假设一台 D1 可以达到 362 万亿次浮点运算,特斯拉将需要超过 276,000 个 D1,或大约 320,500 个 Nvidia A100 GPU。)
  特斯拉还于 2024 年 1 月承诺斥资5 亿美元在其位于纽约布法罗的超级工厂建造一台 Dojo 超级计算机。
  2024 年 5 月,马斯克指出,特斯拉奥斯汀超级工厂的后部将保留用于“超密集、水冷超级计算机集群”。
  就在特斯拉第二季度财报电话会议结束后,马斯克在 X 上发帖称,该汽车制造商的人工智能团队正在使用特斯拉 HW4 人工智能计算机(更名为 AI4),这是特斯拉汽车上的硬件,与 Nvidia GPU 一起进行训练循环。他指出,细分大约是 90,000 台 Nvidia H100 加上 40,000 台 AI4 计算机。
  “到今年年底,Dojo 1 将拥有大约 8000 H100 的在线训练量,”他继续说道。“规模不大,但也不小。”
上一篇:三星市值,缩水1100亿美元
下一篇:特斯拉Cybertruck明年1月国内开售?官方回应了

免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。