AI训练芯片,三巨头欲打破英伟达垄断

时间:2022-06-30  作者:holle
    英伟达因其灵活、易于编程和强大的硬件而成为人工智能训练工作负载的王者。但这可能会发生变化,因为 AI 非常动态,并且各种不同的 AI 工作负载正在分叉。训练不是一个单一的实体,因此最适合您的工作负载的硬件和软件解决方案可能与其他工作负载的不同。结合模型演进的快速步伐,一些 AI 训练硬件开始寻找利基市场。
    今天,我们将剖析几家将其性能提交给 MLPerf 2.0 的主要参与者,以及该硬件可以找到利基的地方。我们还将讨论机器学习模型的一些演变。
    在深入研究提交之前,我们想指出一些事情。这张来自 ML Commons 的图表显示了任何具有 8 个处理器/加速器的系统的峰值性能以及它们在一些领先模型中的性能。然后将其与“摩尔定律”IE 每 2 年翻一番的通俗定义进行比较。
    图片
    这些结果说明了一个非常重要的细节。虽然节点会随着时间的推移而缩小并且架构的变化很重要,但人工智能中最重要的一个因素是软件。根据型号的不同,在 3.5 年内性能提升高达 8 倍。Nvidia、Graphcore、Google 和 Habana 等公司在此期间仅经历了 1 次硬件迭代和 1 次流程节点缩减。
    大多数收益可以归因于软件,而不是硬件。在每个供应商的软件堆栈上运行的算法类型可以实现扩展是最重要的因素。软件是最大的差异化因素,但随着不同任务的模型差异更大,这为其他供应商留下了针对少数工作负载进行优化的利基,或者至少这是许多加速器公司所建议的。
    MLPerf 是一个由 8 个模型组成的基准套件,由名为MLCommons的非营利组织开发。这些基准测试可以由 1 个处理器一直运行到数千个。尽管对它有一些有效的批评,但它是迄今为止比较人工智能硬件和软件性能的最佳公开方法。让我们首先查看一些结果并将它们分解。
    英特尔 Habana Gaudi2
    Habana 很有趣,因为他们的第一代芯片并不是最令人印象深刻的展示。他们的软件堆栈在去年最终通过 AWS 提供时并不成熟。他们最近宣布了他们的第二代Gaudi AI 训练芯片,该芯片的性能更加符合行业标准,或者至少他们声称是这样。Habana 提交了 8 个模型中的 2 个的基准。
    图片
    突入所示,Habana 在小型 ResNet-50 模型中以可观的优势获胜,但在小型 BERT 自然语言处理模型中以非常小的优势获胜。我们希望看到 Habana 的更大型号和更多类型,因为这是一个强大的展示。
    在经济性方面,Nvidia 的 A100 和 Intel 的 Habana Gaudi2 都具有标线限制(reticle limit )TSMC 7nm die 与 6 个 HBM 堆栈(为了良率,Nvidia 禁用了 1 )。因此,这个比较是相对公平的。Gaudi2 是 600W 与 Nvidia 的 400W,但它不需要额外的 Infiniband NIC 和 NVSwitch 来将 GPU 连接到一台服务器或多台服务器之间。这节省了大量的电力和硅成本。值得注意的是,Habana 在 ResNet 50 中以个位数击败 Graphcore,在BERT方面则以两位数击败,这非常令人印象深刻。
    图片
    Habana 还为其上一代 Gaudi1 芯片提交了更多基准测试。与之前的提交相比,这些可扩展到更高的芯片数。性能本身并不值得注意,但很高兴看到他们的芯片可以轻松扩展到更多加速器,因为这是他们将以太网直接集成到 AI 芯片中的全部承诺。
    虽然 Habana 没有提交许多不同的模型类型,但他们确实想强调一点在优化方面非常有趣。
    图片
    Habana 表示,他们有意识地使用开箱即用的软件,对提交给 MLPerf 的提交进行了最小的优化。他们通过与没有开箱即用软件的 Nvidia 的 GPU 进行比较来证明这一点。这些数字和设置只能在英特尔的网站上找到,而不是在 MLPerf 提交的文件中。关键是不要与 Nvidia 及其合作伙伴制作的超优化 MLPerf 提交进行比较。这当然是一个有趣的尝试。如果这可以在广泛的模型上证明是正确的,我们会增加它的可信度。
    谷歌 TPU
    谷歌处于一个有趣的位置,因为他们正在进行人工智能硬件架构的第四次迭代。可以说,Nvidia 只是接近他们的第 3架构来完成这项任务,因为 Volta GPU 是第一个包含 AI 特定 Tensor 核心的,当前一代是 Ampere,而下一代 Hopper 现已在今年年底开始批量出货。
    他们的芯片也几乎只能在内部使用,并且在设计时始终考虑到这一点。作为 AI 领域最重要的公司之一,谷歌必须应对大规模模型规模的扩展。因此,他们的提交也集中在具有数千个加速器的大型系统上。我们编辑了 MLPerf 电子表格,使其更易于查看。
    图片
    有趣的是,谷歌通常使用 2:1 的 TPU 与 CPU 的比例,尽管有些系统的比例是 4:1。另一方面,Nvidia 通常使用 4:1 或 8:1 的比例。这里的表现令人震惊。迄今为止,TPU 在云服务提供商领域几乎没有成功,但谷歌在他们自己的数据中心中使用了数以万计的 TPU,用于内部推理和训练工作负载。看看谷歌能否通过谷歌云让更广阔的市场开始使用 TPU 将会很有趣。
    Graphcore Bow
    Graphcore 和 Intel 的 Habana 很像,只提交了 2 种模型类型的结果。他们提交了更多不同的系统规模,从 16 到 256 个加速器。这些系统配备了新发布的Bow IPU,这是业界首款晶圆上晶圆(wafer on wafer)混合键合处理器。
    Bow 芯片在架构上与上一代相同,只是使用晶圆上晶圆键合将时钟提高约 40%,而不会增加功耗。这样做的一个好处也意味着该软件与上一代相同。自从最初在 MLPerf 基准测试中碰钉以来,在软件上的改进已经使 Graphcore 取得了长足的进步。现在的结果要好得多,并且在 Graphcore 展示的两个模型中,它们确实提供了比 Nvidia 更好的性能。
    图片
    在软件方面,另一个非常有趣的细节是百度能够使用他们自己的 PaddlePaddle 框架而不是使用 Graphcore 特定的框架来运行 IPU。PaddlePaddle 是一个专注于分布式训练的开源训练框架。它在中国非常受欢迎,因此这对 Graphcore 在中国的潜在销售来说可能是一个很大的利好。
    Graphcore 还花了一些时间与我们讨论了机器学习模型的当前路径以及它将如何遇到主要障碍。他们认为新的模型架构方法是必要的,他们认为这些方法会在他们新颖的 IPU 架构上运行得更好。
    图片
    硬币的另一面是,目前的模型正在迅速演变为越来越大的 transformer 模型。只要您可以向它们投入足够的计算和数据,这些模型在准确性和训练时间方面都表现出色。通过实现条件和动态路由,可以在更多种类的任务中匹配或击败任何其他模型架构,这使得它们非常通用。
    英伟达 A100
    英伟达并没有坐下来等竞争对手。所有 MLPerf 结果都包括使用了 2 年的 A100,但 H100 GPU 已经在今年晚些时候提供样品和发货。Nvidia 为他们是唯一一家提交所有 8 个 MLPerf 基准测试的供应商而感到非常自豪。此外,他们还有多个系统集成商和服务器供应商合作伙伴提交了包括他们的 GPU 在内的系统。Nvidia 在 4/8 测试中都赢得了胜利。使用 2 年的 A100 GPU 在每个芯片的 6/8 测试中最快。竞争对手根本没有参加大多数测试,这可能意味着他们在内部进行了测试,但决定不提交最终分数/代码。
    图片
    英伟达在 AI 训练上的语气有所改变。他们曾经在任何地方都声称拥有至高无上的地位,但现在他们只在大多数方面拥有至高无上的地位。这本身没什么大不了的,因为真正的因素不是每美元的矩阵乘数。
    训练的重要指标是 TCO。英伟达继续以多种方式在这里占据主导地位。
    首先,他们的 GPU 更加灵活。即使它们在小型图像识别网络中相对于其他网络不是最好的,但它们拥有最灵活的硬件,可以适应广泛的工作负载。机器学习空间正在迅速发展,因此大型训练集群需要灵活的硬件。现实世界中的 AI 很少只有一个模型。它是多个模型相互馈送。另一方面,如果它是一个大型模型,它是一个转换器,它几乎似乎已经成长为无论如何都可以最有效地在 GPU 上运行。
    图片
    从语音识别到视觉再到推荐模型的多种不同模型类型都协同工作,拥有一个最适合仅一种模型类型的加速器肯定会导致糟糕的 TCO。在数据中心,最重要的指标之一是利用率。Nvidia 是唯一一家硬件可用于数据准备、训练和推理的公司。许多其他公司都专注于训练和推理,或者单独训练。
    最后,拥有好的软件是这个难题的关键部分。大部分成本是开发该模型和软件,而不是运行它。
    “AI 不仅需要简单的每美元计算,您只需查看单个服务器 AI 的成本。部署 AI 需要非常有价值的数据科学、ML 工程师和应用程序开发人员,他们代表了 AI 基础设施的大部分成本。”英伟达Shar Narasimhan。
    该软件堆栈非常重要,因为它代表了除最大运营商之外的所有公司的大部分成本。让开发人员能够轻松地调整模型、部署、测试和迭代对于降低开发成本至关重要。
    软件灵活性、开发成本和更高的利用率相结合,使得 Nvidia 仍然保持着 TCO 的桂冠。
    越来越多的玩家拥有这样的规模,以至于利用率会很高,而灵活性并不那么重要。在许多情况下,这些玩家正在开发自己的芯片,或者与第二家玩家合作。问题是这些第二名球员中是否有任何人获得了足够的长期生存能力。在我们看来,将会有一个世界,谷歌、亚马逊、微软、Facebook、阿里巴巴、腾讯和百度等超大规模企业都在尝试开发自己的硬件,而英伟达则努力保持领先地位,并努力让云客户想要用英伟达硬件。
    英特尔和 AMD 等老牌公司可能有机会,但要打破英伟达的垄断地位需要几代人的时间。推理方面是我们期望许多不同的架构和初创公司取得成功的地方。我们认为 Graphcore 有潜力让它成功,但这将是一条艰难的道路,他们的下一代硬件必须很棒,而且他们的软件会继续变得更好。
相关博客