虽然人工智能有望带来人类生产力的飞跃,但其运行时能耗巨大,导致温室气体的排放也显著增加。如今,Vicor 电源模块与垂直供电架构相结合,为 GenAI 提供了高效的供电方法,实现行业领先的电流密度。
训练生成式人工智能(GenAI)神经网络模型通常需要花费数月的时间,数千个基于 GPU 并包含数十亿个晶体管的处理器、高带宽 SDRAM 和每秒数太比特的光网络交换机要同时连续运行。虽然人工智能有望带来人类生产力的飞跃,但其运行时能耗巨大,所以导致温室气体的排放也显著增加。
据《纽约时报》报道,到 2027 年,人工智能服务器每年的用电量将达到 85 至 134 太瓦时,大致相当于阿根廷一年的用电量。
为了应对日益加剧的能耗挑战,AI 处理器的供电网络经历了多代的发展。这种全面的演进发展涉及电路架构、电源转换拓扑、材料科学、封装和机械/热工程方面的创新。
生成式人工智能训练处理器的供电方案
负载点模式和分比式模式的演变
从 2020 年到2022 年,热设计功率(TDP)几乎翻了一番,从 400W 增加到了 700W。TDP 指标是指生成式人工智能训练应用中 GPU 引擎的连续功耗。自 2022 年起,半导体行业的 TDP 水平不断攀升,到了 2024 年 3 月,市场上甚至出现了一款 TDP 高达 1000W 的 GPU。
用于生成式人工智能训练的处理器复合体集成了一个 GPU 或ASIC 芯片,以及六到八个高带宽存储器(HBM)芯片。采用 4 纳米 CMOS 工艺的 GPU 通常以 0.65V 的内核 VDD 运行,可能包含 1000 亿或更多的晶体管。HBM 提供 144GB 的存储容量,其工作电压一般为 1.1V 或 1.2V。该处理器的一个关键供电特性与人工神经网络算法负载有关。对比处于空闲状态的 GPU 和算法满载状态的 GPU,瞬态电流消耗(dI/dt)差别可能非常大,可能达到每微秒 2000 安培或更多。此外,该处理器不能容忍较大的电源电压下冲或过冲幅值;这些负载阶跃瞬变必须限制在标称 VDD 的 10% 以内。设计用于生成式人工智能训练处理器的供电解决方案时,由于这些动态操作条件的原因,峰值电流输送能力通常设计为连续电流输送能力的两倍,峰值事件通常持续数十毫秒(图 1)。
图 1:基于 GPU 的生成式人工智能训练处理器芯片复合体,加速器模块(AM)上安装有高带宽存储器(HBM)。
对于 CPU、FPGA、网络交换机处理器以及现在的 AI 训练和推理芯片发展最重要的供电架构是负载点(PoL)方法。相较于传统的多相并联电源架构,分比式 PoL 电源架构实现了更高的功率和电流密度。这种电源架构借鉴了理想变压器的“匝数比”概念,通过分压实现电流倍增。电流倍增的可扩展性使我们能够根据不同的输出电压和电流需求,开发一系列全面的 PoL 转换器。这对客户来说至关重要,因为高级 AI 训练处理器的需求正快速变化。
分比式电源架构(FPA)
分解为稳压和变压两部分功能
生成式人工智能电源系统设计面临的主要挑战包括:
很高的电流输送能力,范围从 500 安培到 2000 安培
负载需要出色的动态性能
PDN 的损耗和阻抗较大
48V 母线基础架构的标准化使用,需要从 48V 转换到 1V 以下的能力
要解决这种大电流和高密度负载点(PoL)问题,需要采用不同的方法。先进的分比式电源架构将稳压和变压/电流倍增功能进行了分解,可将这些供电级放置在最佳位置,从而达到最高的效率和功率/电流密度。
当输入电压(VIN)等于输出电压(VOUT)时,稳压器的效率最高,随着输入输出比的增加,效率逐渐降低。在 36 至 60V 的典型输入电压范围内,最佳输出母线电压将是 48V,而不是中间母线架构(IBA)中常见的传统 12V 母线电压。48V 输出母线所需的电流是 12V 线的四分之一(P=VI),而 PDN 的损耗是电流的平方(P=I2R),这意味着损耗降低至原来的 1/16。因此,先安装稳压器并将其调节至 48V 输出,可以实现最高的效率。稳压器还必须接受有时低于 48V 的输入电压,这就需要一个降压-升压的功能来满足这一设计需求。一旦输入电压得到了稳压,下一步便是将 48V 转换为 1V。
在需要为 1V 负载供电的情况下,最佳变压比为 48:1。在这种情况下,稳压器将输入电压降压或升压到 48V 输出,再由变压器将电压从 48 降至 1V。降压变压器以相同的比率加大电流,因此变压器组件也可以称为电流倍增器。在这种情况下,1 安培的输入电流将倍增至 48 安培的输出电流。为了最大限度地减少大电流输出的 PDN 损耗,电流倍增器必须小巧,以便尽可能靠近负载放置。
PRMTM 稳压器和 VTMTM/MCMTM 模块化电流倍增器结合在一起,构成 Vicor 分比式电源架构。这两个器件相互合作,各司其职,实现完整的 DC-DC 转换功能。
PRM 通过调制未稳压的输入电源提供稳压输出电压,即“分比式母线电压”。该母线供电给 VTM,由 VTM 将分比式母线电压转换为负载所需的电平。
与 IBA 不同,FPA 不通过串联电感器从中间母线电压降压至 PoL。FPA 不通过降低中间母线电压来平均电压,而是使用电流增益为 1:48 或更高的高压稳压和电流倍增器模块,以提供更高的效率、更小的尺寸、更快的响应和 1000 安培及以上的可扩展性(图 2)。
图 2:分比式电源架构可以提供超过 1000 安培的大电流,并使供电网络的电阻降低到 1/20。
垂直放置 PoL 转换器减少功耗耗散
在前几代大电流生成式人工智能处理器电源架构中,PoL 转换器被放在处理器复合体的横向(旁边)位置。由于铜的电阻率和 PCB 上的走线长度,横向放置的 PoL 供电网络(PDN)的集总阻抗相当高,可能达到 200μΩ 或更高。随着生成式人工智能训练处理器的连续电流需求增加到 1000 安培,这意味着 PCB 本身就会消耗掉 200 瓦的功率。考虑到在 AI 超级计算机中用于大型语言模型训练的加速器模块(AM)多达数千个,而且几乎从不断电,通常会持续运行 10 年或更长时间,这 200 瓦的功率损耗在整体上变得非常庞大。
认识到这种能源浪费后,AI 计算机设计师已经开始评估采用垂直供电(VPD)结构,将 PoL 转换器直接放置在处理器复合体的下方。在垂直供电网络中,集总阻抗可能降至 10μΩ 或更低,这意味着在内核电压域 1000 安培的连续电流下,只会消耗 10 瓦的功率。也就是说,通过将 PoL 转换器从横向放置改为纵向放置,PCB 的功耗减少了 200–10=190 瓦(WPCB )(图 3)。
图 3:生成式人工智能加速模块从横向(顶部)供电改为纵向(背部)供电,可将 PDN 损耗降低至 1/20。
VPD 的另一个优点是降低了 GPU 芯片表面电压梯度,这也有助于节省电力。如前所述,典型的 4 纳米 CMOS GPU 的标称工作电压为 0.65VDD。使用横向供电时,将电源提供给处理器复合体的四边,由于集成电路的配电阻抗较高(通常使用电阻率高于铜的铝导体),可能需要 0.70V 的电压,才能确保 GPU 芯片中心的电压达到标称值 0.65V。而采用纵向供电时,可以确保整个芯片表面的电压为 0.65V。0.70–0.65=50mV,这个差值乘以 1000 安培,可额外节省 50 瓦(WVDD)的功率。在本例中,节省的总功率为 190WPCB + 50WVDD = 240 瓦(图 4)。
图 4:使用 VPD 时,处理器芯片的表面电压均匀,有助于最大限度地提高计算性能,同时最小化功率损耗。
根据未来几年公共领域对加速器模块(AM)需求的预测(2024 年超过 250 万件),以及对电力成本的合理估计(每兆瓦时 75 美元),每个 AM 节省 240W 电力,到 2026 年将在全球范围内实现太瓦时的电力节省,相当于每年节约数十亿美元的电力运营成本,而且根据可再生能源的使用比例,每年还能永久性地减少数百万吨的二氧化碳排放。
遏制失控的生成式人工智能功耗
Vicor 正引领生成式人工智能供电技术的创新浪潮。他们提供的分比式负载点转换器解决方案有助于提升生成式人工智能处理器的功效,使生成式人工智能的功耗与社会层面的环境保护和节能目标相一致。Vicor 持续推动电源架构的创新,并开发先进的新产品,致力于解决生成式人工智能模型训练带来的功耗增加问题。通过采用先进的分比式电流倍增器方法进行负载点 DC-DC 转换,就可以充分发挥生成式人工智能优势,同时有效控制全球范围内的能源消耗。