而参数越大,训练所用的计算资源就越多,这些大模型的训练动辄需要使用成千上万张GPU卡去做算力支撑,引发模型厂商的算力焦虑。沙开波指出,智能算力存在比较典型的“木桶短板”效应,算力的提升不能光靠“堆卡”,而是要让计算、存储、网络以及上层的框架等各个环节全面协调配合,才能打造出一个高性能、高带宽、低延迟的计算集群。以网络能力为例,千亿、万亿参数规模的大模型,训练过程中通信占比最大可达50%,传统低速网络的带宽远远无法支撑。同时,传统网络协议容易导致网络拥塞、高延时和丢包,而仅0.1%的网络丢包就可能导致50%的算力损失,最终造成算力资源的严重浪费。
为解决网络性能问题,各个厂商推出了一系列相关产品和解决方案。其中,腾讯云星脉网络具备3.2T通信带宽,可支持10万卡的超大计算规模。据悉,其能提升40%的GPU利用率,节省30%~60%的模型训练成本,为AI大模型带来10倍通信性能提升。数据显示,在稳定性和性能上,腾讯云的集群千卡单日故障数已经刷新到0.16,是行业水平的1/3;1分钟就能完成万卡checkpoint写入,数据读写效率是业界10倍;千卡集群的通信时间缩短到6%,是业界一半。同时,通过整合软硬件技术能力,腾讯云智算集群从机器上架到开始训练可以做到只需1天,相比业界以月为单位也大为缩短。“我们在做的是在规模比较大的计算集群里面,把卡的利用率尽可能做到极致,减少闲置算力就是减少用户成本。”沙开波表示。据他透露,某模型厂商通过使用腾讯云智算大模型训练集群解决方案将千卡一年的模型训练成本降低了2000万。智算资源短缺,“一云多芯”成为主流选择当前,智算中心被视为如同水和电一般的“新基建”,在全国各地落地开花。据赛迪顾问统计,截至2024年上半年,国内已经建设和正在建设的智算中心超过250个。智算中心招投标相关事件791起,同比增长高达407.1%。最新统计显示,截至5月底,全国规划具有高性能计算机集群的智算中心已达十余个。
从算力规模来看,我国智能算力在算力总规模中的比重超过了30%。尽管智算中心建设如火如荼,但智算资源的供需矛盾依然存在。“智算中心建设方通常手里有卡,也有硬件资源。
但是有卡不等于有算力,有算力不等于有模型,有模型也不等于有应用。有了卡和硬件,不代表大模型的训练、推理或者AI的应用就可以直接‘跑’出来了,还需要配套的软件能力,要能够把所有资源高效管理和调度起来,还得找到最终应用场景或者终端客户。”沙开波分析称。为弥合智算资源“供”与“需”之间的沟壑,“一云多芯”成为一个主流选择。过去,智算集群中的多个模型训练任务往往是单一厂商芯片服务于单一任务,不论是不同厂商芯片算力切分、芯片间通信效率或是根本的模型训练效率问题,都使得算力焦虑在在硬件差异之下被无限放大。而云平台可以将服务器芯片等硬件封装成标准算力,无论底层是x86与ARM指令集的并存、x86或ARM不同厂商架构间并存、不同GPU或DPU服务器并存,抑或是计算节点与存储节点不同芯片架构并存,都能给客户提供体验一致的云计算服务。比如,腾讯云智算平台便采用了“一云多芯”架构,可以适配、管理、调度多种CPU和GPU芯片,能够有效降低供应链风险,同时满足不同业务对于不同算力的需求。“生成式AI的兴起给整个云基础设施建设提出了更高的要求,我们希望能够整合高性能计算、高性能存储、高性能网络等各方面的能力,为企业用户提供集‘算、存、网、数’于一体的技术底座,帮助大家加速释放AI生产力。”沙开波说道。
免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。