鹏博士集团副总裁孙向东:统筹智算资源能破解大模型“算力荒”

时间:2024-04-16
  “通用算力是不缺的,我们现在缺的是能够满足大模型训练需求的智能算力。”算力运营商鹏博士集团副总裁孙向东在接受《中国电子报》记者专访时这样说。建设满足大模型训练需求的智算中心、提高智能算力供给能力,是破解大模型发展瓶颈的关键。
  大模型训练需要新建智算中心
  算力指的是计算能力,即CPU、GPU、TPU、FPGA、ASIC等各类处理器依托计算机服务器、高性能计算集群、各类智能终端等承载设备,每秒执行数据运算次数的能力,常见计量单位包括TOPS(每秒可进行万亿次操作数)、FLOPS(每秒所执行的浮点运算次数)、MIP(每秒执行百万级指令数)等。
  当前的算力共有三种:通用算力、智能算力和超算算力。其中,通用算力主要由CPU芯片提供,可完成大多数类型的处理任务;智能算力由GPU、FPGA、AI加速芯片等提供,用于人工智能算法模型训练与模型推理;超算算力由超级计算机等高性能计算集群提供,主要用于尖端科学领域的计算,比如行星模拟、药物分子设计、基因分析等。
  孙向东表示,从市场供需情况来看,我国并不缺通用算力,缺的是由大模型训练带来的智能算力需求。孙向东说,模型训练完成后,可以通过压缩、系数化等处理放在较低端的算力芯片上做运营和服务,满足模型推理所需的算力芯片并不缺。
  根据《中国综合算力指数(2023年)》,截至2023年6月底,我国算力总规模达到197EFLOPS,其中通用算力规模占比达74%,智能算力规模同比增长45%,比算力规模整体增速高15%,在整体算力规模中的比例提高至25.4%。
  研究机构数据显示,在大模型训练需求的带动下,智能算力增长速度将远超通用算力。全球智能算力规模将在2027年达到1117.4EFlops,大致相当于2023年的2.7倍、2020年的15倍。
  在接受《中国电子报》记者采访时,孙向东也说:“自ChatGPT出现以来,我们能够直观感受到智算需求的增长。”
  然而,与需求算力需求增长强劲同时存在的,是我国智能算力供给不足,这是我国算力市场当前面临的主要矛盾。由此,孙向东表示,要配合需求建设能够满足智能算力的智算中心。
  之所以要新建算力中心,是因为智算中心与传统数据中心存在诸多不同,改造传统数据中心并不能满足智算需要。二者的区别首先体现在组建机柜的芯片种类上,传统数据中心提供计算功能的芯片以CPU为主,智算中心以GPU等可提供AI并行计算的芯片为主。二者区别还体现在服务器机柜的组建方式、功耗等诸多方面。传统数据中心的业务以存储为主,其功耗约为4~6千瓦时;智算中心的业务则以高性能计算为主,其功耗可能达到12千瓦时甚至更高。不仅需要配备高密度机柜,整个机房的布局也要配合需求进行调整。
  为满足市场的强需求,符合人工智能应用需要的智算中心正在建设。但在孙向东看来,建设速度还远赶不上需求增长速度。
  统筹智算资源 “集中力量办大事”
  建设算力中心,首先需要解决的是算力基础设施——芯片的供应问题。当前,多家国内企业和机构正在做AI芯片的研发和生产,其部分产品已经在数据中心中应用,但国产算力芯片还不足以满足解决大模型训练所需的算力缺口。一方面,国产算力芯片的性能和产能还不足;另一方面,大模型训练需要的是千卡甚至万卡级别的超大规模计算集群,不同品牌的芯片组合在一起还需要解决兼容性、软件适配性和大规模集群可靠性的问题。调动千卡、万卡级别的计算集群,对集群搭建者提出了很高的技术要求,而这是个别大公司才能实现的。
  由此,为了尽可能多地解决智算的供需矛盾,孙向东提出了另一条发展思路:由政府或大企业出面,统筹全国的智算资源,“集中力量办大事”。
  区别于普通计算,大模型需要的是千卡甚至万卡规模的计算集群。但建设智算中心,一方面,可用服务器供给有限,且配置成本高。因此,孙向东认为,尽可能提高现有资源的利用效率,就要实现算力中心的连接,建设成智算网络。这样一来,就可以把可用的、符合大模型训练标准的算力基础设施连接起来,搭建成像水电一样的计算网络,当某计算任务完成后,这部分占用的资源就能够及时释放出来,提供给其他企业使用,以此满足并行大规模计算的需求。
  2023年10月,工信部等六部门联合印发《算力基础设施高质量发展行动计划》,将提升算力高效运载能力列为重点任务,称要探索构建布局合理、泛在连接、灵活高效的算力互联网,增强异构算力与网络的融合能力,通过网络的应用感知和资源分配机制,及时响应各类应用需求,实现计算、存储的高效利用。针对智能计算、超级计算和边缘计算等场景,开展数据处理器(DPU)、无损网络等技术升级与试点应用,实现算力中心网络高性能传输。
  关于建设算力网络,孙向东补充道:“通俗而言,其含义就是,不论是谁投资、哪里提供的算力,都连接到一个平台上,做算力互联互通的交易。这与云计算的理念是有共通之处的,都是使算力在一个大的平台上流动,打破算力提供者、算力资源储备地等物理边界,使算力资源真正流动起来,实现收益最大化。”
上一篇:Jim Keller建议英伟达:使用以太网,而不是InfiniBand
下一篇:腾讯云副总裁曹磊:大模型更“懂”产业,才能更“快”落地

免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。