郑纬民院士谏言国产GPU发展两大关键问题

时间：2023-12-14

　　在第二届数据安全治理年会上，中国工程院院士郑纬民表示，我国人工智能企业正面临“国外一卡（GPU）难求，国产卡使用意愿低”的现状，应从软硬件两方面突破瓶颈，完善国产GPU硬件生态，优化大模型基础设施。
　　我国人工智能产业面临软硬件两方面瓶颈
　　郑纬民提出了算力“三大定律”：人类已经进入以算力为核心生产力的数字经济时代，算力就是生产力，这是“时代定律”；当下，算力每12个月就增长一倍，算力资源增速显著，已经打破摩尔定律，这是“增长定律”；算力每投入1元，就带动3-4元GDP经济增长，这是“经济定律”。
　　近年来，我国人工智能产业呈指数级增长。郑纬民表示，预计到2025年，中国人工智能产业规模将超过4500亿元，带动产业规模超1.6万亿元。
　　郑纬民直言，我国人工智能产业正面临着软件、硬件两方面的瓶颈。
　　从硬件角度看，一方面，我国国产芯片产量不足。郑纬民表示，2021年，我国人工智能服务器芯片总用量100万片，其中，美国英伟达占95%左右，国产芯片出货量不到5万片；另一方面，国产GPU硬件竞争力不足，并未真正受到市场认可。
　　从软件角度看，我国在算法等技术方面仍然有所欠缺，当前，谷歌和Meta的人工智能算法开发框架占中国人工智能市场份额的90%以上。
　　郑纬民坦言，目前我国人工智能企业正处于“国外一卡难求，国产卡使用意愿低”的现状。要解决当下面临的问题，一是营造完善的国产GPU硬件生态，二是优化大模型基础设施架构。
　　完善硬件生态要做好10个关键软件
　　郑纬民认为，要完善国产GPU硬件生态系统，需要做好10个关键软件：能够降低编写人工智能模型复杂度的编程框架；为多机多卡提供人工智能模型并行训练能力的并行加速；能够提供跨机跨卡的通信能力、支持人工智能模型训练所需各种通信模式的通信库；提供人工智能模型所需基本操作高性能实现的算子库；能够在异构处理器上对人工智能程序自动生成高效目标代码的AI编译器；提供异构处理器上编写并行程序支持的编程语言；提供在大规模系统上高效调度人工智能任务能力的调度器；针对人工智能应用特点提供高效内存分配策略的内存分配系统；提供在硬件发生故障后快速恢复模型训练能力的容错系统；以及支持训练过程所需数据读写的存储系统。
　　郑纬民表示，相比芯片的“硬实力”，其生态才是更加影响使用体验的因素。“只要生态做得好，国产芯片只需要达到国外芯片性能的60%，客户就会满意。”郑纬民说。
　　“4个平衡”优化大模型基础设施
　　郑纬民强调，在设计大模型基础设施时，要思考“4个平衡”的优化问题。
　　一是半精度运算性能与双精度运算性能的平衡设计。在计算机系统的内存中，半精度、单精度和双精度是决定数据计算精确度的度量标准，双精度比半精度更精密，但同时要占据更多存储空间。郑纬民提出，大模型设计中不仅要考虑16位的半精度运算性能，还要考虑支持64位的双精度运算。他表示，最优的双精度与半精度运算性能比为1:100。
　　二是网络平衡设计。郑纬民指出，在网络设计方面，高带宽、低延迟的网络是极大规模预训练模型运行的必要条件。“在训练过程中，我们采用数据并行、模型并行和专家并行三种不同的并行方式，但这三种方式对互联有不同的要求。”郑纬民表示，“只有把通信做好，大模型才能顺畅跑通。”
　　三是体系结构感知的内存平衡设计。通俗而言，大模型在训练过程中使用的大量数据会产生大量的内存访问请求；对内存平衡的优化，目的是提升模型访存性能，从而提高模型训练效率。
　　四是输入输出子系统平衡设计。郑纬民指出，机器在执行大规模训练任务时，发生硬件、软件错误在所难免。针对这样的情况，容错检查点成为了大模型训练中的一道“保险闸”。容错检查点设置不足，会导致模型训练效率降低；检查设置过于频繁，则会浪费大量时间和存储空间。因此，优化检查点存储在大模型训练中的重要性不言而喻。
　　“只要以上四点平衡的问题得到解决，一块GPU就能发挥两块的作用。”郑纬民总结道。

上一篇：机构：预计ESS市场将增长159.2 GWh

下一篇：集邦咨询：预计 2027年台湾晶圆代工产能下降至 41%

免责声明: 凡注明来源本网的所有作品，均为本网合法拥有版权或有权使用的作品，欢迎转载，注明出处。非本网作品均来自互联网，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。