美国的制裁促使中国科技公司加快研究,以在不依赖最新美国芯片的情况下开发尖端人工智能。
《华尔街日报》对研究论文的回顾和对员工的采访发现,中国公司正在研究可以让他们用更少或更不强大的半导体实现最先进的人工智能性能的技术。他们还在研究如何组合不同类型的芯片,以避免依赖任何一种硬件。
研究人员和分析师表示,利用这些变通办法赶上美国人工智能领导者仍然是一项重大挑战。然而,一些实验显示出希望,如果成功推进,这项研究可以让中国科技公司既能经受住美国的制裁,又能使它们对未来的限制更有弹性,他们说。
随着将类似 ChatGPT 的模型商业化的竞争愈演愈烈,全球的公司都需要更强大的芯片,并想方设法从中挤出更多的芯片,以降低人工智能开发的爆炸性成本。
对于中国公司来说,这个问题更为关键:员工、AI 研究人员和行业人士表示,等公司制造的最先进芯片的联系,并且它们迅速消耗了现有的美国芯片库存来创建自己的 ChatGPT 。
“你可以从字里行间看出,他们正试图在阳光下寻找任何计算能力来弥补顶级硬件的不足,”Meta Platforms 专门研究人工智能基础设施的人工智能研究员 Susan Zhang说。在 AI 行业中,计算是指一组芯片中可用的计算能力。
在美国商务部去年 10 月全面限制向中国供应芯片后,拜登政府表示可能会实施进一步的制裁。
中国公司无法使用 Nvidia 的 A100 芯片,这是业内最流行的 AI 开发芯片,以及下一代版本,即 3 月份发布的 H100,它提供了更多的计算能力。Nvidia为中国市场创建了其芯片的降级版本,分别称为 A800 和 H800,以满足制裁要求。两种修改后的芯片都降低了芯片与其他芯片通信的能力。
这些产品为开发小型人工智能模型提供了有效的替代方案,但这一障碍阻碍了更大 AI 模型的开发,这需要数百或数千个芯片的协调。
在芯片制裁宣布一个月后,OpenAI 发布了 ChatGPT。此次发布引发了全球开发生成式人工智能的狂潮,这种软件可以生成文本和图像,并且需要前所未有的计算能力才能开发。瑞银分析师估计,训练这些大型人工智能模型需要 5,000 到 10,000 个 A100 芯片。OpenAI 没有回应置评请求。
新加坡国立大学教授 Yang You 表示,许多中国公司现在正试图将三到四种不太先进的芯片(包括 A800 和 H800)结合起来,以模拟 Nvidia 最强大处理器之一的性能。
这种方法的成本可能很高:You先生说,如果一家美国公司需要 1,000 个 H100 来训练一个大型语言模型,那么一家中国公司可能需要 3,000 个或更多的 H800 才能达到同样的效果。
这促使一些公司加快开发跨不同类型芯片训练大规模 AI 模型的技术,You 先生说,这一研究领域在硬件资源有限但热衷于削减成本的中国公司中已经很普遍.
相比之下,人工智能专家表示,美国公司很少见到使用多种类型的芯片,因为要让它们可靠地工作存在技术挑战。“这是最后的手段,”Meta 的张女士说。
与此同时,中国公司也在寻求使用各种软件技术来降低训练大规模人工智能模型的计算强度,这种方法在全球范围内得到加速,包括美国公司。然而,与美国公司不同的是,论文显示,中国公司更积极地将多种软件技术结合在一起。
虽然其中许多方法仍在全球研究界被淘汰并且难以实施,但中国研究人员已经取得了一些成功。
半导体研究和咨询公司 SemiAnalysis 的首席分析师 Dylan Patel 表示,如果无法使用新的 Nvidia H100,中国研究人员的痛点只会加剧,其中包括一个额外的性能提升功能,特别有助于训练类似 ChatGPT 的模型。
编译自WSJ
免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。