AMD董事长兼CEO苏姿丰在美国当地时间10月10日于旧金山举行的Advancing AI活动上带来了一整套AI“杀手锏”,给整个业界带来了全新的AI震撼。
其中,最大的惊喜正是AMD最新发布的旗舰AI芯片-AMD Instinct MI325X GPU(以下简称:MI325X),苏妈也是再次信心满满地掏出了与老对手英伟达当下热销产品H200的对比图,她表示,MI325X的内存容量是H200的1.8倍,内存带宽、FP16和FP8峰值理论算力都达到了H200的1.3倍。
此外,苏妈还发布了第五代EPYC服务器CPU,并称其为“面向云计算、企业级和AI的全球最好CPU”,与老对手英特尔的第五代至强铂金8592+处理器相比,这款CPU的HPC(高性能计算)性能提高多达3.9倍,基于CPU的AI加速提高多达3.8倍。苏妈此次可谓是将满满的压力给到了英伟达和英特尔。
HBM3e内存容量是GPU提升的关键?
当前,英伟达毫无疑问是数据中心GPU领域的霸主,TechInsights公布的数据显示,2023年全球数据中心GPU总出货量达到了385万颗,其中,英伟达以98%的市场份额稳居第一,AMD虽位居第二,却仍是相差十分悬殊。但熟悉苏妈的人都知道,她苏妈受命于AMD危难之际,最不怕的就是打硬仗,此次带来的MI325X就是为了“硬刚”英伟达的H200而来。
据了解,MI325X采用了与上一代MI300X相同的CDNA 3架构,最大的提升就是首次采用了业界目前最先进的HBM3e,总容量达256GB,基于16-Hi堆栈制程,内存带宽高达6TB/s,单颗芯片总共拥有1530亿个晶体管。 专家告诉记者,HBM内存提高,对于GPU来说,能够带来数据传输速度的提升、数据处理能力的增强、能效比的提高、空间与延迟的节省、对更复杂应用场景的支持以及系统稳定性与可靠性的提升等多方面的好处。因此,MI325X的FP8性能达到了2.6PFLOP,FP16性能也达到了1.3PFLOP。
横向对比,英伟达H200采用的HBM3e容量为141GB,带宽为4.8TB/sz,总晶体管数量约为800亿个,相比于MI325X肯定是不够看了,哪怕是英伟达最新推出的B200,采用的HBM3e内存容量也仅为192GB,与MI325X的256GB HBM3e内存容量仍存在差距。
虽然,两家对于GPU的设计各有不同,HBM3e内存容量也并不是评判GPU性能的唯一标准,但对产品性能的上限有明显提升,这也是AMD直面英伟达的底气。苏妈很自豪地在发布会上强调:“MI325服务器平台在运行Llama 3.1时,能提供比英伟达H200 HGX高出多达40%的性能。”
根据AMD官方信息,MI325X加速器目前有望在2024年第四季度投入生产,预计从2025年第一季度开始发货。
此外,根据当前“一年一迭代”的节奏,AMD此次更新了其AI芯片的路线图,预计下一代MI350系列将在明年上市,将采用3nm制程,并把HBM3E内存再提升至288GB,新一代CDNA 4架构也将安排上,使得其推理性能比基于CDNA 3架构的加速器提高了35倍,该系列AMD计划在2025年下半年上市。
其中,MI350系列的代表产品MI355X是AMD专门用来应对英伟达在三月刚刚发布的Blackwell B200的。据了解,MI355X的FP8和FP16性能相比MI325X提升了80%,FP16峰值性能达到2.3PFLOPS,FP8峰值性能达到4.6PFLOPS,FP6和FP4峰值性能达到9.2PFLOPS。
最新CPU性能已经赶超英特尔?
CPU业务对于AMD来说是涅槃重生的开始,在2018年,其EPYC服务器的市占率仅为2%,经过四代的升级,终于在2024年第一季度达到了34%,从英特尔手里抢走了近30%的CPU服务器市场份额,也成了AMD的主要营收来源。
苏妈在发布今年第二季度财报时就表示:“我们在第二季度实现了强劲的营业额与收入增长,这得益于数据中心事业部创纪录的营业额。我们的AI业务继续加速攀升,在Instinct系列、,EPYC和Ryzen处理器的市场需求带动下,AMD为下半年营业额的强劲增长已做好了充分准备。”
所以,AMD此次的另一大杀手锏就是其第五代EPYC服务器CPU,代号“Turin”。
据介绍,Turin拥有1500亿颗晶体管,采用台积电3/4nm制程、全新“Zen 5”及“Zen 5c”核心兼容广泛部署的SP5平台,最多支持192核、384个线程。当前,英特尔能效核版至强6虽然能在未来通过双芯封装做到288核心,但无法支持超线程技术,只有288个线程。因此,在核心数和线程数上,AMD已经赶超了英特尔。
在技术全面升级的情况下,Turin的性能得到了明显提升。AMD表示,相比于上一代的英特尔Xeon服务器,Turin在SPEC CPU测试中性能提升2.7倍,企业级性能最高提升4.0倍,HPC(高性能计算)性能最高提升3.9倍。
苏妈打了很形象的比方,她表示,如果用Turin服务器替代上一代的至强服务器,只需131台服务器就能达到原来1000台的性能水平,节省87%的占地空间。同时,功耗可以节省最多68%。
AMD还优化了Turin在AI工作流程中的关键动作,包括数据预处理、内存复制、内核启动和任务协调等。这些优化使得CPU在处理GPU协调任务时更高效,比前代产品快28%。
除了GPU和CPU,苏妈此次还带了最新的DPU、AI网卡以及ROCm 6.2生态系统,凑齐了一整套“AI全家桶”,给“双英”带来了十足的压力。但当天的AMD股价并没有买账,反而以大跌收场,日内跌幅一度扩大到约5.3%,最终收跌4%,创9月3日以来最大盘中和收盘跌幅。可见,AMD的新品虽然来势凶猛,可只有真正量产,经过客户检验,才能赢得市场的认可。
免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。