日前,有外媒报道称,英特尔计划在韩国首尔设立科研实验室,通过扩展和三星、SK海力士的合作,推进适用于数据中心的DRAM芯片研发工作。
此前,我们在报道中已经指出,英特尔由于内部战略的混乱,在AI计算芯片方面已经落于人后,并且从时间上至少落后英伟达两年。在英伟达高速发展的情况下,英特尔在AI算力芯片方面很难翻身。
不过,对于AI计算来说,存储的重要性同样很高。目前,高性能计算芯片基本都是配HBM内存帮助加快运算,但是在算力系统里,计算和存储的割裂还是比较严重的。如果英特尔能够在内存方面获得突破,有望实现换道超车。
英特尔首尔研发实验室
根据报道,位于首尔的数据中心开发实验室将于今年年底前竣工开业,主要负责为数据中心开发DDR5 DRAM内存技术。在这个实验室里,英特尔将联手三星和SK海力士为数据中心开发DDR5 DRAM内存技术,测试和评估DDR5和Compute eXpress Link等下一代内存产品的性能。
不久前,三星宣布其采用12纳米级工艺技术的16Gb DDR5 DRAM已开始量产。与14纳米级DRAM相比,三星电子全新的12纳米级DDR5 DRAM可将功耗降低约23%,将晶圆产能提高约20%,zui高可支持7.2Gbps的速度。
另外,SK海力士也于近日宣布,已经完成了现有DRAM中zui为微细化的1bnm(第五代10nm级别)的技术研发,并将适用其技术的DDR5服务器DRAM开始了“英特尔数据中心存储器ren证程序(The Intel Data Center Certified memory program)”。据介绍,新工艺量产的DRAM运行速度为6.4Gbps,数据处理速度提高了33%,相较于1αnm工艺产品,功耗降低了20%。
对于业界来说,三星和SK海力士的zui新DRAM产品,除了应用于LPDDR5T和HBM3E产品之外,和英特尔主导的CXL技术结合也是一个看点,有望进一步消除高性能计算的内存墙效应。
CXL内存是重点
Compute eXpress Link(CXL)内存扩展是主要硬件供应商和云提供商于2019年共同制定的开放标准,被认为是PCI-e(PCI Express)技术zui主要的替代者,而英特尔是CXL联盟牵头人和主要推动者。
CXL在PCIe 5.0物理层基础上定义了三种协议,有效实现了内存拓展,还引入了共享内存池,达到CPU、存储、FPGA、加速器之间的缓存一致性。
过去四年的时间里,CXL已经连续更新了1.0/1.1、2.0、3.0三个版本,发展非常迅速。到了CXL 3.0时代,一个全新的理念已经成型——共享内存。CXL3.0建立在PCI-Express 6.0之上,将内存传输的带宽提升了两倍,达到64GT/s。更为重要的是,CXL3.0提供标准逻辑能力,允许更复杂的连接拓扑,使得数据中心应用能够更灵活地分享内存。
图源:CXL联盟
目前,无论是数据中心还是算力中心,实际上其基本结构依然还是冯诺依曼结构,由计算、传输和存储构成。在这个结构中,目前计算和存储的对应关系基本是一对一,一个物理内存只能属于某一台服务器。在CXL3.0技术的加持下,如今计算和内存已经实现了解耦,因此内存有望成为一个崭新的系统。
首先,服务器之间将能够直接访问彼此的内存,无需再通过CPU,这样就能够显著提升效率,降低系统运算的延迟。其次,相较于CXL2.0,新版本协议将内存池化的更加彻底,每个主机不再需要分配自己专属内存段,而是多个主机可以拥有一个共享内存段的一致性副本。
我们都知道,在数据中心领域,目前CXL内存已经逐渐展露锋芒,将塑造一种全新的服务器集群方式,显著提高数据处理的效率。而在应对ChatGPT为首的高算力需求应用时,正如三星内存副总裁Kim Jae-joon所言,ChatGPT等基于自然语言技术的交互式AI应用的发展有利于提升内存需求。因此,CXL内存也有用武之地。
数据显示,在过去的20多年中,处理器的性能以每年大约55%速度快速提升,而内存性能的提升速度则只有每年10%左右。在算力集群中,基于CXL协议的DRAM能够有效减轻SRAM 的工作负担,极大地提升模型训练和推理的效率。
因此,在持续推动CXL发展的过程中,英特尔有望摸索出一套计算和内存更加均衡的算力集群方式,在整体效率方面超过英伟达计算芯片加主线内存的方式,这也不失为一种破局之道。
后记
英特尔目前在数据中心和算力中心面临的挑战是全方面的,数据中心份额被逐渐蚕食,算力中心则迟迟无法打开局面。不过,如果能够借助CXL技术构建一套全新的计算体系,英特尔有望重新夺回主动权。