近日,浪潮信息发布为大模型专门优化的分布式全闪存储AS13000G7-N系列。该系列依托浪潮信息自研分布式文件系统,搭载新一代数据加速引擎DataTurbo,通过盘控协同、GPU直访存储、全局一致性缓存等技术为AI大模型数据归集、训练、数据归档与管理等阶段提供强大存储支撑能力,助力用户加速大模型系统的创新及应用落地。
化解大模型时代的存储挑战 构建坚实的数据存储底座
大模型已经成为驱动数字经济深度创新、引领企业业务变革、加速形成新质生产力的重要动能,随着大模型参数量和数据量的极速膨胀,多源异构数据的传、用、管、存,正在成为制约生成式AI落地的瓶颈之一,用户亟需构建更加高效的存储底座。在数据准备阶段,在规模大、来源广泛、格式多样的原始数据中,筛选和清洗出利用于训练的高质量数据常会耗费大量时间;在模型训练阶段,海量小文件数据加载、Checkpoint数据调用对IO处理效率提出严苛要求;模型训练之后,多个数据资源池无法互通、海量冷数据归档带来较高的数据管理复杂度。
作为率先在业界提出分布式融合存储的厂商,浪潮信息聚焦行业客户的大模型落地需求与核心痛点,基于NVMe SSD研发出高效适配和优化的分布式全闪存储AS13000G7-N系列。硬件方面,AS13000G7-N是一款2U24盘位的全闪存储机型,搭载英特尔至强第四、第五代可扩展处理器,支持400 Gb 网卡,同时每盘位可配置15.36TB 大容量NVMe SSD。软件方面,通过集群控制服务将N个节点联成一套具有高扩展性的文件系统;通过分布式元数据服务提升海量小文件读写性能;通过数控分离架构,实现东西向网络优化,降低IO访问时延,提升单节点带宽。在软硬件协同创新下,AS13000G7-N充分满足大模型应用在存储性能和存储容量方面的严苛需求。
具体来说,在数据准备阶段,通过多协议融合互通技术,面对多份、多种协议的数据,存储底层仅保留一份数据,实现数据共享免搬迁;在模型训练阶段,通过大小IO智能识别和缓存预读技术快速保存和恢复checkpoint(检查点)文件,实现TB级训练数据Checkpoint读取耗时从10分钟缩短至10秒内,大幅提升训练过程中数据加载速度;RDMA/RoCE网络连接技术和数控分离架构的设计,实现东西向数据免转发,极限发挥大模型训练中硬件网络带宽性能;基于盘控协同架构,网络数据直通NVMe SSD,进一步提升单盘带宽;在数据归档与管理阶段,AS13000G7-N提供了多元异构存储的统一纳管能力,保障数据资产高效存储与管理,大幅提升存储资源的利用率且最大化数据基础设施投资回报比。
免责声明: 凡注明来源本网的所有作品,均为本网合法拥有版权或有权使用的作品,欢迎转载,注明出处。非本网作品均来自互联网,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。