智算中心的发展是应对当今世界日益增长的计算需求和信息爆炸的关键。它们为各种行业和科学研究等领域提供了必要的算力资源,以处理大量数据,从而促进科学发现和技术创新。在生物信息学、气候研究、金融分析、材料科学和人工智能等领域,智算中心都发挥着至关重要的作用。
智算中心建设提质加速
随着人工智能技术的快速发展,作为智能时代所必需的新型基础设施———智算中心“吹响”了加速建设的号角。
进入2024年,就有武昌智算中心、中国移动智算中心(青岛)、华南数谷智算中心、郑州人工智能计算中心、博大数据深圳前海智算中心等相继开工或投产使用。
据不完全统计,目前全国正在建设或提出建设智算中心的城市已经超过30个,建设总数超过100个,投资规模超百亿元。其中,建设主体包括政府机构、三大电信运营商以及部分互联网企业。建设模式包括新建智算中心和已有数据中心改造升级,以及独立投资建设、第三方出资建设和基于特殊项目公司的建设运营等模式。
在IEEE会士、香港中文大学信息工程系教授邢国良看来,智算中心正成为未来计算基础设施发展的重要方向。它融合了高性能计算、大数据、人工智能等多种技术,能够支撑复杂的智能应用。随着新兴数字化技术的不断进步,对算力的需求呈现爆炸式增长。同时,边缘计算、物联网等新兴领域的兴起,也促使计算资源从中心走向边缘。因此,智算中心将凸显出分布式协同、软硬件协同、云边端协同等特点。
香港中文大学信息工程系教授邢国良
九章云极DataCanvas副总裁周晓凌表示,智算中心的发展和大模型发展需求紧密关联。小模型和通用计算需求消费不了这么高密度的算力,而随着模型规模的不断增大,智算中心会得到长期高速发展。不过,发展中也会受到国内大模型数量收敛、行业垂类大模型需求跃进,以及关键AIGC应用推广等因素的影响而有所波动。
九章云极DataCanvas副总裁周晓凌
从定义的角度看,智算中心是采用领先的人工智能计算架构,提供人工智能应用所需算力服务、数据服务和算法服务的公共算力新型基础设施,并且通过算力的生产、聚合、调度和释放,支撑数据开放共享、智能生态建设和产业创新聚集。
由此看出,智算中心需要采用包括通用算力和智能算力(GPU、NPU、FPGA、ASIC等)在内的异构计算架构,使其具备并行处理大规模、多模态数据的能力。这样一来,它的对外赋能属性更强,不仅能提升企业效率,还能带动产业提档升级。
据国家信息中心发布的《智能计算中心创新发展指南》预测,“十四五”期间,在智算中心实现80%应用水平的情况下,城市(地区)对智算中心的投资,可带动人工智能核心产业增长2.9至3.4倍。
与之相比,传统数据中心则更像一个“守成者”。它的服务器和存储设备通常采用更为标准化的配置,以满足通用计算需求。因此,它所能带来的产业附加值较低。
赛迪顾问人工智能与大数据研究中心常务副总经理邹德宝表示,智算中心允许客户通过互联网远程访问和管理自己的数据和应用,不受地理位置和时间的限制,并且提供专业的安全保障,如防火墙、加密、备份和恢复等。同时,还可以根据自己的业务需求和法律规定选择合适的数据中心提供商和数据存储位置,以及数据和计算需求灵活地调整资源的使用。
赛迪顾问人工智能与大数据研究中心常务副总经理邹德宝
“未来几年内,受政策推动、技术进步、市场需求等因素的影响,智算中心的建设数量和投资规模有望实现显著增长。一方面,国家已出台多项智算中心相关政策,将进一步加速智算中心建设,另一方面,随着数据智能、大模型和AI芯片等技术的快速发展,智算中心的计算需求将不断增长。此外,各行各业对智算中心的需求也在不断增加,尤其是在金融、医疗、教育、制造等领域,智算中心的应用前景广阔。”邹德宝说道。
避免陷入过度建设的“泥沼”
2023年10月,工业和信息化部等六部门印发的《算力基础设施高质量发展行动计划》提出,到2025年在计算力方面,算力规模超过300EFLOPS、智能算力占比达到35%。
其中,算力基础设施高质量发展指标显示,2025年要建设50个智算中心。根据公开数据不完全统计,目前,全国“智算中心”建设及运营项目已经超过100个。
这些“智算中心”标准不一、规模不同,是否会重蹈当初数据中心“产能过剩”的覆辙?
对此,中国科学院计算技术研究所研究员张云泉表示,当前,已经有近30个城市建设了智算中心,更多城市正在规划上马新智算中心,甚至出现了一个城市同时建设多个超算中心和智算中心的现象。由于需求不足,追求规模效应,运营过程不透明和缺乏监管,出现了智算中心空转甚至停机的现象,无法充分发挥设备生命周期内潜在效益,造成资源和资金浪费。
为了解决这一问题,智算中心建设需要进行精确的市场调研,确保算力供给与未来的技术需求、产业升级需要相匹配。
同时,政府部门应通过政策引导避免同质化竞争和无序扩张。一方面,政府可以通过制定标准和引导资金,鼓励智算中心向绿色、高效、专业化方向发展。另一方面,通过区域协调和规划,实现智算中心的合理布局,避免资源在某一地区的过度集中。
此外,将传统数据中心升级为智算中心也成为一种趋势和选择。传统数据中心转型为智算中心,不仅可以提高数据中心的运行和管理效率,还能够推动企业数字化转型,实现数据的智能化应用和价值挖掘。
不过,尽管传统数据中心升级为智算中心具有诸多优势和益处,但同样面临多个问题和挑战。
青云科技副总裁沈鸥表示,影响传统数据中心升级为智算中心的因素很多。首先是相关硬件的增加,还有存储、网络等方面的优化,利用平台软件来处理资源调度、智能运维等问题,但一定要有更长远的计划,比如后续的冷却系统改造、可持续发展等。
青云科技副总裁沈鸥
邹德宝表示,理论上,传统数据中心可以通过升级硬件、软件和引入新技术来实现向智算中心的转变。但实际操作中,这一过程可能需要解决以下关键问题:一是技术兼容性与集成问题。传统数据中心的旧有技术和系统可能不适用于智算中心的高效率和自动化要求。因此,需要将这些旧系统升级或与新技术集成,这可能会遇到兼容性问题,需要投入大量时间和资源;二是数据迁移与安全问题。将数据从传统数据中心迁移到智算中心时,需要确保数据的安全性和完整性。此外,数据迁移过程中有中断、数据丢失或泄露风险,需要谨慎处理;三是成本控制问题。升级可能涉及大量投资,包括新硬件的购买、软件的升级或购置、培训员工使用新技术等。企业需要进行成本效益分析,确保投资带来的回报能够符合预期。
“传统数据中心要升级为智算中心,需要引入专用加速器,如GPU,支持大模型的处理器等,并协调好CPU和专用加速器的工作负载分配、互联通信、网络架构升级等问题。同时,需要采用AI中间件和开发框架取代传统架构,使应用能够从全新架构中获益。此外,还需要创新软硬件技术降低升级成本,如液冷技术、分布式技术等。”邢国良说道。
智算中心投产是一个复杂过程
智能计算中心涵盖设施、硬件、软件,并可提供从底层算力到顶层应用使能的全栈能力。从这方面来看,建好一座智算中心,不仅需要满足能源供给、绿色低碳、安全稳定等一系列要求,还需为其提供稳定的IT运行环境,从而助力其实现算力资源的有效整合和调度。
国家信息中心发布的《智能计算中心规划建设指南》提出,由于智能计算中心具有算力公共基础设施的定位,其建设和运营模式建议采用政府主导、企业承建、联合运营的政企合作建设运营的框架:在建设层面,应选择政府主导下的政企合作模式,由企业具体承建智能计算中心,同时兼顾智能计算中心公共属性、技术安全、投资规模巨大等特殊要求,承建企业应为行业头部企业,在技术实力方面处于行业领先水平,技术应用方面有能力做出前瞻性研判。
邹德宝表示,为充分发挥智算中心的作用,应该在高性能架构配置、高可靠系统、高安全防护体系以及高节能设备和技术等方面下足功夫。一方面,智算中心需要采用先进的硬件设备、高效的计算架构及网络架构,以确保数据传输的高效性和稳定性。此外,存储系统也需要具备高性能和可扩展性,以满足不断增长的数据存储需求。另一方面,应该采用高可靠性的硬件设备和冗余设计,并建立完善的监控和故障处理机制,及时发现和解决潜在问题。同时,还需要建立完善的安全防护体系,包括网络安全、系统安全、数据安全等,并采用高效的硬件设备和节能技术,如低功耗芯片、液冷技术等,降低设备的能耗。
在周晓凌看来,首先,智算中心需要有较强的运维能力,不仅要面向机房和硬件的运维,而且要面向人工智能应用和大模型训练的运维和监控。其次,智算中心不能仅提供硬件基础设施产品服务,还需要能提供硬件之上的智算软件服务,包括大规模集群、单个AI容器,以及AI训练微调产品、模型服务产品等。最后,智算中心也要能够提供算力互联能力,接入算力网络。
沈鸥表示,在智算中心建设中,计算、存储、网络等方面的高性能硬件配置,多层次的灾备方案,高可用的架构设计,清晰明确的权限管理,优化制冷技术,智能化的管理与运维,多维度安全方案的设计……都是需要考虑的。如果把这个范围再扩大,智算中心的选址、后续扩容规划、能源供应的稳定性等也都应该纳入考虑范畴。
企商在线CTO楼炜表示,智算中心是传统数据中心的升级,可以统一提供通用算力、超算和智算能力。为了充分发挥高性能计算的能力,需要从底层向上层构建从算力到智慧应用的全栈一体化架构。首先,智算中心风火水电的保障相对于传统数据中心有增强性要求,尤其要重点考虑电力和网络带宽的保障;其次,在算力基础设施层面,需要采购GPU服务器并使用软件调度平台优化GPU利用率;再次,构建大模型或AI算法平台实现对数据的训练、推理和微调;最后,在应用层面需要结合业务实际需求构建千行百业的智能应用场景。
企商在线CTO楼炜
“高性能智算设备功率密度越来越高,对数据中心供电和制冷都提出了更大的挑战。为保障智算中心高性能、高可靠性、高安全性,基础设施需要采用全新的架构设计,根据智算中心的特定需求进行针对性的改造交付。被列入北京市2024年重点工程新基建项目的企商在线石景山智算中心正是根据智算中心的需求,提供了8~24kW的高功率机柜,同时提供液冷方式来支持更高密度的智算设备部署。”楼炜解释道。
由此来看,建好一座智算中心不仅需要选址、设计、建设、交付都采用全新的流程,液冷制冷系统、模块化供电系统、智能化运维系统等,也需要成为智算中心的标配。
打造智算平台 实现协同运营管理
众所周知,智算中心需要一个庞大的运营体系予以支撑。因为它不仅需要政策和标准制定机构、硬件设备供应商、软件和技术服务提供商、数据服务提供商、应用开发商、金融服务与投资机构等多方参与,还涉及服务器机架、冷却系统、电力能源供应、网络连接、安全及存储系统等多方面的管理。此外,还需要支撑自动驾驶与智能交通系统、医疗健康、金融服务、智能制造、智慧城市、科研与教育、娱乐与新媒体等诸多应用场景。
在这一过程中,如何实现软硬件架构在设计上的深度优化和高度协同调度,以及大规模数据的高速传输、高效存储和实时分析处理?如何快速建立起一套高效率、低成本、数字化、自服务化的运营服务体系?如何跨越各厂商间的技术壁垒,实现无缝衔接与互操作,打破技术孤岛?
目前来看,智算中心的发展经历了从1.0阶段的粗放扩张到2.0阶段的精细规划。在2.0阶段,智算中心的建设更加注重需求牵引和市场化、平台化运营。而构建AI智算平台,正在逐渐成为优化智算中心调度管理的有效手段。
据了解,如今,行业内正陆续推出智算平台及解决方案。例如,青云科技AI智算平台、联想万全异构智算平台、九章云极DataCanvas智算操作系统、新华三全栈智算解决方案等。
邹德宝表示,智算平台的推出和智算中心的建设运营是相辅相成的。这些平台及解决方案的陆续发布,对智算中心的建设运营将带来多方面的助力:一是技术创新和效率提升。智算平台通常集成了最新的AI技术,包括深度学习、自然语言处理、机器视觉等,这将为智算中心提供强大的技术支持,推动其在算法、数据处理、模型训练等方面实现技术创新和效率提升。二是资源整合和优化。智算平台可以实现对计算资源、存储资源、数据资源等的统一管理和调度,从而提高资源的利用率,降低运营成本。三是服务模式的创新。智算平台可以提供灵活的服务模式,如云服务、按需服务等,这不仅可以满足用户多样化的需求,也可以为智算中心带来更多的商业机会。
“算力运营意味着以服务化的方式在线售卖算力,构建算力服务运营平台是一套复杂的系统设计。对此,企商在线认为,第一,明确算力运营平台的商业模式,除了出售自有算力外,还可以纳入第三方算力和公有云服务作为扩展;第二,需要算力资源管理、算力一体化网络架构和异构算力调度平台支撑。第三,需要构建一整套管理运维平台,确保算力的稳定性和安全性;第四,除售卖算力之外,还可以售卖大模型解决方案和软件平台,提供咨询服务。第五,完善配套商业模式,包括转售分成模式、供应商管理、产品管理、服务管理等配套管理功能设计。”楼炜如是说。
在周晓凌看来,构建智算平台及解决方案,主要是提升智算中心的产品服务的交付能力和多样性,这样客户不仅可以快速找到更匹配的产品,使用效率也会更高。九章云极DataCanvas发布的DATACANVASAIDCOS智算操作系统在智算中心产业生态中处于中间位置,能够向下协同大规模GPU算力,确保硬件资源得到有效利用和高效管理;同时向上提供完整的大模型工具链,为大模型训练和推理以及大模型应用提供便捷、高效的开发环境,满足复杂AI任务的需求。
沈鸥表示,青云科技AI智算平台是一个成熟的,并且经过实践检验的平台产品,能够在资源优化与成本节约、智能化运维与绿色环保、精细化运营与财务管理等方面满足客户需求。同时,为了更好地支持智算中心的建设与运营,青云科技也在积极和产业链上的企业展开合作,通过软硬件的兼容优化与联合创新,甚至打造多方的联合解决方案,为智算中心的整体建设与运营提供更多、更好、更适合的选择。“我们认为,智算中心应该明确自身的目标,选择运营架构与模式时,充分考虑技术挑战、市场需求变化,以及商业价值与社会价值实现等因素。”沈鸥解释道。