浪潮信息赵帅:融合架构3.0原型系统有望缓解AI算力瓶颈

2023-08-17 11:55:46 来源:

2023年8月10日,在北京举行的第五届OCP China Day 2023(开放计算中国技术峰会)上,浪潮信息正式推出融合架构3.0原型系统。相比传统服务器,融合架构3.0原型系统具有系统级多元异构融合、机柜级解耦和池化以及资源异步升级等优势,有效缓解当前数据中心 “内存墙”、“I/O墙”、“功耗墙”等瓶颈挑战。

image001

智算时代,计算体系架构亟待突破

当前,人工智能三要素中,算力的瓶颈愈发凸显。

随着AIGC浪潮的出现,极大推动了大模型、人工智能的发展与创新。大模型的参数量持续增加,对于内存的需求也随之增加,但当前计算单元内存容量明显不足,且CPU主内存与异构加速器内存互相隔离,无法进行统一寻址和高效协同;与此同时,大模型训练属于典型的带宽敏感型的计算场景,在海量参数模型的并行训练下,会产生梯度数据聚合与分发等海量通信需求,需要高带宽系统保证算力提供;此外,大模型日常的训练与推理需要耗费大量算力资源,随之而来的就是极高的能耗表现。

与此同时,在算力供给侧摩尔定律逐渐放缓和登纳德缩放定律走向终结,现有的计算体系架构先天性不足被成倍放大,数据中心计算体系架构的创新已迫在眉睫。

浪潮信息服务器产品线总经理赵帅表示:“当前数据中心遇到的 “内存墙”、“I/O墙”、“功耗墙”等现象,并不是孤立存在,它们是现有计算体系架构不足放大后的体现。只有通过计算体系架构的整体创新,才能彻底解决各种瓶颈带来的挑战。”

融合架构3.0:以数据为中心的新架构

在此背景下,浪潮信息推出融合架构3.0原型系统,实现计算资源、内存资源、异构加速资源、存储资源的硬件解耦,通过软件定义系统设计,实现资源协同动态调度,以一套系统满足多种应用需求。同时,系统融合不同架构和不同指令集的异构算力,根据应用场景灵活调配资源,实现池化资源的异步升级。

浪潮信息服务器产品线总经理赵帅在接受媒体采访时表示,在AI算力需求日益高涨的当下,浪潮信息认为解决途径之一是最大程度的释放算力,解决影响算力发挥的瓶颈问题,能够让算力更快、更好的让需要的人用到,同时避免算力的浪费。浪潮信息一直努力用系统建设方案去释放算力的最大价值。

与以CPU为中心的计算架构不同,融合架构3.0原型系统以数据为中心,实现计算节点内部各种算力芯片共享内存数据、统一编址和协同工作;在跨节点之间则通过智能数据处理单元和高速网络形成分布式互连交换,实现CPU、GPU、FPGA等各种加速芯片的算力协同以及内存池化、新型存储资源池化,具有节点间的数据访问延迟极低,支持高效弹性扩展等优势。此外,融合架构系统可以实现更为灵活的资源重构,为人工智能等多种应用场景提供强大的算力支撑。

内存解耦与池化一直是业界的热点与难点,随着以CXL为代表的串行缓存一致性总线的出现,给主机和远端共享内存之间提供了低延时的访问路径以及缓存一致性保证,为大规模内存扩展与内存资源池化提供了可能。融合架构3.0原型系统突破内存解耦池化关键技术,研制新型应用串行缓存一致性总线及其交换技术的内存模组和内存池化系统,保障主机系统对大容量、高带宽内存的应用需求。

赵帅介绍,融合架构3.0原型系统首创JBOM独立内存资源池设计,创新实现标准服务器高密度内存扩展方案,主机系统远端内存扩展技术领先业界。通过软件定义系统设计及CXL高性能交换技术,率先实现内存资源池化与细粒度多主机共享。

系统互连设计方面,解耦与池化带来了新的互连挑战,整系统通过设计供电控制、复位、时钟锁定等协同工作方式实现解耦单元整体运行。此外,随着数据速率的不断攀升和系统链路变得更加复杂,解耦池化系统互连链路互连延展已经接近极限,系统针对复杂链路高速互连进行高精度的拟合仿真研究,准确分析系统互连链路多样化拓扑和传输速率的极限。

此外,融合架构3.0原型系统开发软件定义管理系统,实现拓扑切换、端口动态管理、多主机资源共享与资源动态分区等高级功能;开发资源管理软件,实现设备利用率监控、设备分配情况配置与管理、I/O吞吐量监控和链路健康诊断,保障主机系统硬件资源的动态部署与高效管理。

赵帅表示:“融合架构3.0原型系统效率可比上一代软件虚拟化系统提升一到两个数量级,可扩展性提高2~4倍,系统延时降低90%,PUE低于1.1。随着数字经济、人工智能持续发展,企业的各项业务越来越依赖数据及其价值,算力技术也需要不断演进,融合架构3.0原型系统的发布,有助于企业提升数据管理效率,最大化释放数据价值。”