华为云AI原生基础设施CloudMatrix亮相华为全联接大会2024

网络 · 2024-09-20 10:49:34

今天，在华为全联接大会2024上，华为云重磅发布AI原生云基础设施架构CloudMatrix，以满足AI时代企业对于算力的大规模、高效稳定、弹性灵活的需求。

华为云AI 原生云基础设施架构 CloudMatrix 正式发布

如今，AI算力需求高速增长，正在超越对通用算力的需求。构建弹性、高效的多元算力基础设施是AI发展的关键。

为了进一步提升AI原生基础设施的效能，华为云推出AI原生云基础设施CloudMatrix，将CPU、NPU、DPU、存储和内存等资源全部互联和池化，构建“一切可池化、一切皆对等、一切可组合”的分布式对等全互联架构，实现了单体算力向矩阵算力的演进，为客户提供澎湃的AI算力。

一切可池化：华为通过CPU、NPU为客户提供强大的通用计算和智能计算。同时，华为云分布式 QingTian技术帮助突破单服务器的能力边界，将服务器内的CPU、NPU、DPU、存储和内存等多样资源的统一池化并灵活配置，以此形成大规模、紧耦合的多元算力池化架构，算力得到大幅提升。

一切皆对等：CloudMatrix通过超高带宽ScaleUp网络从“传统以太网”向“共享总线以太网”演进，实现池化算力的高速互联，同时通过自适应拓扑感知打破集群线性度瓶颈。华为云在传统算力集群ScaleOut网络基础上，结合ScaleUp超高带宽网络，将资源互联带宽提升了一个数量级。新的网络协议实现跨物理服务器的统一标识、统一的访问和消息通信机制。从而实现CPU、NPU、存储内存等多样资源的跨服务器统一池化。通过资源全部对等连接，既可以水平扩展，更可以垂直扩展，打破计算集群线性度的瓶颈，能够降大模型训练集群的线性度提升至95%，网络故障分钟级恢复。

一切可组合：CloudMatrix可以按需组合多样化算力资源，并且根据应用需求灵活调整。在统一多元算力逻辑池化、高速全对等互联的基础上，通过瑶光智能云脑对云上资源进行多元算力统一建模、灵活调度组合，按需提供给应用。覆盖大模型和小模型的训练和推理，同时，还能够用在数据分析、媒体内容生成等更多应用场景。

华为云宣布，基于CloudMatrix的新一代昇腾AI云服务将于年底上线。