

SK电信在4日宣布,已与计算资源连接公司Panmnesia在西班牙巴塞罗那举行的全球最大移动通信展“MWC26”上签署谅解备忘录,将共同开发基于CXL(Compute eXpress link,一种数据连接标准)的下一代人工智能数据中心架构。这标志着向AI数据中心架构创新迈出了关键一步。随着AI模型日益复杂,内存需求激增。双方计划并非单纯增加GPU数量,而是通过改变计算资源的连接方式,同步提升性能与成本效益。
CXL作为一种数据连接标准,能够有机连接CPU、GPU与内存之间的数据,实现超高速、低延迟处理。它使原本局限于服务器单元内的计算资源得以灵活扩展和利用。此次合作的核心在于,借助CXL技术,无需不必要的设备扩容即可提升AI处理效率,从而增强AI数据中心的经济性。
Panmnesia是一家在CXL领域具备全球级技术实力的本土初创企业。公司提供构建高效AI数据中心所需的各种链路半导体——这些是优化数据流动的关键设备,包括:△结构链路交换机(通过连接多台设备来管理数据流的装置)△链路控制器(协助设备间高效数据传输的装置)。
现有AI数据中心采用固定结构,CPU、GPU和内存被绑定在服务器单元内。这导致即使某台服务器有闲置资源,也难以被其他服务器调用。尤其当内存不足时,往往不得不连带增加本不需要的GPU,造成重复性的效率低下。这种结构不仅降低了GPU利用率,还推高了AI数据中心的建设与运营成本。
为解决这些问题,两家公司正应用CXL技术,将固定式的服务器单元结构转变为CPU、GPU和内存可自由连接与组合的弹性架构。它们把资源连接的范围从单个服务器内部,扩展到容纳多台服务器的机架层级,从而实现按需选择、调用所需资源。
此外,双方还改变了资源间的连接方式。过去,AI数据中心内的GPU协同运算依赖以太网等通用网络,数据复制和软件干预导致延迟明显。协同运算——即多个GPU共享并合并计算结果的过程——对于大规模AI训练和推理至关重要。
现在,两家公司采用“纵向扩展链路”替代通用网络,以实现更直接的资源连接。纵向扩展链路无需经过网络,即可在资源间建立高速连接,简化数据传输流程,显著提升计算效率。
在此次合作中,SK电信凭借其在大规模AI数据中心建设、运营以及AI模型开发与商业化方面的丰富经验,主导设计适用于实际商用环境的优化架构。Panmnesia则负责利用其多样化的链路半导体技术,实现“纯纵向扩展AI机架”——将原先仅限于服务器内部的纵向扩展链路结构,扩展至机架乃至更广范围。
双方计划通过实际运行AI模型,全面验证GPU与内存利用率、延迟及吞吐量等指标,并于今年年底前公开下一代AI数据中心架构。随后将在大型AI数据中心环境中进行实地测试,进而推动商业化及业务部署。
SK电信AI CIC负责人郑石根表示:“AI数据中心的竞争力不仅取决于GPU性能,更涵盖内存及数据流在内的系统整体优化。此次合作将缓解‘内存墙’——即计算性能提升后,数据移动与供应无法跟上的结构性瓶颈——从而同步提升AI数据中心的性能与经济性。”
Panmnesia首席执行官郑明洙强调:“下一代AI基础设施的性能关键,并非单一设备的能力,而是由各类链路半导体所构建的‘整体结构’。我们将与SK电信携手,共同推出令全球市场瞩目的高效AI数据中心标准模型。”