近来,在中国移动集团公司指导下,中国移动研讨院联合中国移动黑龙江公司在全球运营商最大单集群智算中心中国移动(哈尔滨)数据中心完结首个面向PP(流水线并行)练习的OTN承载百公里级智算分布式协同现网技能实验。本次技能实验初次完结了根据800G OTN的104km跨智算集群分布式PP练习,完结了同等单节点练习功率98%以上的高效协同练习,是业界初次百公里级跨集群PP练习可行性技能验证探究。
跟着智算集群规划向超万卡演进,单智算节点的继续扩容将面对电力供应、机房空间的巨大应战,并且智算中心分地域、分时期、分阶段建造现象较为遍及。智算分布式协同是破解单节点扳话布置受限、算力资源孤岛等难题的重要解决计划。而如何将分布式布置的智算节点进行高效的互联,充沛的发挥算力资源的最大效能,是业界亟需研讨的核心问题。OTN具有大带宽、安稳低时延、高牢靠等传输和组网技能特色,已大范围的应用于主干传送和城域传送网络,是构建跨集群分布式练习的潜在互联技能。而分布式智算对光网络的新需求与选用的DP(数据并行)、PP等练习并行形式直接相关,其间,PP是根底大模型练习的最常用并行方法之一,比较DP具有通讯频次高、通讯时刻不行悉数掩盖等更高难度,其拉远可行性在业界存在比较大不合。
中国移动研讨院面向智算分布式协同场景继续展开技能立异,完结业界首个面向PP练习的OTN承载百公里级智算分布式协同技能现网实验。在实验中根据800G OTN互联的两个智算集群上运转700亿级参数的大型根底言语模型,在64张GPU卡、4个PP域分别在相距104km的两个节点布置场景下,完结了同等单节点练习功率98%以上的高效协同练习,是业界初次验证了OTN承载根据PP的百公里跨集群练习可行性,为分布式智算技能演进供给了全新技能道路和详实实验数据。此外,还立异提出了面向智算分布式协同的OTN无损倒换技能计划,经过芯片级算法完结传输链路断纤、误码时练习功率的无损和无感知。
自2023年起,中国移动研讨院联合国内合作伙伴,展开跨集群分布式练习互联技能攻关,立异提出根据OTN的智算分布式协同架构,初次完结2-100公里不同间隔多场景下OTN承载分布式智算技能实验,相关成果在光通讯顶会ECOC宣布。中国移动后续将环绕智算分布式协同深化推进关键技能攻关、原型研制与实验验证,探究分布式智算中心新形式。
中国移动研讨院完结首个面向流水线并行练习的OTN承载百公里级智算分布式协同现网技能实验