降低“卡脖子”风险！上海AI实验室实现千里算力互联训练千亿模型-麦享科技

降低“卡脖子”风险！上海AI实验室实现千里算力互联训练千亿模型

麦享科技7月20日消息，据媒体报道，上海人工智能实验室（上海AI实验室）发布DeepLink超大规模跨域混训技术方案，并已完成多个项目落地，支持千公里多智算中心跨域长稳混训千亿参数大模型。

此举在全球首次实现长距离跨域异构智能算力的高效整合，不仅可化解全国算力资源分布不均、利用率不高的瓶颈，更可降低AI行业对特定芯片的依赖，一旦出现供应链波动，将为AI产业提供重要的兜底算力支持，避免被“卡脖子”。

上海AI实验室介绍，今年2月，上海AI实验室联合十余家合作伙伴在上海构建了超大规模跨域混训集群原型，完成了千亿参数大模型连续20天不间断训练。随后，该实验室融合中国联通AINET算力智联网，跨越1500公里连接上海与济南的智算中心，成功实现了千亿参数大模型的跨域混训。

“跨域混训”指的是将位于不同地域、基于不同芯片架构（异构）的多个算力集群互联，协同训练同一模型。这种“跨域+异构”模式虽能汇聚更多算力资源，但技术挑战巨大，此前国内外尚无成功用于生产级模型训练的先例。互联障碍往往导致训练效率极低甚至失败。上海AI实验室此次实现了“零的突破”。实测数据表明，其与中国联通合作的跨域混训，等效算力高达单集群单芯片算力的95%以上。

当前，国内算力建设快速发展，但也存在区域间资源分布与使用不均衡的现象（如西部地区部分算力资源存在闲置）。同时，智算中心硬件架构多样化趋势明显。因此，整合和盘活跨域异构算力资源具有重要战略价值。

DeepLink方案创新采用“3D+PS”的高内聚低耦合架构，本质上是“以算法换带宽”。它将大规模训练任务分发至千里之外的智算中心，通过算法创新显著降低对网络带宽的依赖，仅需普通专线网络即可开展大模型训练。该方案还具备高容错性，即使某地节点故障，整体训练仍可持续。

除中国联通外，上海AI实验室还与中国电信、商汤、仪电等智算平台合作。基于中国电信息壤算网，在不足10G带宽条件下，实现了北京、上海、贵州三地智算中心互联和大模型混训，等效算力依然保持在90%以上。理论上，DeepLink支持动态配置数千公里的跨域混训，国内任意两地智算中心均可借此实现算力整合。

中国联通AINET算力智联网在长距无损协议及硬件架构上提供支撑，而DeepLink则在算法和软件层面实现突破。双方合作探索了全国算力高效利用的新路径：将分散的“碎片化”算力聚零为整，形成高价值资源。未来，面对规模激增的AI模型对算力的革命性需求，该方案有望避免新建天价超大型智算中心，转而通过“低成本组合”现有算力中心满足训练需求。

上海AI实验室表示，下一步将深化DeepLink应用，组建算力生态，拓展应用场景，推动方案被更多服务商整合。目标是让用户能便捷地在全国范围内选择高性价比算力，助力全国算力一体化布局。同时，实验室也将面向AI大模型混合推理、分布式强化学习等多元算力需求，持续完善技术方案。

降低“卡脖子”风险！上海AI实验室实现千里算力互联训练千亿模型

降低“卡脖子”风险！上海AI实验室实现千里算力互联训练千亿模型

相关推荐

评论抢沙发

文章评论已关闭！

网购比价

网购返利

外卖红包

本地生活

麦享生活

相关推荐

评论 抢沙发

文章评论已关闭！

网购比价

网购返利

外卖红包

本地生活

麦享生活

评论抢沙发