国内首次!百度智能云点亮昆仑芯三代万卡集群
大河财立方
2025-02-05 10:26:25
万卡集群的建成不仅为百度带来了强大的算力支持,还推动了模型降本的趋势

【大河财立方 记者 陈薇】近日,百度智能云成功点亮昆仑芯三代万卡集群,这也是国内首个正式点亮的自研万卡集群。万卡集群的建成不仅为百度带来了强大的算力支持,还推动了模型降本的趋势。百度智能云还将进一步点亮3万卡集群。

万卡集群是指由一万张及以上的加速卡(如GPU、TPU或其他专用AI加速芯片)组成的高性能计算系统,用以训练基础大模型。万卡甚至超万卡智算集群已成为未来智算中心的主要演进趋势,从算力上看,超大规模并行计算能力可实现训练效率跃升,万卡集群可将千亿参数模型的训练周期大幅降低,不仅满足AI原生应用快速迭代的需求,也能支持更大模型与复杂任务和多模态数据,支撑Sora类应用的开发。

此外,万卡集群能够支持多任务并发能力,通过动态资源切分,单集群可同时训练多个轻量化模型,通过通信优化与容错机制减少算力浪费,实现训练成本指数级下降。

过去,多芯混训和激增的故障率等难题,成为万卡集群部署过程中的巨大挑战。2024年9月升级的百度百舸AI异构计算平台4.0,在万卡集群的建设中发挥了至关重要的作用。

百舸4.0突破硬件扩展性瓶颈,避免通信带宽成为瓶颈,同时采用创新性散热方案,从而解决万卡集群的能效与散热问题。在多芯混训方面,百舸展现了强大的资源整合能力,它能够将不同地点、不同规模的异构算力进行统一管理,构建起多芯资源池。从而最大化地利用集群的剩余资源,实现95%的万卡多芯混合训练效能。

在集群稳定性方面,百舸提供了全面的故障诊断手段,能够快速自动侦测到导致训练任务异常的节点故障。将故障恢复时间从小时级降低到分钟级,极大地提高了集群的可靠性和可用性。

日前,花旗银行发布研报表示,DeepSeek、百度等中国模型展现出高效和低成本优势,将有助于加速全球AI应用开发,并在全球引发更多技术创新,推动2025年人工智能应用的拐点。

责编:陈玉尧 | 审校:陈筱娟 | 审核:李震 | 监审:万军伟


相关资讯