11月28日晚間消息,近日,聯想萬全異構智算研發團隊的論文被IEEE CyberSciTech 2025大會接收,并即將收錄于IEEE DL和EI Indexed。此次聯想提出了一項創新性的RNL技術,通過多維感知、路徑負載均衡優化與增量流量遷移,有效解決了AI訓練與推理場景中RoCE網絡負載均衡的長期難題。

  隨著大語言模型參數規模爆發式增長,AI集群規模不斷擴大,RoCEv2(RDMA over Converged Ethernet v2)已成為AI網絡的主流協議。然而,AI訓練與推理基于通信原語(如all-gather、all-reduce)進行數據傳輸,這種模式容易導致網絡流量呈現“低熵、大象流”特征,極易引發負載不均和鏈路擁塞,嚴重制約帶寬利用率與整體性能。

  聯想方面表示,針對上述痛點,團隊提出了RNL技術,可以構建“多維感知+路徑負載均衡+增量遷移”閉環體系,兼具算法創新與實用價值:首先是多維感知機制,可以實時感知網絡拓撲結構、AI任務網絡需求及RoCE鏈路負載狀態,為動態調度提供數據基礎。其次是路徑負載均衡優化,通過虛擬-物理網絡映射與路徑評分算法,智能選擇最優數據傳輸路徑,最大化帶寬利用率。第三是增量流量遷移,該技術采用增量遷移策略,在鏈路流量調整時避免瞬時延遲,確保業務連續性。

  未來,聯想計劃將RNL技術擴展至高性能存儲、HPC等場景,并引入深度學習算法優化擁塞預測能力。同時,聯想將在千卡、萬卡節點的大型AI集群中驗證其綜合性能,持續推動AI網絡技術的創新與迭代