11月26日,近日,華為聯合上海交通大學、西安交通大學、廈門大學,在“2025AI容器應用落地與發展論壇”上正式發布并開源AI容器技術Flex:ai。這一技術旨在通過虛擬化與資源池化,實現算力資源的精細化管理與智能調度,推動AI從“高大上”走向“平民化”。

“人工智能是非常高大上的名詞。我們在過去兩年當中聽到了萬億級參數,百萬億級的參數,我們也聽到了某某公司買了多少千張卡,多少萬張卡……”華為公司副總裁、數據存儲產品線總裁周躍峰在論壇上直言,“但讓AI能夠平民化,讓所有企業甚至家庭都能夠享受AI帶來的便利與高效率,依然是一個話題,依然有很多挑戰。”他以醫療行業為例指出,一個醫院的某一科室通常僅配備4張、8張或最多16張算力卡,ICT年投入經費僅數千萬人民幣。“在這樣的集群中,很難進行粗放的GPU或NPU調度。”周躍峰強調,“我們能不能把一張卡虛擬化成多張卡?讓每一張卡的算力能力充分釋放?”

華為數據存儲產品線DCS AI首席架構師劉淼進一步指出三大核心痛點:小任務單卡算力用不完,例如使用Llama3.0 3B模型進行文本總結時,單卡算力利用率極低,RAG模型僅占用3%-5%;大任務單機算力不夠用,需跨節點聚合資源;多任務并發調度難題,如醫院多名病理醫生同時進行AI診斷,資源爭搶嚴重。“我們發現,在模型開發階段,許多企業僅擁有有限算力卡,卻需同時支持開發、訓練與推理。”劉淼表示,“如何讓算力‘活’起來,是Flex:ai要解決的根本問題。”

針對上述問題,華為與三所高校分別從資源切分、跨節點聚合與智能調度三個維度展開攻關。上海交通大學軟件學院戚正偉教授介紹了XPU資源池化框架的核心原理:“我們通過API劫持與轉發,將單張GPU或NPU切分為1/4、1/8、1/16等虛擬算力單元,實現空間共享與資源隔離。”他展示了在交大網絡中心的測試數據:未進行虛擬化時,訓練任務資源利用率僅為20%,訓練耗時1小時;通過虛擬化與調度優化后,利用率提升至80%,雖單任務耗時增至3小時,但支持多任務并行,整體訓練效率顯著提升。“我們在NPU上的初步實驗顯示,資源利用率可達99%。”戚正偉補充道,“通過細粒度切分與隔離,不同任務在同一張卡上運行時互不干擾,實現‘用多少,切多少’的彈性分配。”

廈門大學信息學院/上海交通大學計算機學院張一鳴教授指出,當前企業中存在大量缺乏GPU/NPU的通用服務器,形成“算力孤島”。“我們與華為研發的跨節點拉遠虛擬化技術,通過API劫持與RDMA高速網絡,將集群中各節點的空閑XPU算力聚合為‘共享算力池’。”張一鳴解釋,“通用服務器可透明地將AI任務轉發至遠端算力卡執行,實現通算與智算的融合。”在端到端實驗中,該方案相比現有最優技術提升67%高優先級作業吞吐量,并有效利用17%的內部碎片資源。張一鳴強調:“通過將XPU上下文從CPU進程中解耦,我們實現了跨節點的靈活映射與性能感知的時空復用。”

西安交通大學計算機科學與技術學院院長張興軍教授將調度系統比喻為“算力網絡的交通系統”。他指出,AI模型訓練與推理本質是計算與數據的協同,需從底層算力資源入手實現細粒度調度。“我們與華為共同研發的Hi Scheduler調度器,支持對國產GPU、NPU等異構算力進行時分與空分切分。”張興軍介紹,“通過分層調度機制,離線計算最優資源分配策略,在線執行動態調度,有效應對負載波動。”在實際場景中,該調度器使集群整體資源利用率提升30%,并保障多租戶環境下的公平性與隔離性。

“光靠華為公司的軟件工程師的力量是遠遠難以完成AI行業化落地的。”周躍峰在發布儀式上坦言。為此,華為將Flex:ai全棧技術開源,并聯合三所高校持續迭代。劉淼進一步闡述了開源路徑:“開源模塊包括智能調度器與算力虛擬化組件,支持與Kubernetes等主流框架集成。未來我們將推動南向異構算力兼容,構建標準化接口。”戚正偉指出,開源能加速技術普及與生態共建:“RunAI等方案受限于商業合作與硬件綁定,而Flex:ai面向異構硬件開放,更具通用性。”張一鳴透露,廈門大學已在布局拓撲感知調度、推理負載優化等后續研究方向,推動Flex:ai在復雜場景中落地。

華為2012實驗室理論研究部首席研究員張弓從底層技術挑戰切入,指出企業部署AI推理面臨“高服務質量與低資源利用率”的根本矛盾。“以醫院為例,白天推理服務器負載峰值,夜間閑置,資源利用率極低。”張弓表示,“要實現動態擴縮、任務遷移與細粒度資源分配,需突破三大技術:保序流圖、細粒度資源隔離與安全點協議。”他分享了初步實驗結果:通過算子劫持、狀態同步與分層調度,在單卡場景下實現故障遷移與性能隔離,開銷控制在5%以內。“但跨節點遷移與大規模集群調度仍是待攻克難點。”張弓坦言。