4月29日,在中國移動算力網絡大會-算力網絡未來產業(yè)暨聯(lián)合體創(chuàng)新論壇上,中國移動重磅發(fā)布《面向超萬卡集群的新型智算技術白皮書》(簡稱 “白皮書”),國務院國資委科技創(chuàng)新局副局長賈興元、中國移動副總經理高同慶聯(lián)合華為、中興、新華三、中科曙光、浪潮、超聚變等合作伙伴出席發(fā)布儀式,共同見證新型智算技術邁向新臺階。該白皮書由中國移動研究院專家團隊牽頭撰寫,凝聚了中國移動和產業(yè)伙伴在超萬卡集群建設方面的技術攻關和實踐經驗,是業(yè)界首部系統(tǒng)性闡述超萬卡集群核心設計原則和關鍵技術的白皮書。
自ChatGPT發(fā)布以來,科技界掀起了一場大模型的競爭熱潮,各行各業(yè)加速從“+AI”向“AI+”轉變。隨著模型參數(shù)量從千億邁向萬億,大模型對底層算力提出更高要求。當前,智算集群的規(guī)模以千卡為主,且多基于英偉達GPU構建,萬卡甚至超萬卡集群的建設還處于初級階段,業(yè)界普遍認為萬卡集群將有助于進一步壓縮大模型訓練時間,實現(xiàn)模型能力的快速迭代。基于萬卡集群實現(xiàn)大模型高效的訓練,并長期保持訓練的穩(wěn)定性,是將大模型訓練擴展到數(shù)萬張GPU卡上所要面臨的雙重挑戰(zhàn)。
中國工程院鄭緯民院士表示,“基于國產系統(tǒng)構建萬卡集群,雖然很難,但很必要”。為了助力國內智算設施向萬卡規(guī)模演進,本白皮書提出超萬卡集群的五大核心設計原則:堅持打造極致集群算力、堅持構建協(xié)同調優(yōu)系統(tǒng)、堅持實現(xiàn)長穩(wěn)可靠訓練、堅持提供靈活算力供給、堅持推進綠色低碳發(fā)展。此外,白皮書進一步從集群高能效計算技術、高性能融合存儲技術、大規(guī)模服務器間高可靠網絡技術、高容錯高能效平臺技術和新型智算機房設計等五個方面全面闡述了超萬卡集群建設的核心技術要求,為國內智算基礎設施的建設提供技術建議。
面向未來,中國移動正大力推進GPU高速卡間互聯(lián)全向智感OISA、遠距跨集群訓練、自動化分布式訓練框架等技術的快速成熟,為萬卡集群的創(chuàng)新突破打下堅實的基礎。
中國移動踐行央企責任使命,全面擁抱“AI+”時代,通過白皮書發(fā)布,凝聚產業(yè)共識,與業(yè)界一起應對超萬卡集群帶來的前所未有的挑戰(zhàn),共同牽引AI產業(yè)全面升維,助力新質生產力動能躍遷。