ICC訊 OCP(Open Compute Project)全球峰會匯聚了全球的技術(shù)創(chuàng)新者,共同分享最新的技術(shù)趨勢,展示前沿解決方案,并建立戰(zhàn)略合作伙伴關(guān)系。今年的峰會于2024年10月14日至17日在美國加州圣何塞舉行,創(chuàng)下了7,000名參會者的記錄。來自世界各地的技術(shù)精英們齊聚一堂,探討未來的技術(shù)發(fā)展方向。而在這場全球矚目的盛會上,以阿里云為代表的中國企業(yè),展示了他們在AI網(wǎng)絡(luò)架構(gòu)、液冷技術(shù)、SRv6和廣域網(wǎng)等前沿領(lǐng)域的強大創(chuàng)新能力,持續(xù)引領(lǐng)全球合作與技術(shù)創(chuàng)新。
中國企業(yè)的持續(xù)引領(lǐng)
中國企業(yè)在2024年OCP峰會上表現(xiàn)尤為突出,尤其是阿里云、字節(jié)跳動、Wiwynn、Micas、Edgecore等公司在技術(shù)創(chuàng)新和展示中的表現(xiàn)引人注目。阿里云以4場網(wǎng)絡(luò)架構(gòu)專題演講和一場SONiC項目演示為亮點,深入涵蓋了AI網(wǎng)絡(luò)架構(gòu)、SRv6、性能優(yōu)化等熱門技術(shù)領(lǐng)域。而字節(jié)跳動貢獻(xiàn)了3場網(wǎng)絡(luò)相關(guān)的演講,進(jìn)一步推動了AI訓(xùn)練集群網(wǎng)絡(luò)的技術(shù)發(fā)展。其他中國公司也在液冷技術(shù)、交換機軟件、CPO交換機等方面展示了全球領(lǐng)先的技術(shù)成果。
AI高性能網(wǎng)絡(luò)集群和架構(gòu)專題
在高密度AI集群下
51.2Tbps交換機的液冷/風(fēng)冷方案最佳實踐
阿里云基礎(chǔ)設(shè)施硬件架構(gòu)師朱芳波&博通產(chǎn)品經(jīng)理吳溪光聯(lián)合分享的這一演講,詳細(xì)闡述了在高密度AI集群場景下,51.2Tbps以太網(wǎng)交換機的最佳散熱解決方案。隨著單機柜的功耗和熱量密度在過去五年中增長了10倍,散熱問題成為AI訓(xùn)練集群中的關(guān)鍵挑戰(zhàn)。為了應(yīng)對這一挑戰(zhàn),演講提出了四種主要解決方案:采用更高帶寬的交換芯片、使用更長的DAC線纜、部署低功耗的LPO光模塊,以及采用CPO(光電共封裝)交換芯片。
阿里云在自研51.2Tbps交換機過程中,探索了兩個最佳風(fēng)冷方案:一是在控制環(huán)境溫度的基礎(chǔ)上,優(yōu)化散熱設(shè)備的布局,以降低整體散熱成本;二是在高功率密度場景中,通過精密模擬和調(diào)整,進(jìn)一步優(yōu)化芯片的散熱性能。此外,阿里云還展示了其最新的液冷方案,通過單冷板設(shè)計實現(xiàn)更有效的散熱,同時降低物料成本。液冷系統(tǒng)在不大幅增加成本的情況下,將系統(tǒng)功耗節(jié)省了800W以上,大大提升了設(shè)備的穩(wěn)定性和性能。
阿里巴巴大規(guī)模
計算集群的網(wǎng)絡(luò)穩(wěn)定性挑戰(zhàn)與實踐
阿里云基礎(chǔ)設(shè)施資深技術(shù)專家施學(xué)美&博通杰出工程師Surendra Anubolu則重點介紹了如何提升大規(guī)模計算集群的網(wǎng)絡(luò)穩(wěn)定性。這一演講針對阿里巴巴大規(guī)模計算集群中的網(wǎng)絡(luò)穩(wěn)定性問題進(jìn)行了深度探討。在AI/ML訓(xùn)練過程中,像allreduce、all2all這樣的同步算子使得網(wǎng)絡(luò)的穩(wěn)定性需求極高。阿里云通過全局流量監(jiān)控、高精度流量分析以及A.M.D(交替DSCP標(biāo)記)方案,顯著提升了AI集群中的網(wǎng)絡(luò)可靠性。高精度流量監(jiān)控技術(shù)可以在亞毫秒粒度內(nèi)捕捉網(wǎng)絡(luò)流量變化,識別網(wǎng)絡(luò)中的細(xì)微擁塞點,并通過算法優(yōu)化進(jìn)一步減少數(shù)據(jù)包丟失。此外,A.M.D方案通過在秒級范圍內(nèi)檢測數(shù)據(jù)包丟失,確保網(wǎng)絡(luò)中的任何異常都能被快速定位和修復(fù)。
阿里巴巴HPN,
面向大模型訓(xùn)練場景的數(shù)據(jù)中心網(wǎng)絡(luò)
阿里云基礎(chǔ)設(shè)施高級技術(shù)專家高佳琦分享阿里巴巴針對大模型訓(xùn)練場景所設(shè)計的第七代高性能網(wǎng)絡(luò)架構(gòu)(HPN 7.0)。傳統(tǒng)的數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)已經(jīng)無法滿足大模型訓(xùn)練對網(wǎng)絡(luò)帶寬、穩(wěn)定性和延遲的極高要求。面對規(guī)模大、流量突發(fā)強、穩(wěn)定性要求高的挑戰(zhàn),阿里巴巴通過創(chuàng)新的“雙上聯(lián)+多軌+雙平面”設(shè)計,打造了一種新型的數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)。
HPN 7.0架構(gòu)結(jié)合最新一代51.2Tbps單芯片以太網(wǎng)交換機和400G高性能網(wǎng)卡,并自研了Solar-RDMA和ACCL通信庫,實現(xiàn)了單層千卡、兩層萬卡的高性能互聯(lián)架構(gòu),最大可支持十萬卡規(guī)模。在此基礎(chǔ)上,該架構(gòu)提升了大模型訓(xùn)練的整體性能,使得阿里云大模型訓(xùn)練的性能在典型場景下提升了14.9%。
HPN 7.0自2023年9月起在阿里云數(shù)據(jù)中心中大規(guī)模部署,大幅提升了AI集群的訓(xùn)練效率和網(wǎng)絡(luò)穩(wěn)定性,為應(yīng)對未來更大規(guī)模的大模型訓(xùn)練提供了堅實的基礎(chǔ)支持。這一創(chuàng)新架構(gòu)不僅優(yōu)化了網(wǎng)絡(luò)性能,還顯著降低了網(wǎng)絡(luò)的延遲和擁塞問題,進(jìn)一步鞏固了阿里云在AI基礎(chǔ)設(shè)施領(lǐng)域的領(lǐng)先地位。
大型AI訓(xùn)練集群中的Scheduled Fabric以太網(wǎng)架構(gòu)
字節(jié)跳動資深網(wǎng)絡(luò)架構(gòu)師霍朋飛和博通產(chǎn)品經(jīng)理吳溪光共同分享了其在構(gòu)建大規(guī)模AI訓(xùn)練集群網(wǎng)絡(luò)中的創(chuàng)新成果,特別是在Scheduled Fabric以太網(wǎng)架構(gòu)方面的研究。這一架構(gòu)能夠支持上千臺服務(wù)器的大型集群,確保了數(shù)據(jù)傳輸?shù)母咝院偷脱舆t。Scheduled Fabric技術(shù)通過時間調(diào)度和帶寬分配的優(yōu)化,大大提高了網(wǎng)絡(luò)的性能和擴展性。在演講中,字節(jié)跳動提出了進(jìn)一步標(biāo)準(zhǔn)化該技術(shù)的提案,旨在推動整個行業(yè)在這一領(lǐng)域的合作與發(fā)展。
多平面拓?fù)渲械淖罴堰x路方案
字節(jié)跳動網(wǎng)絡(luò)研發(fā)工程師Wenda Ni和博通杰出工程師Jai Kumar共同分享了其在多平面拓?fù)浣Y(jié)構(gòu)中的最新研究成果。在多軌道拓?fù)湎?,網(wǎng)絡(luò)流量會盡量在單一平面內(nèi)流動,以最大化鏈路利用率。然而,當(dāng)流量必須跨越多個軌道時,字節(jié)跳動通過精密的測量和遠(yuǎn)程鏈路質(zhì)量的分析,優(yōu)化了跨平面連接的效率,從而實現(xiàn)了彈性擴展和最大吞吐率的平衡。此外,字節(jié)跳動還展示了光電共封裝交換芯片(CPO)技術(shù)的進(jìn)展,進(jìn)一步提高了大規(guī)模網(wǎng)絡(luò)中的數(shù)據(jù)傳輸效率。
未來的廣域網(wǎng)與路由技術(shù) Phoenix Wing計劃–將SONiC SRv6推向部署
在廣域網(wǎng)和路由技術(shù)方面,阿里云基礎(chǔ)設(shè)施網(wǎng)絡(luò)資深技術(shù)專家阮弋星介紹阿里云通過Phoenix Wing計劃展示了其在SRv6部署方面的突破性進(jìn)展。通過這一計劃,阿里云旨在推動SRv6技術(shù)的廣泛應(yīng)用,并號召社區(qū)參與開發(fā)。阮弋星詳細(xì)介紹了該項目的里程碑、開源計劃以及核心貢獻(xiàn)廠商(如思科、微軟、浪潮)之間的合作情況。此外,阿里云展示了基于vSONiC虛擬測試平臺的創(chuàng)新,進(jìn)一步推動了SRv6在廣域網(wǎng)中的落地與應(yīng)用。
展臺:
SONiC demo-Prefix Independent Convergence.
另外,在大會展廳的SONiC展臺上,阿里云與智邦集團(tuán)的工程師們對SONiC在網(wǎng)絡(luò)故障快速恢復(fù)中的優(yōu)化進(jìn)行了精彩演示。通過代碼優(yōu)化,阿里云成功將網(wǎng)絡(luò)故障恢復(fù)時的丟包窗口從近一分鐘縮短至2毫秒。這一成果不僅顯著提升了網(wǎng)絡(luò)的穩(wěn)定性,還贏得了參會者的廣泛關(guān)注和好評。
總結(jié)
此次2024 OCP全球峰會,以阿里云、字節(jié)跳動等公司為代表的中國企業(yè)大放異彩,不僅展示了強大的技術(shù)實力,也通過創(chuàng)新與全球合作,推動了AI基礎(chǔ)設(shè)施和網(wǎng)絡(luò)架構(gòu)的進(jìn)步。在未來,中國企業(yè)有望在全球科技舞臺上扮演越來越重要的角色,為技術(shù)進(jìn)步貢獻(xiàn)更多力量。