用戶名: 密碼: 驗證碼:

2024 OCP全球峰會:阿里云為代表的中國企業(yè),引領全球AI網(wǎng)絡合作和技術創(chuàng)新

摘要:OCP(Open Compute Project)全球峰會上,以阿里云為代表的中國企業(yè),展示了他們在AI網(wǎng)絡架構、液冷技術、SRv6和廣域網(wǎng)等前沿領域的強大創(chuàng)新能力,持續(xù)引領全球合作與技術創(chuàng)新。

  ICC訊 OCP(Open Compute Project)全球峰會匯聚了全球的技術創(chuàng)新者,共同分享最新的技術趨勢,展示前沿解決方案,并建立戰(zhàn)略合作伙伴關系。今年的峰會于2024年10月14日至17日在美國加州圣何塞舉行,創(chuàng)下了7,000名參會者的記錄。來自世界各地的技術精英們齊聚一堂,探討未來的技術發(fā)展方向。而在這場全球矚目的盛會上,以阿里云為代表的中國企業(yè),展示了他們在AI網(wǎng)絡架構、液冷技術、SRv6和廣域網(wǎng)等前沿領域的強大創(chuàng)新能力,持續(xù)引領全球合作與技術創(chuàng)新。

  中國企業(yè)的持續(xù)引領

  中國企業(yè)在2024年OCP峰會上表現(xiàn)尤為突出,尤其是阿里云、字節(jié)跳動、Wiwynn、Micas、Edgecore等公司在技術創(chuàng)新和展示中的表現(xiàn)引人注目。阿里云以4場網(wǎng)絡架構專題演講和一場SONiC項目演示為亮點,深入涵蓋了AI網(wǎng)絡架構、SRv6、性能優(yōu)化等熱門技術領域。而字節(jié)跳動貢獻了3場網(wǎng)絡相關的演講,進一步推動了AI訓練集群網(wǎng)絡的技術發(fā)展。其他中國公司也在液冷技術、交換機軟件、CPO交換機等方面展示了全球領先的技術成果。

AI高性能網(wǎng)絡集群和架構專題

在高密度AI集群下

51.2Tbps交換機的液冷/風冷方案最佳實踐

  阿里云基礎設施硬件架構師朱芳波&博通產(chǎn)品經(jīng)理吳溪光聯(lián)合分享的這一演講,詳細闡述了在高密度AI集群場景下,51.2Tbps以太網(wǎng)交換機的最佳散熱解決方案。隨著單機柜的功耗和熱量密度在過去五年中增長了10倍,散熱問題成為AI訓練集群中的關鍵挑戰(zhàn)。為了應對這一挑戰(zhàn),演講提出了四種主要解決方案:采用更高帶寬的交換芯片、使用更長的DAC線纜、部署低功耗的LPO光模塊,以及采用CPO(光電共封裝)交換芯片。

  阿里云在自研51.2Tbps交換機過程中,探索了兩個最佳風冷方案:一是在控制環(huán)境溫度的基礎上,優(yōu)化散熱設備的布局,以降低整體散熱成本;二是在高功率密度場景中,通過精密模擬和調整,進一步優(yōu)化芯片的散熱性能。此外,阿里云還展示了其最新的液冷方案,通過單冷板設計實現(xiàn)更有效的散熱,同時降低物料成本。液冷系統(tǒng)在不大幅增加成本的情況下,將系統(tǒng)功耗節(jié)省了800W以上,大大提升了設備的穩(wěn)定性和性能。

  阿里巴巴大規(guī)模

計算集群的網(wǎng)絡穩(wěn)定性挑戰(zhàn)與實踐

  阿里云基礎設施資深技術專家施學美&博通杰出工程師Surendra Anubolu則重點介紹了如何提升大規(guī)模計算集群的網(wǎng)絡穩(wěn)定性。這一演講針對阿里巴巴大規(guī)模計算集群中的網(wǎng)絡穩(wěn)定性問題進行了深度探討。在AI/ML訓練過程中,像allreduce、all2all這樣的同步算子使得網(wǎng)絡的穩(wěn)定性需求極高。阿里云通過全局流量監(jiān)控、高精度流量分析以及A.M.D(交替DSCP標記)方案,顯著提升了AI集群中的網(wǎng)絡可靠性。高精度流量監(jiān)控技術可以在亞毫秒粒度內(nèi)捕捉網(wǎng)絡流量變化,識別網(wǎng)絡中的細微擁塞點,并通過算法優(yōu)化進一步減少數(shù)據(jù)包丟失。此外,A.M.D方案通過在秒級范圍內(nèi)檢測數(shù)據(jù)包丟失,確保網(wǎng)絡中的任何異常都能被快速定位和修復。

阿里巴巴HPN,

面向大模型訓練場景的數(shù)據(jù)中心網(wǎng)絡

  阿里云基礎設施高級技術專家高佳琦分享阿里巴巴針對大模型訓練場景所設計的第七代高性能網(wǎng)絡架構(HPN 7.0)。傳統(tǒng)的數(shù)據(jù)中心網(wǎng)絡架構已經(jīng)無法滿足大模型訓練對網(wǎng)絡帶寬、穩(wěn)定性和延遲的極高要求。面對規(guī)模大、流量突發(fā)強、穩(wěn)定性要求高的挑戰(zhàn),阿里巴巴通過創(chuàng)新的“雙上聯(lián)+多軌+雙平面”設計,打造了一種新型的數(shù)據(jù)中心網(wǎng)絡架構。

  HPN 7.0架構結合最新一代51.2Tbps單芯片以太網(wǎng)交換機和400G高性能網(wǎng)卡,并自研了Solar-RDMA和ACCL通信庫,實現(xiàn)了單層千卡、兩層萬卡的高性能互聯(lián)架構,最大可支持十萬卡規(guī)模。在此基礎上,該架構提升了大模型訓練的整體性能,使得阿里云大模型訓練的性能在典型場景下提升了14.9%。

  HPN 7.0自2023年9月起在阿里云數(shù)據(jù)中心中大規(guī)模部署,大幅提升了AI集群的訓練效率和網(wǎng)絡穩(wěn)定性,為應對未來更大規(guī)模的大模型訓練提供了堅實的基礎支持。這一創(chuàng)新架構不僅優(yōu)化了網(wǎng)絡性能,還顯著降低了網(wǎng)絡的延遲和擁塞問題,進一步鞏固了阿里云在AI基礎設施領域的領先地位。

  大型AI訓練集群中的Scheduled Fabric以太網(wǎng)架構

  字節(jié)跳動資深網(wǎng)絡架構師霍朋飛和博通產(chǎn)品經(jīng)理吳溪光共同分享了其在構建大規(guī)模AI訓練集群網(wǎng)絡中的創(chuàng)新成果,特別是在Scheduled Fabric以太網(wǎng)架構方面的研究。這一架構能夠支持上千臺服務器的大型集群,確保了數(shù)據(jù)傳輸?shù)母咝院偷脱舆t。Scheduled Fabric技術通過時間調度和帶寬分配的優(yōu)化,大大提高了網(wǎng)絡的性能和擴展性。在演講中,字節(jié)跳動提出了進一步標準化該技術的提案,旨在推動整個行業(yè)在這一領域的合作與發(fā)展。

  多平面拓撲中的最佳選路方案

  字節(jié)跳動網(wǎng)絡研發(fā)工程師Wenda Ni和博通杰出工程師Jai Kumar共同分享了其在多平面拓撲結構中的最新研究成果。在多軌道拓撲下,網(wǎng)絡流量會盡量在單一平面內(nèi)流動,以最大化鏈路利用率。然而,當流量必須跨越多個軌道時,字節(jié)跳動通過精密的測量和遠程鏈路質量的分析,優(yōu)化了跨平面連接的效率,從而實現(xiàn)了彈性擴展和最大吞吐率的平衡。此外,字節(jié)跳動還展示了光電共封裝交換芯片(CPO)技術的進展,進一步提高了大規(guī)模網(wǎng)絡中的數(shù)據(jù)傳輸效率。

  未來的廣域網(wǎng)與路由技術 Phoenix Wing計劃–將SONiC SRv6推向部署

  在廣域網(wǎng)和路由技術方面,阿里云基礎設施網(wǎng)絡資深技術專家阮弋星介紹阿里云通過Phoenix Wing計劃展示了其在SRv6部署方面的突破性進展。通過這一計劃,阿里云旨在推動SRv6技術的廣泛應用,并號召社區(qū)參與開發(fā)。阮弋星詳細介紹了該項目的里程碑、開源計劃以及核心貢獻廠商(如思科、微軟、浪潮)之間的合作情況。此外,阿里云展示了基于vSONiC虛擬測試平臺的創(chuàng)新,進一步推動了SRv6在廣域網(wǎng)中的落地與應用。

展臺:

SONiC demo-Prefix Independent Convergence.

  另外,在大會展廳的SONiC展臺上,阿里云與智邦集團的工程師們對SONiC在網(wǎng)絡故障快速恢復中的優(yōu)化進行了精彩演示。通過代碼優(yōu)化,阿里云成功將網(wǎng)絡故障恢復時的丟包窗口從近一分鐘縮短至2毫秒。這一成果不僅顯著提升了網(wǎng)絡的穩(wěn)定性,還贏得了參會者的廣泛關注和好評。

  總結

  此次2024 OCP全球峰會,以阿里云、字節(jié)跳動等公司為代表的中國企業(yè)大放異彩,不僅展示了強大的技術實力,也通過創(chuàng)新與全球合作,推動了AI基礎設施和網(wǎng)絡架構的進步。在未來,中國企業(yè)有望在全球科技舞臺上扮演越來越重要的角色,為技術進步貢獻更多力量。


1、凡本網(wǎng)注明“來源:訊石光通訊網(wǎng)”及標有原創(chuàng)的所有作品,版權均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉載、摘編及鏡像,違者必究。對于經(jīng)過授權可以轉載我方內(nèi)容的單位,也必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和本站來源。
2、免責聲明,凡本網(wǎng)注明“來源:XXX(非訊石光通訊網(wǎng))”的作品,均為轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責。因可能存在第三方轉載無法確定原網(wǎng)地址,若作品內(nèi)容、版權爭議和其它問題,請聯(lián)系本網(wǎng),將第一時間刪除。
聯(lián)系方式:訊石光通訊網(wǎng)新聞中心 電話:0755-82960080-168   Right