簡介
在人工智能(AI)和機(jī)器學(xué)習(xí)(ML)技術(shù)進(jìn)步的推動(dòng)下,數(shù)據(jù)消費(fèi)呈指數(shù)級(jí)增長,對(duì)現(xiàn)代數(shù)據(jù)中心的高速連接產(chǎn)生了前所未有的需求。隨著人工智能模型的復(fù)雜性不斷提高,參數(shù)數(shù)量達(dá)到天文數(shù)字(例如,BaGuaLu 的內(nèi)核數(shù)量超過 3,700 萬),對(duì)帶寬和低延遲互連的需求變得非常重要。本文將探討能夠支持超過 200 Gbps 數(shù)據(jù)傳輸速率的下一代有線收發(fā)器的行業(yè)趨勢(shì)、新興技術(shù)和設(shè)計(jì)考慮因素,這些對(duì)于實(shí)現(xiàn)人工智能和數(shù)據(jù)中心應(yīng)用中的無縫數(shù)據(jù)流非常重要,Alphawave的Tony Chan Carusone在ISSCC2024論壇上發(fā)布了題為:”The Impact of Industry Trends on 200+Gbps Wireline R&D” 的報(bào)告,本文將梳理其中的大致內(nèi)容。
驅(qū)動(dòng)連接需求的大趨勢(shì)
1. 人工智能連接性和擴(kuò)展性
人工智能和 ML 工作負(fù)載的快速增長導(dǎo)致了大規(guī)模計(jì)算集群的部署,這些集群由數(shù)百到數(shù)千個(gè)通過高速鏈路互連的加速器(xPU)組成。到 2027 年,預(yù)計(jì)約 50% 的市場(chǎng)收入將由人工智能加速服務(wù)器驅(qū)動(dòng),其中 20% 的以太網(wǎng)數(shù)據(jù)中心交換機(jī)端口將連接到人工智能服務(wù)器。此外,預(yù)計(jì)這些交換機(jī)端口中的 50% 將以 400 Gbps 或更高的速度運(yùn)行,到 2025 年,800 Gbps 的增長速度將超過 400 Gbps(圖 1)。
圖 1:人工智能連接和擴(kuò)展的預(yù)計(jì)增長(來源:Dell'Oro Group 數(shù)據(jù)中心 IT 資本支出預(yù)測(cè),2023 年 1 月)
2. 分解存儲(chǔ)
推動(dòng)高速連接需求的另一個(gè)重要趨勢(shì)是分解存儲(chǔ)架構(gòu)的興起。通過將存儲(chǔ)集中在共享池中,數(shù)據(jù)中心可以提高效率,實(shí)現(xiàn)更大的共享池,從而提高資源利用率。然而,這種方法依賴于 PCIe 和 CXL 等低延遲互連,以確保計(jì)算資源和分解存儲(chǔ)之間的無縫通信。
3. 有線收發(fā)器趨勢(shì)
為滿足不斷增長的帶寬需求,有線收發(fā)器數(shù)據(jù)速率大約每五年翻一番(圖 2)。預(yù)計(jì)這一趨勢(shì)將持續(xù)下去,在不久的將來,200 鏈路收發(fā)器將被廣泛采用,隨后幾年將出現(xiàn) 400 Gbps 和 800 Gbps 鏈路收發(fā)器。
圖 2:2010-2023 年已發(fā)布的收發(fā)器,顯示數(shù)據(jù)速率每五年翻一番的趨勢(shì)(來源:ISSCC 論壇)
4. 200G 鏈路的優(yōu)勢(shì)
采用 200Gbps 鏈路比采用較低數(shù)據(jù)傳輸速率的鏈路更具優(yōu)勢(shì)。例如,一個(gè) 51.2 Tbps 的 1RU(機(jī)架單元)交換機(jī)需要 32 個(gè)模塊,每個(gè)模塊有 16 x 100 Gbps 光鏈路,與 8 x 200 Gbps 鏈路的同等配置相比,激光器數(shù)量增加了一倍。通過減少激光器數(shù)量,200 Gbps 鏈路可大幅降低功耗和成本。此外,更高的每信道數(shù)據(jù)傳輸速率可使網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)更扁平,采用更高的弧度交換機(jī),從而減少延遲-這是人工智能工作負(fù)載的關(guān)鍵要求。
200G 鏈路的新技術(shù)和注意事項(xiàng)
1. 收發(fā)器內(nèi)部
要支持 200 Gbps 的數(shù)據(jù)傳輸速率,有線收發(fā)器必須采用先進(jìn)的數(shù)字信號(hào)處理 (DSP) 技術(shù)和強(qiáng)大的前向糾錯(cuò) (FEC) 方案。為了減輕因嚴(yán)重信道損耗(大于 30 dB)而造成的符號(hào)間干擾(ISI),必須采用大量均衡,如具有大量抽頭的決策反饋均衡器(DFE)。此外,巡回抽頭有限脈沖響應(yīng)(FIR)均衡器等 DSP 技術(shù)也有助于解決短電纜信道中的反射問題。
FEC 在確保通過有損信道進(jìn)行可靠的數(shù)據(jù)傳輸方面發(fā)揮著重要的作用。在 200 Gbps 的速率下,需要更強(qiáng)大的 FEC 方案,從而導(dǎo)致解碼復(fù)雜度、功耗和延遲增加。為了平衡編碼增益、功耗和延遲之間的權(quán)衡,目前正在探索分段 FEC(每個(gè)鏈路段都由自己的優(yōu)化 FEC 保護(hù))和串聯(lián) FEC(為光鏈路提供雙重保護(hù))等技術(shù)。
在 200 Gbps 速率下采用軟決策 FEC 的一個(gè)重要架構(gòu)影響是有效排除了模擬串行器/解串器(SerDes)架構(gòu)。取而代之的是,有必要在 FEC 和模擬前端 (AFE) 之間進(jìn)行更緊密的集成,這有利于基于模數(shù)轉(zhuǎn)換器 (ADC) 的 DSP SerDes 架構(gòu)。
2. 200G 光電子技術(shù)
目前正在為每波長 200 Gbps 的應(yīng)用研究各種調(diào)制技術(shù)。電吸收調(diào)制激光器(EML)是一種很有前途的選擇,提供了適度的擺幅要求和差分驅(qū)動(dòng)配置的潛力。然而,在優(yōu)化消光比(ER)和啁啾方面仍然存在挑戰(zhàn),尤其是在較長的波長上。
硅基光電子(SiP)馬赫-澤恩德調(diào)制器(MZM)和微環(huán)諧振器調(diào)制器(MRM)因其集成潛力和低成本而頗具吸引力。然而,對(duì)于 200 Gbps 的 SiP 調(diào)制器來說,同時(shí)實(shí)現(xiàn)所需的帶寬、調(diào)制效率 (Vπ) 和低光損耗仍然是一項(xiàng)挑戰(zhàn)。
薄膜鈮酸鋰(TFLN)調(diào)制器也在探索之中,能提供高帶寬和低驅(qū)動(dòng)電壓,但成本較高,而且存在潛在的集成挑戰(zhàn)。
3. 光/電協(xié)同設(shè)計(jì)
隨著數(shù)據(jù)速率的提高,光學(xué)和電子組件的協(xié)同設(shè)計(jì)和共同優(yōu)化變得越來越重要。例如,接收器中光電二極管(PD)和跨阻抗放大器(TIA)之間的封裝互連對(duì)寬帶頻率響應(yīng)有重大影響。優(yōu)化跡線阻抗和采用片上 T 型線圈等技術(shù)可以提高帶寬并減少反射。
此外,最佳設(shè)計(jì)參數(shù)可能因 DSP 均衡的存在和功能而異。在沒有 DSP 均衡的情況下,最大限度地減少反射至關(guān)重要,而在有 DSP 均衡的情況下,保留一些殘余反射則有利于實(shí)現(xiàn)更好的整體性能。
4. 光電共封裝器件 (CPO)
為了應(yīng)對(duì)芯片到模塊互連的挑戰(zhàn),并實(shí)現(xiàn)更高的總帶寬,光電共封裝器件(CPO)解決方案正日益受到重視。通過將光學(xué)引擎與 ASIC 集成在同一封裝內(nèi),CPO 可以消除對(duì)復(fù)位時(shí)器的需求、降低功耗并減少延遲。不過,CPO 也帶來了一些挑戰(zhàn),例如封裝內(nèi)功率密度和熱管理的增加,以及創(chuàng)新生態(tài)系統(tǒng)的潛在限制。
超越 200 Gbps: 新興技術(shù)
1. 并行性: 波分復(fù)用和 PSM
為了使每個(gè)波長的傳輸速率超過 200 Gbps,目前正在探索波分復(fù)用(WDM)和并行單模(PSM)光纖架構(gòu)等技術(shù)。波分復(fù)用技術(shù)是在單根光纖上復(fù)用多個(gè)波長,從而實(shí)現(xiàn)更高的綜合數(shù)據(jù)傳輸速率。緊湊型調(diào)制技術(shù)、低成本和低損耗的波長復(fù)用器/解復(fù)用器以及多波長激光源是實(shí)現(xiàn)波分復(fù)用技術(shù)的關(guān)鍵因素。
2.高階調(diào)制格式
提高波特率和采用高階調(diào)制格式(如 6-PAM 和 8-PAM)是實(shí)現(xiàn)每線路數(shù)據(jù)速率超過 200 Gbps 的潛在途徑。不過,這些方法需要在模擬帶寬、DSP 和編碼技術(shù)方面取得重大進(jìn)展。
3. 相干光通信
相干光通信是一項(xiàng)在長途網(wǎng)絡(luò)中得到驗(yàn)證的技術(shù),目前正被用于數(shù)據(jù)中心內(nèi)的短距離傳輸。通過利用雙偏振正交幅度調(diào)制(DP-QAM)等相干調(diào)制格式,相干鏈路在相同波特率下的數(shù)據(jù)傳輸速率是強(qiáng)度調(diào)制和直接檢測(cè)(IM/DD)鏈路的四倍。
針對(duì) 10 千米以下的傳輸距離量身定制的輕型相干解決方案的最新發(fā)展已顯示出良好的效果。這些解決方案利用 O 波段(約 1310 nm)降低 DSP 功耗,同時(shí)保持短距離應(yīng)用可接受的光纖損耗。此外,還在探索同步波特率采樣 DSP 架構(gòu),以進(jìn)一步降低相干收發(fā)器的功耗和延遲。
結(jié)論
在人工智能和 ML 技術(shù)的推動(dòng)下,數(shù)據(jù)消費(fèi)持續(xù)增長,對(duì)現(xiàn)代數(shù)據(jù)中心的高速連接產(chǎn)生了前所未有的需求。為滿足這些需求,業(yè)界正在積極開發(fā)能夠支持超過 200 Gbps 數(shù)據(jù)傳輸速率的下一代有線收發(fā)器。
200 Gbps 鏈路的關(guān)鍵技術(shù)和考慮因素包括先進(jìn)的 DSP 技術(shù)、強(qiáng)大的 FEC 方案、光學(xué)和電子組件的協(xié)同設(shè)計(jì)以及對(duì)新光學(xué)調(diào)制格式的探索。此外,光電共封裝和相干光通信正在成為有前途的解決方案,以應(yīng)對(duì)芯片到模塊互連的挑戰(zhàn),并在數(shù)據(jù)中心內(nèi)實(shí)現(xiàn)更高的數(shù)據(jù)傳輸速率。
當(dāng)我們將目光投向 200 Gbps 以上時(shí),也正在積極研究波分復(fù)用技術(shù)、高階調(diào)制格式和短距離相干光通信等技術(shù)。包括模擬和數(shù)字設(shè)計(jì)、編碼理論、光學(xué)和系統(tǒng)架構(gòu)在內(nèi)的各學(xué)科間的合作,對(duì)于克服挑戰(zhàn)并實(shí)現(xiàn)未來人工智能和數(shù)據(jù)中心應(yīng)用中的無縫數(shù)據(jù)流非常重要。
參考文獻(xiàn)
[1]T. C. Carusone, “The Impact of Industry Trends on 200+Gbps Wireline R&D,” in IEEE International Solid-State Circuits Conference (ISSCC), 2024