ICC訊 11月19日第十一屆網(wǎng)絡(luò)平臺(tái)部技術(shù)峰會(huì)在深圳圓滿落幕。本次峰會(huì)圍繞硬件研發(fā)、硬件加速、網(wǎng)絡(luò)產(chǎn)品、網(wǎng)絡(luò)運(yùn)營四大領(lǐng)域,深度全面地展示了網(wǎng)絡(luò)平臺(tái)部不斷精進(jìn)的研發(fā)能力及探索成果。下面讓我們共同回顧本次峰會(huì)中由硬件研發(fā)專家——崔鵬呈現(xiàn)的《騰訊自研交換機(jī)——從100G到未來》的精彩內(nèi)容。
騰訊100G交換機(jī)硬件架構(gòu)及亮點(diǎn)
大家可能比較熟悉的是我們自研交換機(jī)的型號(hào)TCS8400和TCS9400,其實(shí)我們對(duì)應(yīng)的還有產(chǎn)品代號(hào):
○ 給ToR交換機(jī)TCS8400 – Aries,對(duì)應(yīng)首字母為A,所以也代表了我們第一款全自研設(shè)備,此外白羊座的守護(hù)神為戰(zhàn)神,也是期望我們這款設(shè)備可以勇往向前。
○ Spine交換機(jī)TCS9400 – Taurus金牛座,象征了我們這款大家伙的強(qiáng)健性能以及穩(wěn)定可靠。
在設(shè)計(jì)之初我們的一個(gè)理念就是模塊化,我們的交換機(jī)都是由不同的功能模塊組成的,最重要的就是例如 TCS8400前端口的交換板,TCS9400由于端口比較多所以交換板被分成了3張,上、中、下通過連接器扣合到一起。模塊設(shè)計(jì)的一個(gè)好處就在于如CPU板、BMC板、PSU等模塊組件可以共用,此外可以方便以后模塊升級(jí)。同時(shí),我們兩款設(shè)備的共用物料多達(dá)70%以上,在這個(gè)物料短缺的時(shí)期,可以易于供應(yīng)鏈集中采購,避免供應(yīng)短缺。
需要提出的是TCS9400設(shè)備在最開始設(shè)計(jì)時(shí),是計(jì)劃做成和上一代一樣的可插拔形態(tài),這樣做系統(tǒng)設(shè)計(jì)難度特別是SI風(fēng)險(xiǎn)不大,但是引入了PHY芯片,也就意味著增加了系統(tǒng)成本、功耗及開發(fā)時(shí)間。經(jīng)過認(rèn)真的研究與全面的評(píng)估,我們后來決定還是挑戰(zhàn)一下自己,采用PHY-less無PHY設(shè)計(jì),這樣就避免了剛剛提到的那些問題。但是沒有了PHY芯片對(duì)高速信號(hào)的重整與重傳,SI鏈路整體性能預(yù)算緊張,充滿挑戰(zhàn)。
為了在無PHY的情況下提供同樣的性能,我們采取了最優(yōu)化架構(gòu)設(shè)計(jì),充分減少走線距離;同時(shí)對(duì)128個(gè)端口的512個(gè)差分對(duì)都進(jìn)行了 從芯片到端口的端到端走線優(yōu)化,在backdrill、anti-pad等局部細(xì)節(jié)上也做了微調(diào)整。經(jīng)過SI的全面優(yōu)化,最終的結(jié)果是我們的性能不僅可以符合行業(yè)規(guī)范,并且可以超出標(biāo)準(zhǔn)50%以上。
自研設(shè)計(jì)中的難點(diǎn)和亮點(diǎn)還有很多,這里就不一一展開了,總結(jié)來說在采用了敏捷開發(fā)、模塊架構(gòu)、PHY-less方案、端到端的優(yōu)化之后,我們的自研設(shè)備不僅迭代速度更快,同時(shí)在性能、質(zhì)量、成本上相較于商業(yè)機(jī)都有較大優(yōu)勢。
下一代交換機(jī)相關(guān)技術(shù)難點(diǎn)與挑戰(zhàn)
在討論下一代交換機(jī)挑戰(zhàn)之前我們先回顧一下我們的網(wǎng)絡(luò)設(shè)備路標(biāo)。
之前一代是用于25G/50G網(wǎng)卡的定制交換機(jī),現(xiàn)在一代是基于50G PAM4并用于100G網(wǎng)卡的自研交換機(jī)。雖然下下一代設(shè)備我們不知道長什么樣子,但是下一代其實(shí)也不難預(yù)測,就是基于112G PAM4,用于200G網(wǎng)卡的交換設(shè)備,會(huì)有什么大的變化么?
以最復(fù)雜的Spine交換機(jī)設(shè)備來講,下一代設(shè)備不外乎以下幾種形態(tài):基于一張PCB板卡搞定的64口800G設(shè)備;或者采用flyover線纜與PCB相結(jié)合,兩張PCB的128口400G設(shè)備;又或者與現(xiàn)在的TCS9400一樣,還是3張PCB搞定的扣板方案;再不然就是基于PHY芯片,多張PCB子卡的方案。那么到底哪一種在112G Serdes時(shí)代是技術(shù)可行的呢?哪一種是最優(yōu)的呢?
在回答這個(gè)問題之前我們先來看一下交換芯片的發(fā)展歷程,在過去的10年當(dāng)中,接口Serdes速率由10G演進(jìn)到28G,56G直到現(xiàn)在的112G,有10倍之多;交換芯片容量也由640G擴(kuò)展到51.2T,足足有80倍。
但是Serdes速率與交換容量的增長并不是沒有代價(jià)的,我們同時(shí)看到一些“負(fù)面影響”,如功耗越來越大,芯片尺寸越來越大、高速信號(hào)損耗的增大引入更復(fù)雜的調(diào)制解調(diào)。那么這些負(fù)面影響對(duì)于硬件設(shè)計(jì)來說意味著什么呢?又有哪些挑戰(zhàn)呢?
首先我們來看一下高速信號(hào)完整性SI??赡艽蠹乙呀?jīng)很熟悉的是NRZ編碼與PAM4形式,更復(fù)雜的編碼帶來了更快速的信號(hào)速率,但是注意其Nyquist頻率基本還是在13GHz左右,但是到了112G,不僅采用了復(fù)雜的PAM4編碼,其Nyquist頻率也快了一倍。就像跑步的風(fēng)阻一樣,更快的傳輸頻率就意味著更大的信道損耗,這在112G尤為明顯。
信號(hào)在整個(gè)傳輸路徑上,通過了芯片內(nèi)部的封裝、焊接點(diǎn)、PCB、連接器、過孔等等傳輸介質(zhì)后,任何一個(gè)部分的優(yōu)化都對(duì)SI至關(guān)重要。如果芯片封裝、DSP算法、連接器、PCB等SI相關(guān)設(shè)計(jì)不佳,那最左側(cè)發(fā)送的信號(hào)在經(jīng)過了這又長又復(fù)雜的信道之后,波形就會(huì)產(chǎn)生閉合或嚴(yán)重的變形,從而影響信號(hào)傳輸。為了減少信道損耗,增強(qiáng)接收能力,業(yè)界提出了一些新的技術(shù)與方案,例如采用損耗更小可以傳輸更長距離的線纜方式、更高速的連接器、超低損耗PCB,以及芯片內(nèi)更復(fù)雜的均衡技術(shù)等。
SI之外,散熱挑戰(zhàn)也很大。特別是端口與交換芯片部分。端口溫度高是由于前面板密集的光模塊,隨著速率的提升,光模塊功耗也水漲船高,散熱挑戰(zhàn)也越來越大,在這一代我們采用了heatpipe的散熱手段。隨著芯片制程的提高,從最初的50nm、28nm、14nm,到現(xiàn)在的7nm、5nm,其單位速度和容量下的功耗是不斷下降的,但是在芯片容量增大80倍的同時(shí),即使有芯片制程的提高,其功耗還是增大了10倍之多;在TCS9400上我們采用了VC加heatpipe這種復(fù)雜的散熱結(jié)構(gòu),在下一代51.2T設(shè)備上正在評(píng)估散熱效率更高的Thermosyphon與液冷方案。
硬件、產(chǎn)品設(shè)計(jì)只是我們的一半工作,是否可以生產(chǎn),是否可以量產(chǎn)也是我們工作中關(guān)注的一個(gè)重點(diǎn)。112G是新技術(shù),不僅在之前介紹的SI和散熱上對(duì)于PCB的制程,散熱器的制程提出了更高的要求,也對(duì)芯片及組裝帶來了挑戰(zhàn)。更大的芯片帶來warpage彎曲效應(yīng),在焊接過程中極易引起虛焊,更復(fù)雜的散熱器、更精密的連接器 需要全新的、更精準(zhǔn)的組裝方式,這些都對(duì)生產(chǎn)制程帶來了挑戰(zhàn)。
軟件同學(xué)常說no BB show me the code, 我們硬件也不是只做paper work,針對(duì)112G相關(guān)技術(shù)點(diǎn)及挑戰(zhàn),我們聯(lián)合合作伙伴一起開發(fā)了一款預(yù)研設(shè)備,用于相關(guān)的SI、散熱等實(shí)物測試的準(zhǔn)備工作。我們會(huì)通過實(shí)際的測試結(jié)果來做下一代設(shè)備形態(tài)的最終評(píng)估。
此外我們也在積極參與并領(lǐng)導(dǎo)了一些業(yè)內(nèi)組織,如在QSFP112制定 112G Serdes連接器規(guī)范并討論下一代方案;在S3IP組織里制定適用于數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)備的CPU模組標(biāo)準(zhǔn),以及網(wǎng)絡(luò)設(shè)備的生產(chǎn)、上架測試規(guī)范等。通過全面的評(píng)估預(yù)研以及與行業(yè)伙伴的一起努力,我們有信心可以攻克一個(gè)又一個(gè)的技術(shù)挑戰(zhàn)。
后續(xù)演進(jìn)與展望
最后,讓我們回顧并展望一下硬件的發(fā)展。通過自研硬件與自研軟件,我們使用ToR和Spine交換機(jī)兩款設(shè)備就可以替代之前復(fù)雜而又昂貴的商用設(shè)備,那之后網(wǎng)絡(luò)硬件又將向什么方向發(fā)展呢?
在數(shù)據(jù)中心,為了滿足不斷發(fā)展的云業(yè)務(wù),同時(shí)應(yīng)對(duì)5G、IoT、AI、ML等可能產(chǎn)生的數(shù)據(jù)爆發(fā),更高帶寬和更大交換容量是永恒的需求,但是網(wǎng)絡(luò)交換設(shè)備在總的IDC基礎(chǔ)設(shè)施中功耗占比越來越大,同時(shí)更快的接口速率需要比PAM4更加復(fù)雜的編碼形式,進(jìn)一步導(dǎo)致SI及功耗挑戰(zhàn)變大。此外,我們現(xiàn)在所用的光模塊封裝已經(jīng)沿用超過10年,其尺寸大小在支持更高速率接口時(shí)散熱空間不夠。大家可能聽到最近很熱門的 NPO(近封裝光)和 CPO(共封裝光),通過把光模塊部分從面板移到交換機(jī)內(nèi)部、與交換芯片die放在同一mezzanine小卡上以減少信號(hào)傳輸距離,甚至共封裝在同一substrate上來進(jìn)一步降低損耗,就可以”完美”地解決以上問題。
在采用這種技術(shù)后,以后的交換機(jī)形態(tài)將會(huì)發(fā)生變化,前端口將沒有光模塊而是直接變成光纖接口,光模塊內(nèi)移到交換機(jī)內(nèi)部,SI設(shè)計(jì)挑戰(zhàn)將大為降低,但是又增加了光引擎、光面耦合、繞纖、大功率激光源、多器件散熱器不共面、大電流供電等新技術(shù)及挑戰(zhàn)。采用了CPO技術(shù)的交換機(jī)有可能改變今后的網(wǎng)絡(luò)架構(gòu),多端口大容量、光纖直連使得它可以跳過ToR直接連接服務(wù)器,從而降低延時(shí)、減少功耗。不過CPO畢竟是新技術(shù),其穩(wěn)定性、可靠性、現(xiàn)網(wǎng)是否便于維護(hù)有待觀察。
回顧之前介紹,我們需要在持續(xù)提供穩(wěn)定可靠的網(wǎng)絡(luò)的同時(shí)保證CAPEX及OPEX低成本,在不斷提高帶寬和容量的同時(shí)保證最優(yōu)性能,在快速開發(fā)保證交付的同時(shí)確保引領(lǐng)生態(tài),那之后還有什么可以做的呢?其實(shí)還有很多創(chuàng)新點(diǎn)。展望未來,我們需要在系統(tǒng)啟動(dòng)及數(shù)據(jù)傳輸?shù)臅r(shí)保證按安全性,提供基于PTP等技術(shù)的全網(wǎng)精準(zhǔn)對(duì)時(shí)能力、在DCN以外也提供適用不同場景的其他設(shè)備!