騰訊云業(yè)務的高速發(fā)展不但推動了云上層架構的創(chuàng)新,也對基礎網絡提出了更高的要求。一方面,池化讓云資源的獲取突破了服務器的邊界,大量的數據流往返于服務器間,加大了網內的數據傳輸量。另一方面,隨著存儲介質、計算部件的性能提升,使得網絡性能陡然成為新的瓶頸。在此趨勢下,云基礎網絡向大規(guī)模、高帶寬、低延遲的方向演進的訴求更加迫切。如今,騰訊網絡平臺部通過對自研交換機平臺(TONS)以及開放光平臺(TOOP)的產品升級,構建了全面自研的100G服務器接入、200G匯聚、400G數據中心互聯的網絡體系。
如果把當前的網絡速率迭代比作交通路網升級,那么TONS與TOOP不光從硬件上拓寬了道路,更從軟件上解決了復雜的交通管理難題。
其中,TONS針對DCN海量交付以及高速率接入需求,在交換機硬件上具備部件級成本透明、樂高式模塊化設計、高精度狀態(tài)采集以及極簡無背板框架等特點,打造了高可控、高質量、低成本的交換機產品平臺。在軟件上通過基于開源SONiC深度自研的TCSOS,不光提供了自動化、智能化的可運營能力,更結合可編程芯片在高性能的基礎上,實現高靈活性。
而TOOP針對DCI互聯場景的特點,也從軟硬件層面對波分系統(tǒng)進行了顛覆性創(chuàng)新。首先對波分系統(tǒng)做減法,極大的降低了系統(tǒng)復雜度,通過三個層面的解耦(光電解耦,波道解耦,相干器件解耦),實現了系統(tǒng)交付成本的大幅降低。TOOP硬件產品在DCI盒式產品中首次引入了可切換分段增益光放技術與Flex-grid技術,實現了極簡運營的能力 。在軟件上,實現1秒級全量PM telemetry上傳,結合控制器軟件高速迭代,全面打造高度自動化的光網絡系統(tǒng)。
騰訊自研交換機平臺——TONS
1.高可控&低成本的硬件設計
TCS8400與 TCS9400的硬件發(fā)布,宣告了其作為騰訊下一代數據中心網絡架構的主要載體,提供了100G服務器接入能力以及200G/400G的匯聚能力,同時兼顧端到端的最優(yōu)成本、持續(xù)供應、可靠性以及可運維能力,旨在構建高敏捷、最優(yōu)性能、低成本、自服務的閉環(huán)硬件生態(tài)。集中體現在:
TCS8400 & TCS9400前視圖
自主可控的樂高式部件設計
新一代交換機硬件平臺由騰訊自主設計,擁有自主產權,可以方便地在ODM廠轉產,使得各廠商提供的產品做到了硬件歸一,網絡操作系統(tǒng)即插即用。騰訊自研交換機采用了樂高式的部件化設計,將整機電路解耦成不同的模塊與部件。其中CPU扣/底板、BMC扣板、MAC主板等模塊來自于騰訊自研硬件通用平臺,通過繼承這些成熟應用,降低了設計、生產難度及風險。部件選型時更多考慮騰訊數據中心良好的溫濕度環(huán)境,選用了最優(yōu)性價比部件,如PSU選用的CRPS電源等。最終讓海量供應有保障的同時,達到成本最優(yōu)。
TCS9400部件拆解圖
極簡無背板去PHY設計
傳統(tǒng)交換機方案多借助PHY芯片來提升SI的裕量,但是PHY芯片的引入在增加整機成本的同時、也加大了功耗以及端口link-up時間,最終拉低了設備MTBF。TCS9400的產品形態(tài)為128*200G/64*400G端口,其中速率可配置。在設計時利用多維空間盡量縮短了走線距離,在無PHY的情況下滿足了SI要求, 將MTBF提升30%,單Gbit功耗降低10%,做到了硬件架構極簡,成本最低。
TCS9400整機4RU高度,由于無PHY方案因為SerDes較多,要在同一平面使用多個跨板連接器,存在一定的容差風險。通過對比不同連接器3D圖形間隙,結合其他連接器的容差參數計算方法,在結構件設計、定位設計、裝配方案設計上做了針對性的論證和改進。同時對連接器測試指標,環(huán)溫壓力,測試周期等進行修訂并導入。經過試驗板實際測試驗證,改進方案可以提高容差能力,排除容差風險。
ASIC芯片I/O封裝內走線長度對損耗的影響
TCS9400的SI是當下高速設計領域的頂級挑戰(zhàn),兼有512路56Gbps PAM4信號、700A大電流,最高密度BGA等業(yè)內難題,因此SI的設計和仿真毫無疑問是解決問題的重中之重。SI設計不但考慮了Chip Ball to IO Connector Pin-Channel的設計優(yōu)化,還考慮到了芯片內不同Die走線長度的影響。把系統(tǒng)裕量損耗升至25%,足以應對任何不利因素。
串擾優(yōu)化仿真及實測眼圖
在串擾優(yōu)化設計中,針對跨板連接器這一最大串擾源,通過TX/RX隔離避免了系統(tǒng)近端串擾,全部串擾源最優(yōu)化,將Fanout Via Crosstalk控制在-57db下。所有端口的一致性測試結果對比IEEE規(guī)范眼高均有60%以上的裕量。
高精度數據采集
隨著交換機接口帶寬的快速增加,傳統(tǒng)上基于交換機CPU的流量采集,BFD保護等技術,面臨著精度低、成本高的問題。為此我們在交換機內部引入了FPGA,通過軟硬協同的方式提高業(yè)務信息以及網元健康情況的采集精度,為業(yè)務的高性能訴求提供給了高可用保障。
FPGA通過兩個10GE接口與交換芯片連接,構建高帶寬和低時延的報文接收和發(fā)送通道,實現大吞吐的流量采樣、流量注入等功能。FPGA和交換芯片通過CPU PCIe RC橋可以進行PCIe End to End通信,能夠在CPU無感的情況下直接與交換芯片交互,實時獲取到芯片內部狀態(tài),同時降低了輪詢數據對CPU性能的消耗。
高精度數據采集FPGA
彈性設計、敏捷安裝
TCS9400的128個業(yè)務口對稱均勻分布,可靈活實現200G/400G端口組合,方便布線和網絡架構設計,除PSU接口外,其余端口均在前面板,運維操作更便捷。側面抬手采用航空級壓鑄鋁材料,造型符合人體工程設計,更方便安裝使用。前面板增加兩個拉手,拆卸時可以通過拉手將設備從機架中拉出,實現快速替換維修。同時,線上設備可以無感知CPLD邏輯進行熱升級。
通過更換端口封裝支持不同速率
為了匹配TCS9400交換機的快速安裝,我們開發(fā)了光纖理線架。理線架位于交換機上方,光纖沿垂直方向出線到上方理線架,內部設計了導線槽和繞柱,保證光纖布線滿足最小折彎半徑。光纖從理線器左右兩邊出線到機柜布線槽,通過理線器實現了隱藏式布線,有效保護光纖的同時,減少了人為對光纖的誤動作。
2.智能化&高性能的軟件設計
騰訊交換機硬件平臺搭載了基于開源SONiC深度自研的操作系統(tǒng)。與騰訊網絡建模系統(tǒng)相輔相成,構建了智能化的運維體系。在200G/400G網絡時代,TCS OS持續(xù)改進,貼合海量規(guī)模運維以及高性能的需求,讓網絡擁有了更高的升級效率以及更強的可編程能力。集中體現在:
數據模型驅動的全自動化運營能力
Tencent YANG Model通過將網絡特性抽象成結構化數據,為上層應用提供了靈活的可編程能力,加速應用產能的同時,也解放了上層的設計思想。TONS天然支持Tencent YANG Model,通過JSON(Tencent YANG)到JSON(Sonic YANG)的映射,將翻譯層下沉至OS側,快速支持配置與狀態(tài)模型的更新,解決了建模系統(tǒng)中“翻譯難”的問題。同時用gRPC框架替代傳統(tǒng)CLI下發(fā)通道,提高配置下發(fā)與提取性能。
在該框架下,針對TONS的網絡架構設計以及建設運營正式邁向全自動化。相關應用主要有:
1) 快速故障自愈:利用TCSOS軟件快速迭代的優(yōu)勢,從網元級,鏈路級,操作系統(tǒng)以及芯片級四個維度填充了當前的監(jiān)控盲區(qū)。并結合gRPC毫秒級下發(fā)能力,實現快速故障自愈。
2) 配置自動審計:通過每日的數據拉取以及對比,清晰的感知配置在現網的變化以及與架構標準的偏差。
3) 基于可編程的配置修改自動化:當網絡架構的標準配置用YANG模型來設計時,可以利用層次化可復用的代碼化思想來加速設計效率,當配置需要變更時,結合配置審計,將與配置標準的偏差自動推送到變更平臺實施,整個流程與軟件發(fā)布異曲同工。
4) 基于網絡應用商店的軟件升級自動化:在快速迭代的云數據中心,對數以萬計的網絡設備進行頻繁的軟件升級,長久以來給運營帶來了巨大挑戰(zhàn),我們將軟件功能的發(fā)布與更新提升至以周為單位,同時避免對網絡的可靠性和安全性帶來影響。
相對于OS版本,應用的更新顯得更為頻繁,為了便于對線上設備的應用進行管理和升級,騰訊自研交換機引入了"網絡應用商店",提升運營部署效率。
其過程為:
應用開發(fā)完之后,通過版本發(fā)布系統(tǒng)自動推送到版本倉庫,并自動創(chuàng)建下載任務。
應用商店收到下載任務之后,根據任務信息批量通告現網設備進行應用下載。
可以看到引入應用商店之后,一旦版本發(fā)布,便自動更新到關聯設備上。運營人員部署應用時無需進行版本下載,只需下發(fā)升級指令即可,這樣節(jié)省掉最耗時的下載步驟。整個部署過程和手機應用下載流程很類似,應用自動更新至最新版本,然后由用戶來決定是否更新,并根據授權級別判斷是否安裝。
網絡應用商店
面向高性能網絡的數據面可編程能力
進入到200G/400G網絡時代,上層業(yè)務與控制軟件對底層網絡的特殊需求日益增多,如高帶寬、低時延、大象流處理、小包線速、高精度流控等。DPDK相對優(yōu)秀,可以達到很高的包轉發(fā)速率,但需通過多服務器、多核負載均衡實現,傳統(tǒng)網絡設備雖然可以提供高性能網絡傳輸,但其轉發(fā)邏輯被固化,難以實現靈活的網絡轉發(fā)控制。
搭載新一代Trident 4可編程交換芯片的自研交換機TCS-PS,向上兼容多種業(yè)務組件及控制器,向下屏蔽底層可編程硬件差異(可編程交換芯片、FPGA等),不僅支持交換機的基礎網絡功能,還可以定制特殊數據面轉發(fā)邏輯,性能與靈活性完美結合,可以優(yōu)雅適配更多的業(yè)務場景。例如,在骨干網及專線接入點部署TCS-PS,實現基于租戶及五元組的精細化流量調度及限速能力,快速解決流量熱點,有效提高網絡利用率;利用TCS-PS對云網關場景服務器集群進行流量卸載加速,解決大象流處理、小包線速、前置交換機HASH不均等軟轉發(fā)性能問題;通過TCS-PS在安全防護及流量分析場景細分業(yè)務的差異化應用,大幅減少其后端分析服務器集群的帶寬及計算壓力,成倍降低安全防護與流量分析的成本。
為了匹配TONS在數據中心園區(qū)提供的200G/400G能力,用于數據中心間互聯的開放光網絡平臺(TOOP)也進行了2.0版本升級迭代。升級后光層OPC與電層TPC各自分別支持了柔性光網絡能力與基于可插拔方案的單波400G產品。其中,在L0層OPC-4光層產品首次在DCI層面引入了Flex-grid功能,賦予OPC-4光層產品支持向未來的平滑演進能力,即無論是當前的400G還是未來的單載波800G/1600G,OPC-4均無需更換硬件可直接支持任意速率波長接入能力;而在L1層,TPC-4電層產品通過深化解耦思路,將開放解耦進一步下探至相干器件層面,即T2X4C8電層板卡支持多廠商DCO混合部署,打破壟斷增加核心成本器件的競爭力,進一步降低了DCI帶寬飛速增長的成本壓力。
波長通道劣化快速辨識
TOOP旨在通過技術創(chuàng)新來降低CapEx與OpEx。我們在設計400G做了一些微創(chuàng)新。
電芯片層面加了性能預判機制
相干系統(tǒng)通過強大的FEC(前向糾錯編碼)技術實現對傳送的bit進行錯誤修正,FEC編碼算法就像微信的語音轉換文字功能,其具備一定的口音糾錯能力。進行語音文字轉換時,算法會根據語意來判斷是否修正口音帶來的干擾。當你的口音很重或者引入過多方言時,超過算法的容忍上限時其轉換也會出錯。如同我們可以用轉換正確率來評估普通話標準與否一樣,我們可以根據Pre-fec前向糾錯誤碼率來評估系統(tǒng)的性能情況。TOOP通過CFP2-DCO的Pin37 管腳來上報pre-fec前向糾錯編碼超限的事件,實現了對性能劣化事件的提前關注。當DCO檢測到Pre-fec越過設定門限,即拉高Pin37管腳,為業(yè)務的無損切換提供可能性。
業(yè)內首創(chuàng)的DSP收斂計時上報,實現業(yè)務受損時間監(jiān)控
保護路徑切換的業(yè)務受損時間精準計時
引入了DCO模塊收斂計時功能,如上圖所示,TOOP系統(tǒng)可以記錄光路倒換過程的持續(xù)時間,包括光保護(OP)板卡的光開關切換時間與DCO模塊的業(yè)務中斷時間。我們定義了DCO模塊的業(yè)務中斷計時功能,定義0x910e(高位)與0x910f(低位)寄存器內儲存了DSP收斂時間,其十進制值即收斂時間,單位us,上圖中的測試結果為4971us=4.971ms,這樣的數據協助我們診斷系統(tǒng)的性能問題。例如,當某次保護切換事件發(fā)生時,OP開關切換時間較短,而DSP的收斂時間較久,則說明線路性能余量不足,在光信號劣化至光開關切換門限值之前DSP已經產生了誤碼。
DSP收斂時間這個功能讓我們第一次在ms級尺度上對一個瞬態(tài)進行描述,目的是減少上層業(yè)務的感知,進一步優(yōu)化四纖三路由系統(tǒng),讓我們打造更加可靠且穩(wěn)定的底層系統(tǒng)。
DSP 色散掃描范圍自動配置
當前400G場景下,因光纜中斷而引起的倒換事件對業(yè)務的影響時間由原先的100ms級別(業(yè)務層面丟失時間),降低到了10ms級別(業(yè)務層面丟失時間),從而降低光纜中斷引起的業(yè)務損失。
在線路開通時,OPC-4的OTDR會探測線路實際距離(主備用路由收發(fā)雙芯分別探測),通過距離配置DSP的色散掃描范圍,由默認的-20000~2000ps,配置成符合主備用光纜距離的實際值,例如-5000 ~ 2000ps,得益于DSP的算法優(yōu)化與色散掃描范圍的自動配置,通過減少DSP的resync的色散搜索時間,進一步提升保護倒換的速度,進而減少業(yè)務受損時間。
保護路徑切換導致的業(yè)務受損時間大幅縮短
根據實際測試及過,儀表顯示波分系統(tǒng)在保護倒換過程中的切換時間最長為8ms,最短為3.8ms,上圖左側部分顯示通過交換機加載流量端到端測試結果,TOOP 400G系統(tǒng)在倒換過程中速度更快,減少了業(yè)務受損時間,為線上服務的可靠性提供了有效保障。
DCO自動測量端到端RTT時延功能
通過下插探測信號序列,實現DCO寄存器讀取線路RTT時延,從而對開通系統(tǒng)的線路性能指標進行準確預估,此功能為自動重路由功能提供了數據基礎。
DCO內全量PM數據秒級telemetry提取
定義超過85項的PM數據通過telemetry進行秒級采集,是業(yè)內第一次將ASIC中的信息進行如此全面的采集,傳統(tǒng)的MSA模塊也沒有做到如此精細化程度。進而通過數據分析提供DCO硬件故障預測與線路狀態(tài)預測功能,T2X4C8單板具備硬件反饋機制,該機制使子框內OP-6單板支持通過DCO的BER觸發(fā)OCH1+1保護倒換。
海量的PM數據是我們未來重點挖掘的數據寶藏,這將賦予我們一些偵測線路信息的能力。
OOP向柔性網絡演進,Flex-grid 為我們打造未來平臺
所見即所得的可視化精準運維
TOOP首次在DCI平臺引入靈活柵格技術(flex-grid),實現了柔性光網絡的能力。在面對400G以及400G+場景的平滑演進提供了基礎。TOOP選擇了“簡單”作為其設計語言。通過友好的施工管理設計,利用MUX-PAENL對64個通道進行散出,背面與前部走線設計減少布線復雜度。控制層面通過拓撲管理組件實現簡明扼要的指示,避免維護時的復雜度。
CMUX-64單板與MUX-PANEL采用了專利設計,實現了低損耗的OMSP與Flex-grid應用。在點到點OMSP場景時無需額外增加OP單板即可實現,在采用OCH1+1場景或無需光層保護場景時也不會額外增加插損。整體功率計算符合鏈路落波與合波需求,滿足400G及400G+場景的需求,該系統(tǒng)可以平滑向未來演進,進而降低光層的重復投資與提升頻譜利用率。
高品質Flex-Grid讓光層基礎設施更穩(wěn)定更長壽
CMUX-64所采用的WSS器件具備優(yōu)秀濾波特性,讓我們減少了對DCO模塊內置TOF的需求,進一步降低DCO模塊的成本。同時Flex-grid賦予我們無需標準化FEC,兩端IDC的不同DSP廠商的DCO可以自適應匹配,無需繁瑣的現場操作。這里劃重點,TOOP產品的設計語言是“簡”,我們希望現場處理問題的方式就是安裝與替換,縮短系統(tǒng)開通與故障處理的時間,提升業(yè)務的可用率。電層設備與合波器之間的頻率分配,互聯關系等問題可以做到無圖紙化施工,我們引入了自適應功能來實現匹配波長功能。同時CMUX-64可以針對不同模塊的發(fā)射功率差異與不同波特率的問題,包括正在測試中的基于PCS-16QAM的69Gbaud CFP2-DCO的高性能 400G所需81.5GHz頻譜間隔應用,采用Flex-grid可以很好的解決。
結語
路寬難平,快馬難馴?;厥?A href="http://getprofitprime.com/site/CN/Search.aspx?page=1&keywords=%e8%85%be%e8%ae%af&column_id=ALL&station=%E5%85%A8%E9%83%A8" target="_blank">騰訊在200G/400G網絡中的創(chuàng)新與實踐之路,我們不僅僅是為了貼合業(yè)務算力要求而做了速率提升,更是通過構建端到端全面自研的底層基礎設施,并搭載智能化的網絡系統(tǒng),借助自主可控創(chuàng)造了高速率,也馴服了高速率,最終為云業(yè)務提供高帶寬、低延時、更靈活的云網絡服務。相信在該體系的奠基下,后續(xù)騰訊網絡會持續(xù)穩(wěn)步邁向400G/800G網絡時代。