ICC訊 2020年,注定會成為人類歷史上不平凡的一年。疫情,這場沒有硝煙的戰(zhàn)爭,讓我們每一個人在2020年都抒寫出了屬于自己的,或傷感、或迷茫、或精彩、或勵志的故事,而這些故事,匯聚成了我們的2020年。
在疫情最嚴(yán)重的時候,線上辦公,讓我們再一次印證了信息技術(shù)給包括我們在內(nèi)的所有人能夠帶來的莫大幫助。從相隔數(shù)里到遠(yuǎn)隔重洋,在無情的疫情面前,線上,成為了承接我們智慧與創(chuàng)造的堅(jiān)實(shí)平臺。
在疫情所帶來的影響及變化下,TOOP也同樣面臨著前所未有的挑戰(zhàn)與機(jī)遇。在這樣不平凡的一年中,我們勇敢地直面挑戰(zhàn),果斷地抓住機(jī)遇,回首經(jīng)年,我們收獲頗豐。相信在2021年,我們會繼續(xù)翱翔乾坤間,長空振翅沖云霄。
Flex-grid與400G DCO升級現(xiàn)網(wǎng)規(guī)模部署
TOOP的2020迎來了重量級升級,在9月的CIOE上TOOP發(fā)布了2款新產(chǎn)品?;贑FP2-DCO的T2X4C8電層子卡與支持Flex-grid的CMUX-64子卡,讓TOOP成為了一套完整的DWDM系統(tǒng):OPC-4光層+TPC-4電層+TOC控制器的組合讓TOOP具備端到端的柔性光網(wǎng)絡(luò)交付能力。經(jīng)過一段時間的系統(tǒng)測試后,我們高興的宣布:
基于CFP2-DCO可插拔模塊的400G方案結(jié)合CMUX-64的Flex-grid光層平臺正式規(guī)模上線服役啦!并且隨著Flex-grid功能的規(guī)模部署,無論是當(dāng)前65Gbaud, 69Gbaud的單波400G還是未來128Gbaud的單波800G系統(tǒng)無需更換OPC光層器件,平滑支持未來速率演進(jìn)。
兼顧成本與不確定性
相比數(shù)通產(chǎn)品,波分系統(tǒng)相對封閉。繼光電解耦之后,這一次我們的變革觸及到波分系統(tǒng)的核心器件——相干模塊。傳統(tǒng)的電層單板采用5”x7” MSA模塊方案,不同的芯片組需要設(shè)計(jì)不同的業(yè)務(wù)板卡,對應(yīng)的子框與控制器都需要開發(fā)工作,增加了適配與測試成本。這就好像早期的智能手機(jī),不同的手機(jī)有不同的數(shù)據(jù)接口,與電腦連接時需要不同的驅(qū)動,數(shù)據(jù)線也互不通用,用戶使用起來很不方便。
可插拔相干模塊(DCO)方案,就好比當(dāng)下的智能機(jī),手機(jī)型號可能千奇百怪,但數(shù)據(jù)接口基本統(tǒng)一,一根type-C的數(shù)據(jù)線便可讓不同廠商的手機(jī)連接電腦,也無需在安裝繁瑣的驅(qū)動,提供了應(yīng)用的便利。DCO方案賦予用戶更多靈活性,用戶可以在DSP與TROSA之間根據(jù)性能與成本特性選擇不同芯片組方案。不同的相干模塊可以在同一塊板卡上部署,硬件的差異性在板卡層面屏蔽,無需擔(dān)心模塊會對控制器帶來額外的適配工作。
可插拔相干模塊讓波分系統(tǒng)的核心器件解耦成為了可能,從而進(jìn)一步的降低成本和保證供應(yīng)鏈體系的安全,也極大的簡化了系統(tǒng)開發(fā)的復(fù)雜度。
通過統(tǒng)計(jì)全網(wǎng)光纜的損耗分布情況,我們發(fā)現(xiàn)在四纖三路由應(yīng)用場景下普通400G-ZR模塊無法承擔(dān)性能需求。而采用CFP2封裝的DCO,內(nèi)部通過SOA或EDFA提高發(fā)光功率,芯片也可獲得更高的功耗支持,性能高于普通的400G-ZR模塊,CFP-2 DCO采用與400G-ZR采用相同DSP芯片,成本稍有上浮適合需要一定性能需求的應(yīng)用場景。
TOOP旨在通過技術(shù)創(chuàng)新來降低CapEx與OpEx。我們在設(shè)計(jì)400G時吸取了傳統(tǒng)系統(tǒng)的一些問題,站在巨人的肩膀上再從需求角度對相干模塊進(jìn)行了功能的深度定制化。
電芯片層面加了性能預(yù)判機(jī)制
相干系統(tǒng)通過強(qiáng)大的FEC(前向糾錯編碼)技術(shù)實(shí)現(xiàn)對傳送的bit進(jìn)行錯誤修正,F(xiàn)EC編碼算法就像微信的語音轉(zhuǎn)換文字功能,其具備一定的口音糾錯能力。進(jìn)行語音文字轉(zhuǎn)換時,算法會根據(jù)語意來判斷是否修正口音帶來的干擾。當(dāng)你的口音很重或者引入過多方言時,超過算法的容忍上限時其轉(zhuǎn)換也會出錯。如同我們可以用轉(zhuǎn)換正確率來評估普通話標(biāo)準(zhǔn)與否一樣,我們可以根據(jù)Pre-fec前向糾錯誤碼率來評估系統(tǒng)的性能情況。TOOP通過CFP2-DCO的Pin37 管腳來上報pre-fec前向糾錯編碼超限的事件,實(shí)現(xiàn)了對性能劣化事件的提前關(guān)注。當(dāng)DSP檢測到Pre-fec越過設(shè)定門限,即拉高Pin37管腳,為業(yè)務(wù)的無損切換提供可能性。
業(yè)內(nèi)首創(chuàng)的DSP收斂計(jì)時上報,實(shí)現(xiàn)業(yè)務(wù)受損時間監(jiān)控
引入了DCO模塊收斂計(jì)時功能,如上圖所示,TOOP系統(tǒng)可以記錄光路倒換過程的持續(xù)時間,包括光保護(hù)(OP)板卡的光開關(guān)切換時間與DCO模塊的業(yè)務(wù)中斷時間。我們定義了DCO模塊的業(yè)務(wù)中斷計(jì)時功能,定義0x910e(高位)與0x910f(低位)寄存器內(nèi)儲存了DSP收斂時間,其十進(jìn)制值即收斂時間,單位us,上圖中的測試結(jié)果為4971us=4.971ms,這樣的數(shù)據(jù)協(xié)助我們診斷系統(tǒng)的性能問題。例如,當(dāng)某次保護(hù)切換事件發(fā)生時,OP開關(guān)切換時間較短,而DSP的收斂時間較久,則說明線路性能余量不足,在光信號劣化至光開關(guān)切換門限值之前DSP已經(jīng)產(chǎn)生了誤碼。
DSP收斂時間這個功能讓我們第一次在ms級尺度上對一個瞬態(tài)進(jìn)行描述,目的是減少上層業(yè)務(wù)的感知,進(jìn)一步優(yōu)化四纖三路由系統(tǒng),讓我們打造更加可靠且穩(wěn)定的底層系統(tǒng)。
DSP 色散掃描范圍自動配置
當(dāng)前400G場景下,因光纜中斷而引起的倒換事件對業(yè)務(wù)的影響時間由原先的100ms級別(業(yè)務(wù)層面丟失時間),降低到了10ms級別(業(yè)務(wù)層面丟失時間),從而降低光纜中斷引起的業(yè)務(wù)損失。
在線路開通時,OPC-4的OTDR會探測線路實(shí)際距離(主備用路由收發(fā)雙芯分別探測),通過距離配置DSP的色散掃描范圍,由默認(rèn)的-20000~2000ps,配置成符合主備用光纜距離的實(shí)際值,例如-5000 ~ 2000ps,得益于DSP的算法優(yōu)化與色散掃描范圍的自動配置,通過減少DSP的resync的色散搜索時間,進(jìn)一步提升保護(hù)倒換的速度,進(jìn)而減少業(yè)務(wù)受損時間。
根據(jù)實(shí)際測試結(jié)果,儀表顯示波分系統(tǒng)在保護(hù)倒換過程中的切換時間最長為8ms,最短為3.8ms,上圖左側(cè)部分顯示通過交換機(jī)加載流量端到端測試結(jié)果,TOOP 400G系統(tǒng)在倒換過程中速度更快,減少了業(yè)務(wù)受損時間,為線上服務(wù)的可靠性提供了有效保障。
DCO自動測量端到端RTT時延功能
通過下插探測信號序列,實(shí)現(xiàn)DCO寄存器讀取線路RTT時延,從而對開通系統(tǒng)的線路性能指標(biāo)進(jìn)行準(zhǔn)確預(yù)估,此功能為自動重路由功能提供了數(shù)據(jù)基礎(chǔ)。
DCO內(nèi)全量PM數(shù)據(jù)秒級telemetry提取
定義超過85項(xiàng)的PM數(shù)據(jù)通過telemetry進(jìn)行秒級采集,是業(yè)內(nèi)第一次將ASIC中的信息進(jìn)行如此全面的采集。進(jìn)而通過數(shù)據(jù)分析提供DCO硬件故障預(yù)測與線路狀態(tài)預(yù)測功能,T2X4C8單板具備硬件反饋機(jī)制,該機(jī)制使子框內(nèi)OP-6單板支持通過DCO的BER觸發(fā)OCH1+1保護(hù)倒換。
海量的PM數(shù)據(jù)是我們未來重點(diǎn)挖掘的數(shù)據(jù)寶藏,這將賦予我們一些偵測線路信息的能力。
如上圖所顯示,不同的光纜長度對應(yīng)的色散補(bǔ)償值不同,例如某光纜割接后距離發(fā)生變化,通過色散數(shù)據(jù)可立即識別到光路發(fā)生了變化,聯(lián)動控制器進(jìn)行OTDR測試并告知維護(hù)人員光纜發(fā)生了路由改變。我們正在對這一系列數(shù)據(jù)進(jìn)行挖潛,目的是在系統(tǒng)受損前進(jìn)行業(yè)務(wù)止損操作,提升服務(wù)可靠性。我們甚至可以通過這些參數(shù)得知光纜割接過程中的誤操作,例如G.652光纜與G.655光纜混接等等,傳統(tǒng)系統(tǒng)無法感知或定位耗時的問題可以通過這些數(shù)據(jù)解答。
打個硬廣,我們有海量的性能數(shù)據(jù),我們上線以來已經(jīng)積累了數(shù)百Tbits的數(shù)據(jù)。我們希望通過運(yùn)用這些數(shù)據(jù)去推斷并抓取光纜的特征值,進(jìn)而實(shí)現(xiàn)對光纜的發(fā)生變化進(jìn)行提示,包括同路由分析,光纜中斷預(yù)測等。希望有興趣的優(yōu)秀畢業(yè)生加入騰訊網(wǎng)絡(luò)平臺部,讓我們一起打造更穩(wěn)定的網(wǎng)絡(luò)系統(tǒng)。
TOOP向柔性網(wǎng)絡(luò)演進(jìn),F(xiàn)lex-grid 為我們打造未來平臺
TOOP首次在DCI平臺引入靈活柵格技術(shù)(flex-grid),實(shí)現(xiàn)了柔性光網(wǎng)絡(luò)的能力。在面對400G以及400G+場景的平滑演進(jìn)提供了基礎(chǔ)。TOOP選擇了簡單作為其設(shè)計(jì)語言。通過友好的施工管理設(shè)計(jì),利用MUX-PAENL對64個通道進(jìn)行散出,背面與前部走線設(shè)計(jì)減少布線復(fù)雜度。控制層面通過拓?fù)涔芾斫M件實(shí)現(xiàn)簡明扼要的指示,避免維護(hù)時的復(fù)雜度。
CMUX-64單板與MUX-PANEL采用了專利設(shè)計(jì),實(shí)現(xiàn)了低損耗的OMSP與Flex-grid應(yīng)用。在點(diǎn)到點(diǎn)OMSP場景時無需額外增加OP單板即可實(shí)現(xiàn),在采用OCH1+1場景或無需光層保護(hù)場景時也不會額外增加插損。整體功率計(jì)算符合鏈路落波與合波需求,滿足400G及400G+場景的需求,該系統(tǒng)可以平滑向未來演進(jìn),進(jìn)而降低光層的重復(fù)投資與提升頻譜利用率。
CMUX-64所采用的WSS器件具備優(yōu)秀濾波特性,讓我們減少了對DCO模塊內(nèi)置TOF的需求,進(jìn)一步降低DCO模塊的成本。同時Flex-grid賦予我們無需標(biāo)準(zhǔn)化FEC,兩端IDC的不同DSP廠商的DCO可以自適應(yīng)匹配,無需繁瑣的現(xiàn)場操作。這里劃重點(diǎn),TOOP產(chǎn)品的設(shè)計(jì)語言是“簡”,我們希望現(xiàn)場處理問題的方式就是安裝與替換,縮短系統(tǒng)開通與故障處理的時間,提升業(yè)務(wù)的可用率。電層設(shè)備與合波器之間的頻率分配,互聯(lián)關(guān)系等問題可以做到無圖紙化施工,我們引入了自適應(yīng)功能來實(shí)現(xiàn)匹配波長功能。同時CMUX-64可以針對不同模塊的發(fā)射功率差異與不同波特率的問題,包括正在測試中的基于PCS-16QAM的69Gbaud CFP2-DCO的高性能 400G所需81.5GHz頻譜間隔應(yīng)用,采用Flex-grid可以很好的解決。
如何快速的、自動的、準(zhǔn)確的調(diào)整波分系統(tǒng)各節(jié)點(diǎn)功率是一個業(yè)內(nèi)難題,在引入CMUX-64后,我們增加了系統(tǒng)調(diào)節(jié)點(diǎn),其中CMUX-64中的2個32緯度WSS器件,通過自動/手動配置WSS針對各通道VOA,通過控制器的集中控制可以實(shí)現(xiàn)入纖的平坦度的調(diào)節(jié)。
關(guān)于TOOP 2021的一些技術(shù)討論
TOOP今年將重點(diǎn)豐富TOC控制器的各項(xiàng)功能,針對自動化進(jìn)行一些列復(fù)雜的迭代。我們的目標(biāo)是將傳統(tǒng)后驗(yàn)的故障處理向提前感知進(jìn)行演進(jìn)。此部分請持續(xù)關(guān)注鵝廠網(wǎng)事,也歡迎感興趣的小伙伴加入到我們的行列,讓我們一同把傳送系統(tǒng)變得更加“簡單”!
關(guān)于硬件,TOOP在2021年不會有Super C-band(C++方案)的應(yīng)用,不會有96Gbaud 800G應(yīng)用。TOOP會繼續(xù)在C-band場景下進(jìn)行部署,從目前器件成熟度角度來看下一目標(biāo)是實(shí)現(xiàn)C&L-band應(yīng)用,但是不會選擇Super C-band或 Super C&L-band方案,分析如下:
1.由于受激拉曼散射(SRS),短波長能量向長波長傳遞,導(dǎo)致短波長插損更大,C+L波段進(jìn)一步增加插損。Super C+L會讓此劣化趨勢更加顯著。
2.按照當(dāng)下7nm 芯片400G場景來計(jì)算,Super C&L-band比C&L-band容量增加有限(51.2Tbps vs 54.4Tbps),但是成本要高30% -40%,因而我們認(rèn)為C+L是目前性價比更好的方案。
關(guān)于96G波特率的800G產(chǎn)品,由于性能與開發(fā)成本原因,TOOP選擇跳過96G波特率的產(chǎn)品,目標(biāo)鎖定在128G+波特率的800G產(chǎn)品。
寫在最后
TOOP是一個軟硬組合的產(chǎn)品,也終于在這個特殊的年份中,TOOP成長成一套完整的波分系統(tǒng)。在設(shè)計(jì)整套系統(tǒng)的過程中,我們舍棄了很多功能,一直對系統(tǒng)做減法?!昂啞?,簡化,讓設(shè)備簡單化,是我們一直秉持的執(zhí)念。我們相信一個簡單的產(chǎn)品一定是低成本的產(chǎn)品。無論是器件成本、學(xué)習(xí)成本、使用成本,簡單會帶來成本的降低。就像今年某位朋友常提到的,Less is more,TOOP 會繼續(xù)朝向把復(fù)雜留給“自己”,把簡單留給“用戶”方向演進(jìn)。
其實(shí)從波分系統(tǒng)在DCI場景的演進(jìn)來看,需求從單純注重性能開始向功耗、數(shù)據(jù)為王的方向轉(zhuǎn)變。如果將波分電層產(chǎn)品比做是汽車,DCI產(chǎn)品更像是新能源產(chǎn)品,0-100加速是幾秒已經(jīng)不在重要,相反自動駕駛、低使用成本、智能人機(jī)交互成為了主流。
回到波分系統(tǒng)本身,我們也已經(jīng)度過了單純看性能、容量去pk一個設(shè)備優(yōu)劣的時代。性能滿足需求即可,相反可維護(hù)性和數(shù)字化是我們所極致追求的,相信隨著學(xué)習(xí)算法的引入,未來的光網(wǎng)絡(luò)可以真的實(shí)現(xiàn)Zero-touch。
我們經(jīng)歷了光電解耦,打破了傳統(tǒng)的封閉性,但通過實(shí)際部署時我們發(fā)現(xiàn),從工程角度來看,混合部署反而增加了工作量。因此我們從去年開始標(biāo)準(zhǔn)化電層產(chǎn)品,犧牲了很多來換取規(guī)模部署的一致性。這對產(chǎn)業(yè)也是一次迭代過程,也是一個挑戰(zhàn)。本次針對可插拔方案便是對相干器件解耦的探索,同時引入了眾多高性能器件。我們發(fā)現(xiàn)其實(shí)降成本與高性能器件是可以兼顧的??紤]到DCO適配的復(fù)雜度,我們聯(lián)合阿里、百度、快手正在ODCC框架下推動DCO的標(biāo)準(zhǔn)統(tǒng)一化,包括主要寄存器的映射關(guān)系、光學(xué)參數(shù)、告警以及功能等,歡迎感興趣的同志們加入我們的行列,讓我們一起打造更好用的光網(wǎng)絡(luò)系統(tǒng)。