用戶名: 密碼: 驗(yàn)證碼:

美團(tuán)高級(jí)工程師張璋:解析數(shù)據(jù)中心演進(jìn)影響 光模塊獨(dú)立運(yùn)維日益重要

摘要:隨著數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)和光模塊正在向400G架構(gòu)演進(jìn),光模塊立運(yùn)維的重要性日益提高。美團(tuán)數(shù)據(jù)中心注重AIOPS和光模塊運(yùn)維,利用機(jī)器學(xué)習(xí)分析告警閾值,對(duì)網(wǎng)絡(luò)、設(shè)備、光模塊、光傳輸?shù)雀嗑?xì)特征指標(biāo)異常發(fā)現(xiàn)及在線趨勢(shì)預(yù)測(cè),并做數(shù)據(jù)故障分析,結(jié)合業(yè)內(nèi)數(shù)據(jù)、大數(shù)據(jù)分析及專家經(jīng)驗(yàn)和知識(shí)圖譜,分析光模塊異常趨勢(shì)。

  ICC訊(編輯:Aiur) 近年來(lái),全球互聯(lián)網(wǎng)流量持續(xù)劇增,推動(dòng)數(shù)據(jù)中心規(guī)模數(shù)量的增長(zhǎng),同時(shí)面對(duì)網(wǎng)絡(luò)海量的數(shù)據(jù)傳輸,數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)演進(jìn)和容量升級(jí)勢(shì)在必行。為了獲得更好的成本效益,數(shù)據(jù)中心運(yùn)營(yíng)商還需要在運(yùn)維機(jī)制方面進(jìn)行大量的研究分析,不斷探索一個(gè)合適的性能、穩(wěn)定性和成本方案,光通信器件獨(dú)立運(yùn)維管理的重要性與日俱增。

  5月29日,訊石信息咨詢舉辦的線上研討會(huì)—“探討后疫情時(shí)代新基建下的光通信發(fā)展機(jī)遇”,美團(tuán)點(diǎn)評(píng)高級(jí)網(wǎng)絡(luò)工程師,數(shù)據(jù)中心專家張璋發(fā)表《數(shù)據(jù)中心演進(jìn)發(fā)展對(duì)光通信器件模塊的影響》線上報(bào)告,介紹了網(wǎng)絡(luò)演進(jìn)對(duì)光模塊的影響,以及站在大型數(shù)據(jù)中心的角度看待光模塊運(yùn)維管理。

  網(wǎng)絡(luò)演進(jìn)對(duì)光模塊的影響

  張璋介紹,諸如AI、AR/VR和物聯(lián)網(wǎng)等新興應(yīng)用的出現(xiàn),讓互聯(lián)網(wǎng)數(shù)據(jù)流量呈現(xiàn)出爆發(fā)式增長(zhǎng),數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)和容量等也面臨更苛刻的挑戰(zhàn)。業(yè)界正將多平面CLOS網(wǎng)絡(luò)架構(gòu)逐步發(fā)展為數(shù)據(jù)中心網(wǎng)絡(luò)的架構(gòu)主流,傳統(tǒng)10G網(wǎng)絡(luò)也正向25G網(wǎng)絡(luò)演進(jìn)。美團(tuán)數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)演進(jìn)總體為四代,即MT-NET 1.0-4.0。2018年以前是MT-NET 1.0和2.0網(wǎng)絡(luò)架構(gòu),其接入形式為銅纜,互聯(lián)帶寬為10G-40G,服務(wù)器接入帶寬為1G或10G。2018-2020年,美團(tuán)采用第三代的MT-NET 3.0,接入形式換成AOC,互聯(lián)帶寬達(dá)到100G,服務(wù)器接入帶寬為25G。

  眾所周知,數(shù)據(jù)中心網(wǎng)絡(luò)演進(jìn)周期比電信和接入領(lǐng)域更短,美團(tuán)數(shù)據(jù)中心也正向第四代(MT-NET 4.0),其接入形式將是AOC和DAC混用,DAC的占比會(huì)更大,互聯(lián)帶寬面向400G,服務(wù)器接入帶寬將選擇100G/200G。張璋認(rèn)為,隨著網(wǎng)絡(luò)架構(gòu)升級(jí),傳統(tǒng)框式交換機(jī)正逐步被盒式交換機(jī)替代,在同一數(shù)據(jù)中心內(nèi)部場(chǎng)景中,多平面CLOS架構(gòu)(131072只光模塊)相比10G網(wǎng)絡(luò)(2016只光模塊),光模塊數(shù)量增長(zhǎng)了65倍。

  成本敏感的數(shù)據(jù)中心面對(duì)龐大的模塊數(shù)量時(shí)必須使成本進(jìn)一步降低,交換機(jī)和光模塊逐步解耦將是趨勢(shì),讓模塊廠商直接向數(shù)據(jù)中心客戶出貨。當(dāng)然,這種做法會(huì)提高數(shù)據(jù)中心運(yùn)維難度,以常用的100G SR4/CWDM4和LR4為例,當(dāng)故障發(fā)生時(shí),網(wǎng)絡(luò)廠商和模塊廠商會(huì)存在問(wèn)題界定不清的現(xiàn)象,如果缺少有效的統(tǒng)一管理模式,模塊批次問(wèn)題將難以發(fā)現(xiàn)。因此,多類型多廠商模塊管理將是數(shù)據(jù)中心演進(jìn)過(guò)程的重點(diǎn)課題。

  大型數(shù)據(jù)中心的光模塊管理

  隨著400G/800G樣品出現(xiàn)或逐步出貨,預(yù)計(jì)到2021年,400G網(wǎng)絡(luò)架構(gòu)將逐步商用,光模塊市場(chǎng)規(guī)模也將在2023年達(dá)到120億美元以上,新類型光模塊的在密度、功耗、性能和穩(wěn)定上面臨更高要求,未來(lái)光模塊將是運(yùn)維管理中的重要一環(huán)。那美團(tuán)對(duì)光模塊運(yùn)維管理是怎么做?據(jù)張璋介紹,美團(tuán)中心自主研發(fā)一套光模塊生命周期管理,分為六大部分,即光模塊POC、灰度測(cè)試、線上信息采集、異常光模塊預(yù)測(cè)、自愈系統(tǒng)和數(shù)據(jù)運(yùn)營(yíng)。

  一、光模塊POC,其分為四個(gè)階段,第一階段要建立POC協(xié)同群,滿足快速溝通應(yīng)答,廠商準(zhǔn)備產(chǎn)品組建,配合后續(xù)測(cè)試第二階段以廠商環(huán)境測(cè)試為主,涉及溫巡、壓測(cè)等環(huán)節(jié);第三階段要做整體工作分析總結(jié),輸出測(cè)試結(jié)果;第四階段是美團(tuán)自測(cè),在自有測(cè)試環(huán)境中現(xiàn)場(chǎng)比對(duì),并據(jù)實(shí)統(tǒng)計(jì)。

  二、灰度測(cè)試,指將光模塊放在一個(gè)測(cè)試POD內(nèi),待測(cè)模塊不超過(guò)總量的八分之一,測(cè)試模塊類型字段、序列號(hào)、生產(chǎn)日期、診斷日期、廠商字段、編碼字段以及光纖類型字段,還有Telemtry測(cè)試,包括溫度、電流、電壓、收光功率和發(fā)光功率。

  三、線上信息采集,從設(shè)備層下沉至光模塊,利用SSH和Telemtry將光模塊基本信息采集至數(shù)據(jù)庫(kù)。由于模塊標(biāo)準(zhǔn)眾多,以及解耦帶來(lái)的光模塊獨(dú)立運(yùn)維,光模塊單獨(dú)信息采集尤為重要。

  四、光模塊監(jiān)控,美團(tuán)從單點(diǎn)監(jiān)控轉(zhuǎn)變?yōu)橐唤M收發(fā)(本端和對(duì)端)觀察,美團(tuán)為每臺(tái)交換機(jī)構(gòu)建“端口鄰居”數(shù)據(jù)庫(kù),查看本端光模塊收發(fā)信息時(shí),可以同步展示對(duì)端光模塊信息。

  五、光模塊異常預(yù)測(cè)與自愈,美團(tuán)光模塊故障場(chǎng)景歸納為三種:端口閃斷,秒級(jí)恢復(fù);端口反復(fù)抖動(dòng);端口異常down。端口反復(fù)抖動(dòng)是常規(guī)監(jiān)控手段難以發(fā)現(xiàn),美團(tuán)專門為其探索一種光模塊預(yù)測(cè)方式,通過(guò)對(duì)交換機(jī)日志和光模塊數(shù)據(jù)進(jìn)行分析,預(yù)判哪些端口模塊會(huì)出現(xiàn)異常,從而防患于未然。

  張璋進(jìn)一步介紹,IEEE802.3ba-2010中制定了100G以太網(wǎng)物理層接口規(guī)范,并定義了本端故障/遠(yuǎn)端故障(Local Fault/Remote Fault,簡(jiǎn)稱LF/RF)。當(dāng)RS層發(fā)出LF/RF告警時(shí),對(duì)應(yīng)的物理層將會(huì)出現(xiàn)異常,交換機(jī)可以上報(bào)相應(yīng)log日志,相應(yīng)的光模塊就有可能處于亞健康狀態(tài),所以交換機(jī)上報(bào)的LF/RF日志可以作為光模塊異常信號(hào)。

  六、光模塊故障數(shù)據(jù)分析,自愈系統(tǒng)與預(yù)測(cè)系統(tǒng)結(jié)合,可以在第一時(shí)間自動(dòng)切掉流量,極大降低端口持續(xù)故障影響業(yè)務(wù)的可能性。對(duì)故障模塊原因和故障模塊類型進(jìn)行分析,可以發(fā)現(xiàn)發(fā)光器異常占了70%,CMDM4類型模塊占比最大超過(guò)了50%,所以需要在下一個(gè)POC階段對(duì)CWDM4模塊的發(fā)光器件進(jìn)行重點(diǎn)測(cè)試。通過(guò)對(duì)100G光模塊的故障管理,我們可以發(fā)現(xiàn)發(fā)光器件屬于易損部件,在后續(xù)400G迭代中需要重點(diǎn)關(guān)注。

  張璋最后表示,隨著數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)和光模塊正在向400G架構(gòu)演進(jìn),美團(tuán)數(shù)據(jù)中心后續(xù)將注重AIOPS和光模塊運(yùn)維,利用機(jī)器學(xué)習(xí)分析告警閾值,對(duì)網(wǎng)絡(luò)、設(shè)備、光模塊、光傳輸?shù)雀嗑?xì)特征指標(biāo)異常發(fā)現(xiàn)及在線趨勢(shì)預(yù)測(cè),并做數(shù)據(jù)故障分析,結(jié)合業(yè)內(nèi)數(shù)據(jù)、大數(shù)據(jù)分析及專家經(jīng)驗(yàn)和知識(shí)圖譜,分析光模塊異常趨勢(shì)。

內(nèi)容來(lái)自:訊石光通訊咨詢網(wǎng)
本文地址:http://getprofitprime.com//Site/CN/News/2020/06/02/20200602012931135404.htm 轉(zhuǎn)載請(qǐng)保留文章出處
關(guān)鍵字: 美團(tuán) 光模塊
文章標(biāo)題:美團(tuán)高級(jí)工程師張璋:解析數(shù)據(jù)中心演進(jìn)影響 光模塊獨(dú)立運(yùn)維日益重要
【加入收藏夾】  【推薦給好友】 
免責(zé)聲明:凡本網(wǎng)注明“訊石光通訊咨詢網(wǎng)”的所有作品,版權(quán)均屬于光通訊咨詢網(wǎng),未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。 已經(jīng)本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使用,反上述聲明者,本網(wǎng)將追究其相關(guān)法律責(zé)任。
※我們誠(chéng)邀媒體同行合作! 聯(lián)系方式:訊石光通訊咨詢網(wǎng)新聞中心 電話:0755-82960080-168   Right