騰訊開放光網絡實現多廠商設備開放組網。通過不同廠商設備的自由組合與靈活替換,降低了帶寬成本,提高了帶寬交付效率。然而,多廠商、多型號設備的混合組網模式,也為傳送網絡的運營帶來了新的挑戰(zhàn)。在不同廠商設備混合組網的開放網絡中,定位設備故障是一個復雜的問題。傳統依賴廠商工程師的模式難以為繼,需要系統具備快速診斷、定位設備故障的能力,能夠在開放網絡中,精確識別不同廠商設備的異常狀態(tài),定位故障點,準確分析故障影響,為設備故障處理等相關運營流程提供技術支撐。騰訊開放光網絡基于多維度運行數據,利用智能算法,構建實時故障監(jiān)測系統。實現對設備故障全面覆蓋,故障定位準確率達到90%以上,故障查全率高達97%。
1、設備故障定位的挑戰(zhàn)
圖一 傳統光傳輸系統故障定位流程
眾所周知,根據墨菲定律,只要硬件有故障的幾率,無論這個幾率再小故障都會發(fā)生。更不用提在開放光網絡中,各類業(yè)務板卡/光模塊的數量在幾k到數十k的級別,在這么大的設備基數面前,故障是很常見的。那么廠商工程師的排障邏輯是什么樣的呢?一個最重要的信息來源就是告警。當設備產生告警或者業(yè)務受到影響時,值班人員會去詢問廠商工程師進行確認故障具體點位,然后配合駐場來對故障設備進行更換。在這個處理流程中有幾大痛點:
告警多:每月與波分電層相關的告警數量極為龐大,已遠遠超出人力資源所能承受的范圍。
誤報多:與每月設備上報海量告警相對的是,但實際發(fā)生的設備故障數量大概只有二十幾例。
信息指向不明確:板卡、模塊告警無法與業(yè)務相關聯,故障指示性差。
2、自研實時故障監(jiān)測系統設計
圖二 實時故障監(jiān)測系統流程
為了解決上述痛點,我們構建了實時故障監(jiān)測系統。它的核心部分是上圖中的智能故障出單。開放光網絡系統的精細化監(jiān)控能力帶來了秒級性能數據和告警的采集,這極大地將開放光網絡透明化可視化,開放光網絡中設備的各個維度的信息變得觸手可及。通過將這些信息輸入我們自研的數據挖掘和分析算法,故障事件單以及對應的處理建議將會自動且快速輸出。這些故障事件單會以告警的形式接入運營監(jiān)控平臺,并自動觸發(fā)工單,通知值班人員關注。值班同學根據故障告警的分析建議,指導駐場直接對故障設備做出相應的操作,如復位、拔插、更換等等。相對于傳統的商用系統排障方式,騰訊自研實時故障監(jiān)測系統的優(yōu)勢體現在如下幾個方面:
準確定位:故障定位的累積準確率在90%以上,出單的算法邏輯也一直針對具體的故障情況進行優(yōu)化,避免誤報。
全面覆蓋:故障定位的累積查全率在97%左右,可覆蓋各種故障場景,避免絕大多數故障漏報。
快速響應:相較于依賴工程師定位故障需要半天到天級的響應和溝通時間,實時故障監(jiān)測系統可以做到分鐘級告警上報,真正實現了全天候不間斷監(jiān)測。
自適應指導:自研的故障監(jiān)測系統通過回顧歷史故障數據庫,積累了大量的故障處理經驗,可以根據故障點位和類型自適應生成設備維護建議,不僅定位準確,還能合理維護。
3、核心故障出單邏輯設計
圖三 智能故障出單層級結構圖
如上圖,在實時故障監(jiān)測系統中,一共有六種不同的設備/模塊被納入了監(jiān)測對象。不同硬件在系統中完成功能不同,性能指標種類存在明顯差異,運營過程中關注點也不同。因此需要根據每種板卡/模塊的運行特征,具體為其設計故障分析邏輯。
但是不同的故障分析邏輯,其本源是對性能、告警、狀態(tài)等數據源產生數據的分析。因此,針對單一數據源的特征分析和針對多數據源的聯合分析,作為基本分析方法,是故障檢測系統,實現不同硬件故障分析邏輯的技術基礎。其中涉及的一些技術要點會在下文給出簡要介紹。
技術要點一
性能數據異常實時發(fā)現。上文提到,在開放光網絡系統中,設備因秒級的性能數據采集和推送變得透明化和可視化。這也對實時性能處理和分析提出了更高的要求,采集窗口必須實時貼近故障事件的反應時間,監(jiān)測算法必須保證低算法復雜度以配合實時故障發(fā)現的需求。為了應對這些需求,我們引入了時間序列自適應滑動窗口階躍監(jiān)測技術。
圖四 自適應滑動窗口階躍監(jiān)測
如圖所示,我們將設備推送的秒級數據(例如模塊發(fā)光頻率,發(fā)光頻偏,板卡溫度等)收集到控制器端,然后對歷史時間窗進行滑動監(jiān)測。監(jiān)測算法的思想是動態(tài)截取時間窗,并計算時間窗在當前時刻的統計值,這個統計值和數據的波動情況正相關。換言之,異常性能數據時間窗內經過統計分析會計算得到一個較高值。該值與統計所得閾值做比較,低于閾值則為正常范圍波動,高出閾值則被判定為故障態(tài)。算法中的各項具體數值(例如閾值、標準差)都是經過對歷史故障數據的詳細分析后得出的,使故障態(tài)識別更加精確。另外,性能數據的偶然波動(單個采集窗口的數據異常,可能是設備誤報導致)導致的信號突變也會在該算法中進行排除。通過這種滑動窗口階躍監(jiān)測技術,20s內的窗口異常波動都可以有效檢出,且占用資源低,可以實時對控制器管控的海量設備同時監(jiān)控。在性能監(jiān)測方面,除了自適應滑動窗口階躍監(jiān)測之外,還有發(fā)光平坦度監(jiān)測、電源實時轉化率分析、風扇轉速與設備功耗數據關聯度分析等手段,可根據設備的特性進行應用。
技術要點二
多維度信息綜合分析提升根因定位準確性。雖然上述的性能數據是可以通過數學建模來利用算法直接判斷異常態(tài),但是某些設備的性能數據對于故障的指向性不是特別明確,甚至缺少關鍵性能數據,此時就需要控制器采集設備其他維度的信息來進行綜合研判。例如設備自身上報的告警,設備關聯業(yè)務的健康度,相關聯的交換機端口狀態(tài)等等。我們以波長轉換板卡(OTU板卡)為例簡要說明綜合分析過程。在之前的運營中,OTU板卡故障一般是在上層業(yè)務受損后被發(fā)現的。然后人工查詢并判斷是數通層面故障還是波分層面故障,定位到波分層面故障后再定位具體的故障點位。定位到具體故障設備后,再來通過相關的設備告警定位故障具體發(fā)生在客戶側模塊,線路側模塊還是OTU電卡。整個故障定位流程十分冗長且需要人工確認,并且在確認眾多告警和故障之間的關聯時需要豐富的經驗,這對后續(xù)的排障工作也帶來了較很高的難度。
圖五 多維度信息綜合分析流程
因此我們將告警、業(yè)務狀態(tài)、巡檢結果都融入自動化故障監(jiān)測體系中。從OTU板卡告警觸發(fā),開始關聯分析業(yè)務的狀態(tài)。若業(yè)務狀態(tài)異常,則進一步分析這個告警的嚴重程度,根據其和故障的相關性分級處理,結合受影響業(yè)務的數量來判斷具體是OTU故障還是潛在的上插模塊的故障。另一方面,日常的巡檢收集對業(yè)務無影響的告警,從故障防控的角度提前知曉設備劣化的動態(tài),并發(fā)出故障預測??傮w而言,通過編排告警的優(yōu)先級以及對應處理方式,可以為后續(xù)排障工作提供準確的指導建議,進一步提高故障處理的效率。
總結
騰訊開放光網絡系統實時設備故障監(jiān)測系統,依托于騰訊開放光網絡系統秒級telemetry性能監(jiān)控能力的海量運營數據,引入先進數據分析算法,實時發(fā)現設備性能異動;結合設備告警、業(yè)務狀態(tài)信息分析等手段,顯著提升了故障定位的準確性、查全度、時效性,有效解決了在不同廠商設備混合組網的開放網絡中,定位設備故障的難題,提升了光網絡系統故障應對效率。展望未來:一方面故障監(jiān)測系統將會不斷優(yōu)化算法,進一步提升故障定位準確率和排障效率,同時,更多新的故障類型將會納入實時監(jiān)測體系中。另一方面,將會探索故障監(jiān)測系統與優(yōu)化系統聯動配合,實現故障、監(jiān)測,優(yōu)化的閉環(huán)。
作者:懷健、王宇、明剛