用戶名: 密碼: 驗證碼:

鵝廠網事:數(shù)據驅動光網絡的智能運營探索

摘要:數(shù)據驅動的核心是:數(shù)據與算法。騰訊希望在這兩個方面,與更多的合作伙伴一起合作。在數(shù)據為王的時代,數(shù)據源的質量直接影響到系統(tǒng)的正確表達,如何保證數(shù)據源的質量,如何監(jiān)控數(shù)據源的質量,是一項關鍵任務。在算法方面,找到針對指標感知更加通用的算法,找到更加合理的帶寬質量分析算法,找到更加通用的硬件和光纖分析算法,則是我們關注的重點。在有效解決光網絡系統(tǒng)問題的同時,更通用的算法,也可以更加便捷的應用到其他網絡領域中。

/前言/

  面對流量快速增長,如何快速高效提供高質量帶寬,保證帶寬長期穩(wěn)定運行,是數(shù)據中心互聯(lián)光網絡面臨的最大挑戰(zhàn)。針對快速高效提供帶寬的問題。我們已經具備有效的應對方法?;跀?shù)據中心互聯(lián)組網特點,我們將光網絡切割成一個一個獨立的單元,首先將這些單元標準化,設計更加適用于數(shù)據中心應用的硬件設備OPC-4、TPC-4和設備管控模型,構建標準管控系統(tǒng),實現(xiàn)對不同廠商設備的統(tǒng)一管理,混合組網。然后將標準單元快速復制到數(shù)據中心互聯(lián)應用中,有效應對數(shù)據中心互聯(lián)帶寬的快速增長。

  隨著系統(tǒng)規(guī)模越來越大,如何保證系統(tǒng)長時間,高質量運行,是我們亟需解決的主要問題。一方面系統(tǒng)在運行過程中會逐漸偏離最佳運行狀態(tài),需要持續(xù)修正,使系統(tǒng)維持在最佳運行狀態(tài)。另一方面系統(tǒng)會遇到一些故障,在故障率一定的情況下,系統(tǒng)規(guī)模越大,故障總量就越大。如何有效降低故障率,并持續(xù)保證系統(tǒng)運行在最佳狀態(tài),是提升系統(tǒng)質量的關鍵。

  我們從標準結構著手,通過科學有效的方法,提升標準結構的高質量運行能力,一旦為標準結構構建起這樣的能力,便可以快速將這種能力復制到整個網絡。我們以精細化運行數(shù)據為驅動,為標準結構構建起自主運行能力,使其能常態(tài)化運行在最佳狀態(tài)。系統(tǒng)持續(xù)自主運行在最佳狀態(tài),需要系統(tǒng)自身能夠基于運行數(shù)據,提前發(fā)現(xiàn)系統(tǒng)潛在風險,在故障發(fā)生前主動處理,防患于未然,有效降低系統(tǒng)故障率。同時以設備運行數(shù)據為基礎,還可以分析設備運行情況,協(xié)助優(yōu)化設備硬件、軟件設計,提升設備質量。

/自動控制架構/

  騰訊開放光網絡自動控制架構,本質是一個閉環(huán)控制架構。架構的關鍵點是四大能力構建:控制能力、采集能力、感知能力、決策能力。將這四大能力合理有序串聯(lián)起來,便可實現(xiàn)整個系統(tǒng)的自動運行。采集能力采集到系統(tǒng)更詳盡、更精細的運行數(shù)據,感知能力對運行數(shù)據分析,感知系統(tǒng)變化;決策能力則使系統(tǒng)具備科學分析,科學決策的能力,依據感知結果對系統(tǒng)作出科學決策,并將指令傳遞給控制系統(tǒng)執(zhí)行,實現(xiàn)對系統(tǒng)的閉環(huán)控制。

/感知能力構建/

  什么是感知能力?用一個人體體驗作為例子,如果人體被針扎一下或者手擰一下,都會體會到疼痛,人體體會到疼痛是一種采集能力,但是我們的大腦能夠準確的從這兩種疼痛不同的表現(xiàn)方式,體會出差異,判斷出區(qū)別,這就是感知能力。感知能力是一種對數(shù)據的分析能力。在傳統(tǒng)光網絡系統(tǒng)中,對數(shù)據的感知往往是由經驗豐富的工程師完成,我們正在幫系統(tǒng)構建起這種能力,使系統(tǒng)能夠在無人干預的條件下,實現(xiàn)對數(shù)據的經驗性轉化。目前騰訊開放光網絡已經具備了控制能力和采集能力,我們正在進行感知能力和分析能力的構建。

  我們主要從兩個維度構建系統(tǒng)感知能力,一個是系統(tǒng)維度,一個是時間維度。系統(tǒng)維度,首先構建針對單個指標的感知能力,通過對指標的感知來判斷系統(tǒng)變化。傳送平面的硬件和光纖是運營過程中可以操作的基本單元,構建針對硬件和光纖的感知能力,準確感知故障和潛在風險,觸發(fā)相關運維操作,對問題硬件替換,避免故障發(fā)生,可以將故障轉化為計劃內的網絡操作,保證系統(tǒng)質量。傳輸系統(tǒng)最終是一個帶寬系統(tǒng),從用戶角度并不關心系統(tǒng)內部設備、光纖這些組成元素。我們常被用戶問及帶寬情況如何?帶寬的感知能力,則是讓系統(tǒng)能夠自行回答這個問題。讓系統(tǒng)能夠感知帶寬當前的運行狀態(tài),預測帶寬未來的運行狀態(tài),對潛在風險合理規(guī)避,有效降低帶寬的非預期性中斷,保證帶寬長期穩(wěn)定運行。時間維度,則要為系統(tǒng)構建快速感知能力,中速感知能力和慢速感知能力,這是從系統(tǒng)問題分析時效性出發(fā)定義的能力??焖俑兄菍?shù)據的實時分析,快速捕獲系統(tǒng)故障。中速感知則是對系統(tǒng)潛在風險或者關鍵指標變化的分析和感知,這往往需要一定量的數(shù)據進行分析。而慢速感知則是通過對大量數(shù)據的分析,來感知系統(tǒng)運行趨勢,可以對系統(tǒng)未來的運行狀況進行預測。

  接下來介紹不同感知能力構建的典型數(shù)據基礎。下面這張圖展示了對線路光纖衰耗的快速感知能力。通過光纖兩端主光通道及OSC(Optical Supervisory Channel)的發(fā)光功率和收光功率計算得到光纖衰耗,能夠通過光纖衰耗的變化,快速發(fā)現(xiàn)光纖故障。同時可以觀察到在放大器開啟APR(Automatic Power Reduction)功能情況下,主光通道光功率和OSC通道光功率的差異性行為。

  下面這張圖展示了對光纖衰耗的中速感知能力,可以觀察到在某一時刻后光纖衰耗已經發(fā)生變化,持續(xù)性的提升了一個臺階,此時系統(tǒng)需要感知到光纖基準衰耗的變化,并正確修正該基準衰耗。因為系統(tǒng)內基于光纖衰耗的分析算法會使用到光纖基準衰耗,光纖基準衰耗的不準確,會直接導致使用該指標的算法無法得到正確結果。

  最后一張圖展示了對設備的中速感知能力,可以明顯觀察出上方圖中,A-Z方向由主光通道計算出的光纖衰耗和由OSC通道計算出的光纖衰耗,呈現(xiàn)不同的數(shù)據形態(tài)?;贠SC計算出的光纖衰耗數(shù)據保持穩(wěn)定,但是相同時間段內,由主光通道計算出的光纖衰耗數(shù)據則出現(xiàn)較大范圍的波動。進一步分析可以發(fā)現(xiàn),這個現(xiàn)象是由于A端的主光通道發(fā)送光功率不穩(wěn)定導致的,并不是線路光纖出現(xiàn)問題。因此通過對一段時間內的數(shù)據進行分析,為我們發(fā)現(xiàn)設備潛在故障提供準確線索。

  目前系統(tǒng)的感知范圍還主要集中在光纖纖芯內部和設備內部,但是實際中我們遇到的光纖故障,往往是由外界影響導致的,比如挖掘機將光纜挖斷。因此我們需要將感知能力擴展到光纖外部幾米的范圍,使系統(tǒng)能夠感知光纖外部環(huán)境變化,這是系統(tǒng)能夠防患于未然的關鍵。針對這個問題,一方面我們通過在光層設備中引入光纖傳感技術,提升系統(tǒng)對光纖周圍環(huán)境的探測能力,另一方面我們在深挖系統(tǒng)中沉睡的光學指標,通過合理計算,擴展系統(tǒng)的感知邊界。從這兩方面努力,使我們能夠提前預警光纖中斷風險。

/系統(tǒng)架構變革/

  數(shù)據驅動推動系統(tǒng)架構發(fā)生革命性變革。網絡控制器與設備組成的管控系統(tǒng),需重新按照以數(shù)據為中心進行設計。依照系統(tǒng)功能需求和實際資源分布,重新分配整個管控系統(tǒng)的計算能力。將系統(tǒng)主要計算能力上移到控制器,結合計算平臺自由伸縮特性,為系統(tǒng)提供彈性計算能力。同時降低計算能力受限的設備的計算負荷,將廣泛分布于網絡中的設備,改造成網絡運行數(shù)據采集單元,持續(xù)快速的向控制器推送網絡的實時運行數(shù)據,由控制器完成基于全局視角的系統(tǒng)分析和控制。

  從光纖故障處理的具體場景,對比數(shù)據驅動型系統(tǒng)與傳統(tǒng)管理系統(tǒng)的區(qū)別。當光纖發(fā)生故障后,傳統(tǒng)系統(tǒng)中設備產生LOS(Loss of signal)告警,并將告警傳遞給網管,網管將設備告警傳遞給上層管理系統(tǒng)(OSS);上層管理系統(tǒng)接收到設備告警后,并無法直接判斷故障,此時會下發(fā)查詢指令,向廠商網管查詢相關設備的性能數(shù)據;網管會根據請求,向設備下發(fā)查詢指令,設備向廠商網管報告15min性能,然后廠商網管繼續(xù)向OSS上報設備返回的15min性能。光網絡設備的計算能力有限,在故障的時候要產生告警,同時又要應對集中的查詢請求,這就是往往在發(fā)生故障的時候,操作人員體會到設備反應變慢的根本原因。而且越是反應慢,操作人員越會連續(xù)觸發(fā)設備查詢請求,導致情況變的更糟。傳輸設備作為整個系統(tǒng)中計算能力最弱的單元,卻在最關鍵的時候承擔了主要計算壓力,這樣的系統(tǒng)計算能力分配是不合理的。

  在騰訊開放光網絡系統(tǒng),我們按照系統(tǒng)各單元的客觀計算能力條件,重新分布了整個系統(tǒng)的計算能力。將設備的計算需求減載,將主要計算能力上移到控制器。將設備改造成一個精細、穩(wěn)定的采集裝置,源源不斷的采集系統(tǒng)運行數(shù)據,持續(xù)、快速向控制器上報??刂破鞒袚饕嬎隳芰?。對于相同的光纖故障處理場景:設備采集性能數(shù)據持續(xù)上報,控制器根據所有設備上報的性能數(shù)據及網絡邏輯結構數(shù)據,快速計算得到光纜故障的結論,并反饋給上層網管系統(tǒng)。如果上層網管系統(tǒng)需要查詢故障當時的系統(tǒng)性能數(shù)據,則直接向控制器進行請求,此時所有的設備性能數(shù)據均保存在控制器,控制器并不會向設備發(fā)起查詢命令,而是將該查詢請求終結在控制器內部。即使上層管理系統(tǒng),有突發(fā)的多個查詢請求,控制器也能夠合理應對。系統(tǒng)計算能力重新分配,讓設備和控制器更加合理的承擔系統(tǒng)功能,使系統(tǒng)更加高效運轉。

  設備作為整個系統(tǒng)的運行數(shù)據采集終端,我們在想辦法提升其采集數(shù)據的速率和精度,在我們的持續(xù)努力下,目前設備可以按照1s間隔向控制器推送性能數(shù)據,而且關鍵性能指標的時間分辨率可以達到20ms??刂破髯鳛橄到y(tǒng)計算能力主要單元,則在持續(xù)提升其數(shù)據處理及時性和準確性?;?s streaming telemetry構建的數(shù)字驅動系統(tǒng),對比傳統(tǒng)傳輸系統(tǒng)的15min性能數(shù)據,不僅僅是900倍的時間分辨率提升,更是對系統(tǒng)觀測能力的革命。正是基于對系統(tǒng)的精細化觀測,使我們能夠精確感知、準確控制。

/挑戰(zhàn)/

  數(shù)據驅動為系統(tǒng)帶來革命性變化的同時,也帶極大挑戰(zhàn)。數(shù)據驅動的核心是:數(shù)據與算法。我們希望在這兩個方面,與更多的合作伙伴一起合作。在數(shù)據為王的時代,數(shù)據源的質量直接影響到系統(tǒng)的正確表達,如何保證數(shù)據源的質量,如何監(jiān)控數(shù)據源的質量,是一項關鍵任務。而找到數(shù)據背后的真相,發(fā)現(xiàn)問題的本質則會從根本上改變我們和供應商的協(xié)作方式,由原來只能在問題發(fā)生后被動接受故障分析報告,演進到可以根據數(shù)據發(fā)現(xiàn)真相,有效驅動供應商進行精準的問題修復,防患于未然。在算法方面,找到針對指標感知更加通用的算法,找到更加合理的帶寬質量分析算法,找到更加通用的硬件和光纖分析算法,則是我們關注的重點。在有效解決光網絡系統(tǒng)問題的同時,更通用的算法,也可以更加便捷的應用到其他網絡領域中。

      作者:陳明剛

內容來自:訊石光通訊咨詢網
本文地址:http://getprofitprime.com//Site/CN/News/2020/12/01/20201201054426766670.htm 轉載請保留文章出處
關鍵字: 光網絡
文章標題:鵝廠網事:數(shù)據驅動光網絡的智能運營探索
【加入收藏夾】  【推薦給好友】 
1、凡本網注明“來源:訊石光通訊網”及標有原創(chuàng)的所有作品,版權均屬于訊石光通訊網。未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載我方內容的單位,也必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和本站來源。
2、免責聲明,凡本網注明“來源:XXX(非訊石光通訊網)”的作品,均為轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。因可能存在第三方轉載無法確定原網地址,若作品內容、版權爭議和其它問題,請聯(lián)系本網,將第一時間刪除。
聯(lián)系方式:訊石光通訊網新聞中心 電話:0755-82960080-168   Right