Iccsz訊 光網(wǎng)絡(luò)非常昂貴,像微軟這一云服務(wù)提供商,在不考慮購(gòu)買或租用光纖成本的前提下,每提升100Gbps的速度都需花費(fèi)數(shù)萬(wàn)美元。僅微軟美國(guó)骨干網(wǎng)就需要在數(shù)千英里的光纖上傳播覆蓋35個(gè)城市的每秒數(shù)百TB的帶寬,在全球范圍內(nèi),為云服務(wù)構(gòu)建和互聯(lián)數(shù)據(jù)中心網(wǎng)絡(luò)需要數(shù)億美元的資金。隨著帶寬需求的增加,光網(wǎng)絡(luò)成本必須降低。
云運(yùn)營(yíng)商所需的光纖網(wǎng)絡(luò)比典型的一級(jí)運(yùn)營(yíng)商的需求更加簡(jiǎn)單,對(duì)于只承載基于數(shù)據(jù)包的流量的點(diǎn)對(duì)點(diǎn)網(wǎng)段,容量和一致性傳輸比網(wǎng)狀連接或管理更重要。另一方面,微軟骨干網(wǎng)上的網(wǎng)絡(luò)流量十分混亂,Office 365、Azure、OneDrive(云存儲(chǔ))、Bing以及一系列其他工作負(fù)載需要進(jìn)行優(yōu)化。企業(yè)營(yíng)業(yè)程序需要接近完美的可用性、高容量并且能夠靈活地跟上不可預(yù)測(cè)的用戶需求。在Azure數(shù)據(jù)中心之間復(fù)制存儲(chǔ)會(huì)產(chǎn)生大量流量,但可以加以計(jì)劃并圍繞更高優(yōu)先級(jí)的流量進(jìn)行調(diào)度。
Azure的網(wǎng)絡(luò)團(tuán)隊(duì)并沒有采用通過增加更多波長(zhǎng)和光纖這一常規(guī)方式來提高容量,在ACM網(wǎng)絡(luò)熱點(diǎn)研討會(huì)上,他們解釋了如何利用更高效布線的光纖攜帶更多數(shù)據(jù)包。
由于密集波分復(fù)用技術(shù)(DWDM)采用可重新配置的多路復(fù)用器,可以非常高效地切換端口之間的波長(zhǎng),因此彈性光網(wǎng)絡(luò)可以在通常的固定配置下利用頻譜。通過使用軟件定義廣域網(wǎng)(Microsoft SWAN)將帶寬與可變帶寬收發(fā)器和流量工程相結(jié)合,Azure工程師可以混合匹配不同形式的轉(zhuǎn)發(fā)器線卡和高密度互連。
早在2015年,微軟就開始考慮每隔15分鐘為其整個(gè)北美光纖骨干網(wǎng)收集所有100Gbps線路的信號(hào)質(zhì)量,并將其與微軟研究院的4000公里測(cè)試網(wǎng)絡(luò)進(jìn)行比較,以確定其光纖能夠提供的容量。光纖網(wǎng)絡(luò)通常對(duì)固定容量堅(jiān)持固定調(diào)制,100Gbps線路始終是100Gbps線路。但光纖實(shí)際上可以處理更多的數(shù)據(jù)嗎?
回顧前三個(gè)月的數(shù)據(jù),該團(tuán)隊(duì)發(fā)現(xiàn),通過使用帶寬可變的發(fā)射器配置每個(gè)通道的調(diào)制方式,他們可以在相同的光纜上獲得70%的網(wǎng)絡(luò)容量。這種增長(zhǎng)是100,150甚至200Gbps速度的混合,大多數(shù)流量運(yùn)行在150Gbps。使用25Gb而不是50Gb增量,使速度增加更為細(xì)化,能夠更高效的使用光纖,再提供86%的容量,其中大部分流量達(dá)到175或200Gbps。
幾個(gè)月的數(shù)據(jù)可能存在誤差,所以微軟收集了兩年半的數(shù)據(jù)?;谶@些數(shù)據(jù),微軟北美的骨干網(wǎng)10Gbps網(wǎng)段中的99%可以以150Gbps的速度運(yùn)行,無(wú)需切換光纖甚至中間放大器,只需改變調(diào)制格式即可。實(shí)際上,80%的鏈路可以以175Gbps的速度運(yùn)行,34%的鏈路可以以200Gbps的速度運(yùn)行。
為了獲得整個(gè)網(wǎng)絡(luò)中每秒多達(dá)145 TB的數(shù)據(jù)量,Azure開始購(gòu)買帶寬可變的收發(fā)器,這些收發(fā)器可根據(jù)光纖路徑的信噪比在100,150和200Gbps之間進(jìn)行切換,非常方便Wi-Fi或DSL連接,連接速度取決于網(wǎng)絡(luò)的質(zhì)量。
收集網(wǎng)絡(luò)數(shù)據(jù)表明,特定網(wǎng)絡(luò)鏈路的信號(hào)質(zhì)量通常保持不變,除了由于光纖或光學(xué)硬件問題導(dǎo)致的下降。這些下降大多數(shù)是因?yàn)?A href="http://getprofitprime.com/site/CN/Search.aspx?page=1&keywords=%e5%85%89%e7%ba%a4&column_id=ALL&station=%E5%85%A8%E9%83%A8" target="_blank">光纖過度配置導(dǎo)致的,它只需要6.5dB的信噪比來承載100Gbps的流量,但微軟的100Gbps鏈路通常有12dB,這也是為什么它可以承載兩倍的流量。數(shù)據(jù)顯示,故障在175Gbps時(shí)增加不多,但在200Gbs時(shí)它們確實(shí)成為問題,其中一些故障可能持續(xù)數(shù)小時(shí)。
令人惱火的是,這些收發(fā)器關(guān)閉網(wǎng)絡(luò)鏈路以改變連接的調(diào)制平均需要68秒,并且看起來像網(wǎng)絡(luò)中的故障。大部分時(shí)間都花費(fèi)在調(diào)試發(fā)送光學(xué)數(shù)據(jù)的激光器上,在不關(guān)閉激光器的情況下,改變調(diào)制只需35毫秒。因此,如果調(diào)制光纖鏈路的帶寬匹配信號(hào)變得很普遍,那么收發(fā)器將需要被設(shè)計(jì)成幫助網(wǎng)絡(luò)運(yùn)營(yíng)商最大化容量而不是過度配置固定容量線路以避免鏈路速度變化帶來的高延遲。
還有一個(gè)原因推動(dòng)了改變,在通常情況下,大多數(shù)光纖網(wǎng)絡(luò)的故障并不意味著光纖根本無(wú)法工作,切斷光纖和電源故障相對(duì)較少。
考慮到Azure光纖網(wǎng)絡(luò)中7個(gè)月的計(jì)劃外故障,在90%的情況下,故障鏈路上的信噪比仍超過3dB,足以傳輸50Gbs的數(shù)據(jù),所以能夠根據(jù)需要切換鏈路速度可以提高可用性和容量。
為此,微軟將其網(wǎng)絡(luò)測(cè)量和數(shù)據(jù)分析研究轉(zhuǎn)變?yōu)獒槍?duì)Azure網(wǎng)絡(luò)光學(xué)層的實(shí)時(shí)性能和故障監(jiān)控引擎。它還在研究如何將鏈路信號(hào)質(zhì)量提供給SWAN和Google B4等IP流量工程算法,以便他們可以利用動(dòng)態(tài)容量鏈接。
思科,Arista,Inohi和ADVA在商業(yè)系統(tǒng)中展示了微軟以前向網(wǎng)絡(luò)供應(yīng)商要求的改變,以提高網(wǎng)絡(luò)速度并降低Azure光纖網(wǎng)絡(luò)的成本和功耗。 即使對(duì)于云提供商來說,動(dòng)態(tài)光纖連接仍然是一個(gè)復(fù)雜的選擇,但是更進(jìn)一步,它們可以證明是一種以比租賃新光纖更低的成本提高您自己的數(shù)據(jù)中心之間的容量和可用性的方法。