本文轉(zhuǎn)載自微信公眾號(hào)“光通信充電寶”,作者馮振華博士,經(jīng)允許略作刪改。
3月12號(hào),800G可插拔光模塊MSA工作組發(fā)布了業(yè)內(nèi)第一份800G MSA白皮書(shū),一直沒(méi)時(shí)間看,今天找出來(lái)看看,把要點(diǎn)給大家分享一下。先來(lái)談?wù)勥@個(gè)MSA組織吧。
800G pluggable MSA的發(fā)起者主要是中國(guó)和日本公司,包括、光迅、中國(guó)電信技術(shù)實(shí)驗(yàn)室、H3C、海思、華為、立訊精密、住友、騰訊和山崎,當(dāng)然后來(lái)陸續(xù)還有其它公司加入。目標(biāo)是定義面向數(shù)據(jù)中心應(yīng)用的短距800G傳輸用的可插拔低成本光模塊,包括8X100G與4X200G兩種規(guī)范,傳輸距離包括100m,500m,2km,如下圖所示。
圖1. 800G MSA的研究范疇
目前業(yè)界有部分觀點(diǎn)認(rèn)為800G的傳輸需求將在2021年出現(xiàn),但直到2023年市場(chǎng)開(kāi)始走向成熟。對(duì)應(yīng)的還有個(gè)美國(guó)通信巨頭博通、思科牽頭成立的QSFP-DD800MSA光模塊工作組,推動(dòng)QSFP-DD格式的800G光模塊和相關(guān)連接器標(biāo)準(zhǔn)化。
白皮書(shū)的題目叫《用800G光模塊使能下一代云和AI》,很有華為的味道,當(dāng)然事實(shí)上參與單位還包括騰訊、百度等互聯(lián)網(wǎng)大佬,(可惜我司暫不在其中啊)如圖2所示。全書(shū)共16頁(yè),分為六章。行文脈絡(luò)大概是這樣的:
1、新應(yīng)用(云計(jì)算,AI應(yīng)用)催生了更高互連帶寬的需求,業(yè)界需要更高速的光模塊,如800G;
2、數(shù)據(jù)中心的架構(gòu),不同位置交換機(jī)對(duì)帶寬的要求;
3、SR互連場(chǎng)景的需求,8x100G的應(yīng)對(duì)方案技術(shù)分析;
4、FR互連場(chǎng)景的需要分析,4x200G技術(shù)可行性,重點(diǎn)技術(shù);
5、應(yīng)對(duì)DR場(chǎng)景的潛在技術(shù)方案;
6、總結(jié)與展望。
圖2. 800G MSA主要推動(dòng)單位
1. 背景介紹-800市場(chǎng)即將到來(lái)
白皮書(shū)指出,根據(jù)相關(guān)研究,諸如AR/VR,AI和5G的新應(yīng)用將會(huì)產(chǎn)生越來(lái)越多的流量,并且呈指數(shù)增長(zhǎng),這將導(dǎo)致更大帶寬和更多連接的需求,如圖3所示,全球的互連帶寬容量在最近四年仍將快速增長(zhǎng),復(fù)合增長(zhǎng)速率高達(dá)48%。
圖3. 全球互連指數(shù)
與需求相對(duì)應(yīng)的市場(chǎng),也反映了這一趨勢(shì)。如圖4所示,根據(jù)light counting預(yù)測(cè),未來(lái)5年數(shù)據(jù)中心市場(chǎng)400G光模塊將快速增長(zhǎng),到2022年左右將出現(xiàn)2x400G或800G的市場(chǎng)。按照Lightcounting 市場(chǎng)研究公司的CEO, Vladimir博士的話說(shuō)就是,云數(shù)據(jù)中心的運(yùn)營(yíng)商在2023~2024年將會(huì)部署800G光模塊來(lái)應(yīng)對(duì)不斷增長(zhǎng)的網(wǎng)絡(luò)流量,這其中大多數(shù)的光模塊將是可插拔的,并且也可能看到采用共封裝(co-packaged)的模塊。
圖4. 數(shù)據(jù)中心光模塊市場(chǎng)年銷(xiāo)售額預(yù)測(cè)
由于在交換ASIC芯片領(lǐng)域,兩年容量翻一倍的摩爾定律尚未失效,云數(shù)據(jù)中心的架構(gòu)將受到擴(kuò)容的挑戰(zhàn)。目前商用部署的以太網(wǎng)交換機(jī)容量為12.8Tb/s,不過(guò)1年后就要面臨被25.6Tb/s的替代。交換機(jī)的容量演進(jìn)路線如圖5所示,這將給高密度光互聯(lián)帶來(lái)巨大的壓力,因?yàn)椴皇撬械墓怆娖骷寄芟馛MOS工藝那樣每?jī)赡昙擅芏仍黾右槐?,這是由于不同的器件,它的設(shè)計(jì)和制造方法不同所決定的。
圖5. 數(shù)據(jù)中心交換芯片容量演進(jìn)規(guī)律
在過(guò)去的幾年里,基于NRZ直接探測(cè)的100G短距光模塊大出風(fēng)頭,承載了大部分的云服務(wù)快速增長(zhǎng)的流量。自從IEEE在2011年3月啟動(dòng)了400GE相關(guān)標(biāo)準(zhǔn)的研究,在2020年將會(huì)迎來(lái)400G 光模塊的規(guī)模部署,并且明年的需求更加強(qiáng)勁。圖4反映了這一增長(zhǎng)趨勢(shì)。值得注意的是,在應(yīng)用初期,400G模塊主要是用于DR4場(chǎng)景下傳輸,速率4x100G,距離達(dá)500m,以及FR4場(chǎng)景,2x200G速率,距離長(zhǎng)達(dá)2km,并沒(méi)有真正用到400GE MAC功能。同時(shí),還注意到IEEE可能在短期之內(nèi)并不會(huì)將800GE光口標(biāo)準(zhǔn)化,至少在近兩年內(nèi)是完不成8x100GE或2x400GE高密度互連的800GE標(biāo)準(zhǔn)的,但到那時(shí)800G實(shí)際需求已經(jīng)出現(xiàn),因此需要業(yè)界來(lái)制定規(guī)范,實(shí)現(xiàn)不同廠家800G產(chǎn)品互連互通。
2. 數(shù)據(jù)中心架構(gòu)
一般來(lái)講,面向的應(yīng)用不同,數(shù)據(jù)中心的結(jié)構(gòu)及流量特征可能不同。比如,面向外部客戶(hù)提供XaaS類(lèi)型服務(wù)的數(shù)據(jù)中心中的主要流量更可能是南北向的服務(wù)器到客戶(hù)端的,這樣的話,數(shù)據(jù)中心規(guī)模在地理上可以更集中。而如果是面向內(nèi)部需求的云計(jì)算或存儲(chǔ)為主的數(shù)據(jù)中心中,流量更傾向于東西向服務(wù)器與服務(wù)器之間流動(dòng),這一般需要集中超大型數(shù)據(jù)中心資源。甚至盡管應(yīng)用場(chǎng)景類(lèi)似,運(yùn)營(yíng)商依然可以根據(jù)自家喜好來(lái)選擇基于PSM4或CWDM4的光互連方案。這就導(dǎo)致了數(shù)據(jù)中心架構(gòu)和技術(shù)的多樣性。
常用的數(shù)據(jù)中心架構(gòu)至少有兩種。 下圖給出了典型的數(shù)據(jù)中心架構(gòu)(3層)及其交換速率演進(jìn)路標(biāo)。不過(guò)通常的數(shù)據(jù)中心會(huì)比圖中的設(shè)備更多,架構(gòu)會(huì)顯得更加龐大和復(fù)雜。每一層之間會(huì)考慮3:1左右的收斂比,如一個(gè)Spine交換機(jī)下面可能會(huì)連接3個(gè)Leaf交換機(jī),以此類(lèi)推。在Spine層之上需要通過(guò)ZR類(lèi)型的相干光互連方案來(lái)實(shí)現(xiàn)與其它數(shù)據(jù)中心的互聯(lián)(也就是DCI場(chǎng)景)。800G接口速率出現(xiàn)的標(biāo)志是,當(dāng)sever和TOR交換機(jī)之間的速率達(dá)到200G的時(shí)候,TOR到Leaf之間以及Spine層就不得不采用PSM4 4x200G的扇出結(jié)構(gòu)了。
圖6. 常見(jiàn)3層數(shù)據(jù)中心架構(gòu)及光互連速率演進(jìn)
這里的TOR,Leaf,Spine交換機(jī)其實(shí)就分別對(duì)應(yīng)著我們?cè)诰W(wǎng)絡(luò)中經(jīng)常說(shuō)的接入層,匯聚層和核心層了。通常對(duì)于典型的數(shù)據(jù)中心網(wǎng)絡(luò)(DCN),如果部署200G帶寬的服務(wù)器,就得具備800G的網(wǎng)絡(luò)連接帶寬,但也可以根據(jù)數(shù)據(jù)中心建設(shè)成本預(yù)算,在數(shù)據(jù)中心提供服務(wù)的能力(即帶寬、傳輸距離等資源)上做出一些折中考慮。如表1,給出了數(shù)據(jù)中心網(wǎng)絡(luò)中不同層級(jí)對(duì)帶寬和傳輸距離的要求,并給出了推薦的光模塊封裝尺寸要求。
表1. DCN不同層對(duì)帶寬和傳輸距離的要求
考慮到最近興起的AI應(yīng)用大量的計(jì)算需求,在一些面向AI應(yīng)用的超級(jí)計(jì)算機(jī)集群或AI數(shù)據(jù)中心中,人們通常會(huì)采用兩層的交換架構(gòu),如圖7所示。這是因?yàn)榭紤]到AI計(jì)算的特征,不需要層與層之間的流量匯聚,每個(gè)服務(wù)器的流量已經(jīng)非常大,因而直接對(duì)應(yīng)一個(gè)交換機(jī)接口,獨(dú)享帶寬資源??梢?jiàn),這種AI或超算數(shù)據(jù)中心網(wǎng)絡(luò)中,流量特性與常規(guī)的數(shù)據(jù)中心不同,它主要是大顆粒流量業(yè)務(wù),不需要頻繁地交換。
圖7. AI/高性能計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)及速率演示
這種二層數(shù)據(jù)中心網(wǎng)絡(luò),由于沒(méi)有層之間的流量匯聚需求,如果部署400G的服務(wù)器,才需要800G的網(wǎng)絡(luò)互連帶寬。相比于傳統(tǒng)的三層交換數(shù)據(jù)中心網(wǎng)絡(luò),這種二層架構(gòu)更方便快速部署,同時(shí)也具有更低的延時(shí),非常適用于未來(lái)的AI或超算 DCN。表2給出這種DCN具體技術(shù)指標(biāo)。
表2. AI或高性能計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)需求
不過(guò),有些小公司或小型云數(shù)據(jù)中心網(wǎng)絡(luò)中,Leaf與服務(wù)器之間的傳輸速率可能并不需要400G這么大的帶寬,這就需要在具體設(shè)計(jì)的時(shí)候考慮實(shí)際面臨的應(yīng)用場(chǎng)景與成本之間的關(guān)系。附帶談一談數(shù)據(jù)中心建設(shè)應(yīng)該注意的問(wèn)題吧。在數(shù)據(jù)中心解決方案中,最應(yīng)該關(guān)注兩個(gè)因素是可擴(kuò)展性和成本。當(dāng)設(shè)計(jì)一個(gè)數(shù)據(jù)中心時(shí),成本控制和性能的建設(shè)標(biāo)準(zhǔn)不能過(guò)高或過(guò)低。如果用戶(hù)過(guò)度建設(shè),那么將會(huì)浪費(fèi)資源,雖然這些資源可以用來(lái)拓展更多的業(yè)務(wù)。但是閑置的資源能力是很昂貴的,而且當(dāng)真正需要使用它的時(shí)候,這個(gè)能力可能成為被淘汰的技術(shù)。例如,如果用戶(hù)建立一個(gè)數(shù)據(jù)中心,預(yù)期生命周期為10年,并已經(jīng)建立了額外容量,以適應(yīng)未來(lái)的增長(zhǎng),但這個(gè)能力可能在5年后過(guò)時(shí)。屆時(shí)電能消耗、性能和其他功能的進(jìn)步,可以使數(shù)據(jù)中心運(yùn)營(yíng)和維護(hù)處于明顯的劣勢(shì)。
而如果數(shù)據(jù)中心建設(shè)標(biāo)準(zhǔn)較低時(shí)也會(huì)面臨挑戰(zhàn),甚至可能更加昂貴。如果用戶(hù)的設(shè)計(jì)規(guī)則能力低于計(jì)劃的要求,在擴(kuò)建和升級(jí)數(shù)據(jù)中心時(shí),屆時(shí)將會(huì)有一個(gè)巨大的資本開(kāi)支。
正是由于上述的可能存在的數(shù)據(jù)中心建設(shè)過(guò)度或不足的問(wèn)題,因此數(shù)據(jù)中心的快速擴(kuò)展、運(yùn)營(yíng)便捷以及成本這些重大問(wèn)題是許多企業(yè)優(yōu)先考慮的事項(xiàng)。企業(yè)要采用最靈活的解決方案,通常會(huì)選擇數(shù)據(jù)中心托管的模式。數(shù)據(jù)中心托管運(yùn)營(yíng)商允許用戶(hù)“按需付費(fèi),漸進(jìn)擴(kuò)展”。用戶(hù)可以根據(jù)需要擴(kuò)展或減少租用空間,只需支付相關(guān)的使用費(fèi)用就可,這樣用戶(hù)就沒(méi)有閑置或不足的能力,也就沒(méi)有了所有設(shè)施相關(guān)的問(wèn)題,并能最大限度地提高IT投資的價(jià)值。
不過(guò)這對(duì)于一些互聯(lián)網(wǎng)大佬都不是什么問(wèn)題,他們更看重的是數(shù)據(jù)本身的價(jià)值,因而不惜代價(jià)重金投入也要自建數(shù)據(jù)中心及自已提供云服務(wù),把關(guān)鍵資產(chǎn)掌握在自己手里,比如阿里,騰訊,百度,F(xiàn)acebook, google,甚至它們中有的公司還專(zhuān)門(mén)有網(wǎng)絡(luò)基礎(chǔ)設(shè)施相關(guān)研究部門(mén),研究各種低成本高速光互連方案,甚至連光模塊都要自研。目的無(wú)非就是建設(shè)更好的數(shù)據(jù)中心網(wǎng)絡(luò),提供更快速多樣的服務(wù),吸引更多的用戶(hù)。
最后,還需要解釋一下為什么最近幾年數(shù)據(jù)中心網(wǎng)絡(luò)如此火爆。這還得從視頻說(shuō)起,下圖為Cisco最新的VNI流量預(yù)測(cè),指出近幾年視頻流量在網(wǎng)絡(luò)中占據(jù)越來(lái)越大的比例,到2022年預(yù)計(jì)視頻相關(guān)的流量將占據(jù)整個(gè)互聯(lián)網(wǎng)流量的80%以上。這一點(diǎn)相信大家都不會(huì)感到吃驚,因?yàn)槲覀冏约好刻於际且曨l流量的接收者和生產(chǎn)者。伴隨著視頻業(yè)務(wù)不斷興起的是承載網(wǎng)絡(luò)架構(gòu)的變化和流量分布的轉(zhuǎn)變。
隨著內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)的興建和數(shù)據(jù)中心網(wǎng)絡(luò)(DCN)的下沉,內(nèi)容,如視頻,文件等,這些網(wǎng)絡(luò)資源被緩存在離用戶(hù)更近的地方,以提供更低的延時(shí),更快的緩沖速率。這樣大部分流量將不再需要經(jīng)過(guò)長(zhǎng)距離的骨干網(wǎng)傳輸,而是就近被終結(jié)在中短距的城域網(wǎng)或數(shù)據(jù)中心網(wǎng)絡(luò)范圍之內(nèi)。早在2017年就有報(bào)告指出中短距的城域網(wǎng)流量已經(jīng)超過(guò)長(zhǎng)途骨干網(wǎng)流量了。而數(shù)據(jù)中心,特別是云數(shù)據(jù)中心互聯(lián)(DCI)則是城域網(wǎng)絡(luò)的最典型應(yīng)用。因此,近些年關(guān)于它的話題火熱也就不奇怪了。
圖8. Cisco VNI預(yù)測(cè)流量變化趨勢(shì)