筑基煉己,提升網(wǎng)絡(luò)核心能力
近幾年來,騰訊DCI經(jīng)歷了幾次重要的演進(jìn)。網(wǎng)絡(luò)的本質(zhì)是為業(yè)務(wù)提供支撐和服務(wù),所以網(wǎng)絡(luò)的演進(jìn)也應(yīng)由需求驅(qū)動而非技術(shù)驅(qū)動。過去五年騰訊基礎(chǔ)網(wǎng)絡(luò)需求的最大變化,來自于服務(wù)對象的變化?;A(chǔ)網(wǎng)絡(luò)所支撐的,從以產(chǎn)品導(dǎo)向為主的To C自研業(yè)務(wù),逐漸變?yōu)橐孕枨髮?dǎo)向為主的、To B的公有云業(yè)務(wù)。兩類業(yè)務(wù)各自特點的不同,直接導(dǎo)致了對網(wǎng)絡(luò)需求的差異??蛻羝谕覀兲峁┮粡堎|(zhì)量盡量好、成本盡量低的網(wǎng)絡(luò),并且能夠根據(jù)需求隨時交付。相信很多網(wǎng)絡(luò)工程師都因為這樣的需求而產(chǎn)生過焦慮。
我們并不質(zhì)疑需求的合理性,這個問題的矛盾實際是過去傳統(tǒng)網(wǎng)絡(luò)的演進(jìn)無法匹配業(yè)務(wù)的發(fā)展速度而引起的,伴隨而來的是一次次運營事件和客戶抱怨。我們進(jìn)行了深入的復(fù)盤和反思,總結(jié)了網(wǎng)絡(luò)核心能力三要素——質(zhì)量,成本,效率,并針對這三個要素對DCI網(wǎng)絡(luò)進(jìn)行了系統(tǒng)的優(yōu)化:
對全網(wǎng)數(shù)通設(shè)備、傳輸設(shè)備、線路的性能和可靠性進(jìn)行專項攻堅提升;
優(yōu)化變更管理和監(jiān)控流程,確保所有網(wǎng)絡(luò)操作一旦觸發(fā)異??杀坏谝粫r間定位并恢復(fù);
網(wǎng)絡(luò)架構(gòu)優(yōu)化,推出全新DCI架構(gòu)B2,采用多平面+分域網(wǎng)絡(luò)設(shè)計,集中式+分布式的SDN控制調(diào)度,簡化網(wǎng)絡(luò)的同時有效控制了DCI故障的爆炸半徑;
自動化運營能力提升,基于自研NetOps自動化運營平臺,通過配置建模、代碼化架構(gòu)發(fā)布和管理、全流程自動化下發(fā)等方法,實現(xiàn)了對網(wǎng)絡(luò)配置、變更的完全可控;通過立體監(jiān)控、優(yōu)雅隔離、灰度恢復(fù)等手段實現(xiàn)了快速故障定位和自愈。
當(dāng)我們信心滿滿的迎來2021年時,我們卻被一些“個性”的需求難住了。21年初,某云上客戶需要使用騰訊會議舉行一場重要的跨國視頻會議,需要網(wǎng)絡(luò)側(cè)為該用戶的會議業(yè)務(wù)流量在穿越DCI時提供最高的可靠性保障;某游戲加速類客戶提出騰訊云國內(nèi)外多個邊緣數(shù)據(jù)中心到核心數(shù)據(jù)中心需要提供極低的網(wǎng)絡(luò)時延,這意味著DCI需要專門針對這類客戶提供定制化的網(wǎng)絡(luò)加速……我們突然發(fā)現(xiàn)網(wǎng)絡(luò)面對的需求,不再是單純的討論網(wǎng)絡(luò)整體的質(zhì)量效率成本,而是需要針對不同客戶提供靈活的、定制化的網(wǎng)絡(luò)服務(wù)。網(wǎng)絡(luò)核心能力三要素也需要進(jìn)行一個重要的補充——差異化服務(wù)。
分層解耦,開放靈活的網(wǎng)絡(luò)服務(wù)
騰訊云早在2018年就推出了提供全網(wǎng)互聯(lián)服務(wù)的云聯(lián)網(wǎng)(Cloud Connect Network,CCN)產(chǎn)品,為客戶提供云上私有網(wǎng)絡(luò)間(VPC)、VPC與本地數(shù)據(jù)中心間(IDC)內(nèi)網(wǎng)互聯(lián)的服務(wù),具備全網(wǎng)多點互聯(lián)、路由自學(xué)習(xí)、鏈路選優(yōu)及故障快速收斂等能力。幫助客戶輕松構(gòu)建極速、穩(wěn)定、安全、靈活的全球互聯(lián)網(wǎng)絡(luò)。
云聯(lián)網(wǎng)對客戶的網(wǎng)絡(luò)意圖進(jìn)行轉(zhuǎn)譯解析,拆分成不同的網(wǎng)絡(luò)任務(wù)執(zhí)行,極大的簡化了客戶對于云上網(wǎng)絡(luò)的運維復(fù)雜度。但在物理網(wǎng)絡(luò)層執(zhí)行時,受限于傳統(tǒng)數(shù)通網(wǎng)絡(luò)設(shè)備的種種限制(如相對固化的軟硬件實現(xiàn),性能規(guī)格限制等),很難實現(xiàn)細(xì)粒度的差異化服務(wù),而傳統(tǒng)的基于業(yè)務(wù)優(yōu)先級的QoS能力,已經(jīng)遠(yuǎn)遠(yuǎn)無法滿足公有云百萬級客戶的個性化需求。所以,我們需要一款對上可以與云聯(lián)網(wǎng)聯(lián)動,對下可以按客戶粒度進(jìn)行精細(xì)化調(diào)度,并且直接參與報文數(shù)據(jù)轉(zhuǎn)發(fā)的,可以快速靈活迭代的網(wǎng)絡(luò)產(chǎn)品。符合這些特點的,就是一款騰訊自研NFV產(chǎn)品,我們把它命名為vDCI。
vDCI產(chǎn)品的誕生,也標(biāo)志著騰訊DCI從SDN時代正式演進(jìn)到了SDN+NFV時代。
這是一張vDCI產(chǎn)品的落地場景圖,vDCI在接收到從數(shù)據(jù)中心發(fā)出的流量后,通過Overlay技術(shù)為每個客戶構(gòu)建一個獨立的專屬網(wǎng)絡(luò)平面,并在專用平面內(nèi)基于客戶的不同業(yè)務(wù)類型進(jìn)行精確匹配和靈活的按需調(diào)度,同時確保不同客戶間互不影響。
vDCI作為騰訊DCI的流量出入口,通過隧道技術(shù)在低時延、高質(zhì)量、低成本網(wǎng)絡(luò)路徑間進(jìn)行精細(xì)化的選路調(diào)度;同時也通過vDCI這個虛擬平面,將個性化的業(yè)務(wù)需求與物理網(wǎng)絡(luò)解耦,vDCI專注于滿足業(yè)務(wù)的靈活調(diào)度需求,底層物理網(wǎng)絡(luò)則聚焦于網(wǎng)絡(luò)性能和可靠性的持續(xù)提升。
上圖展示了vDCI產(chǎn)品的服務(wù)能力和高可靠性能力。首先是通過高速加密隧道,實現(xiàn)多種網(wǎng)絡(luò)資源的靈活利用,同時保證業(yè)務(wù)的安全性;通過vDCI的可編程能力,支持業(yè)務(wù)自定義調(diào)度標(biāo)識,幫助客戶可以按照不同的業(yè)務(wù)類型進(jìn)行差異化調(diào)度選擇;同時vDCI產(chǎn)品通過與底層物理網(wǎng)絡(luò)在控制面和轉(zhuǎn)發(fā)面的聯(lián)動提供靈活的多級調(diào)度,客戶可以在多個網(wǎng)絡(luò)路徑中,按需選擇時延最低、成本最低或質(zhì)量最優(yōu)的線路,甚至可以在不同的網(wǎng)絡(luò)中進(jìn)行按需的調(diào)度和切換;最后通過騰訊自研SDN控制器和調(diào)度算法,實現(xiàn)客戶可自定義的、多維度組合的調(diào)度策略,比如“在滿足指定的時延范圍內(nèi),選擇成本最低的線路”,“在滿足指定可用率范圍內(nèi),選擇時延最小的線路”等等,以幫助公有云產(chǎn)品盡可能的滿足客戶個性化的網(wǎng)絡(luò)需求。
vDCI作為一款全自研產(chǎn)品,除了在差異化服務(wù)能力方面的提升,在高可靠性方面也做了豐富的設(shè)計。首先是通過vDCI產(chǎn)品自身發(fā)送亞秒級的高精度探測報文,基于每條隧道進(jìn)行實時探測,一旦檢測到異常,可以按照制定好的運營策略(異常的判定條件和運營策略均支持客戶自定義或使用騰訊云推薦值),實現(xiàn)多級的保護(hù)切換?;趫D中展示的鏈路級、路徑級、網(wǎng)絡(luò)級三級調(diào)度能力,可按需進(jìn)行端口級、設(shè)備級、路徑級、平面級、網(wǎng)絡(luò)級5級切換,以保證在異常場景下,仍然盡量滿足客戶的原始選路訴求。為客戶提供了多級快速故障自愈能力,這在傳統(tǒng)網(wǎng)絡(luò)中是非常難做到的。截至2021年底,vDCI產(chǎn)品已經(jīng)完成了騰訊云全球Region的覆蓋部署,穩(wěn)定運營超過6個月,為多種類型客戶提供了定制化DCI加速服務(wù)。
端網(wǎng)協(xié)同,打造極致網(wǎng)絡(luò)
如果僅僅將vDCI作為DCI的流量入口,則不得不為了實現(xiàn)少部分客戶的精細(xì)化調(diào)度需求,需要將全部用戶的流量都引入到vDCI,這可能會帶來額外的成本開銷。所以接下來vDCI將通過自研網(wǎng)絡(luò)協(xié)議,實現(xiàn)數(shù)據(jù)轉(zhuǎn)發(fā)面直接與業(yè)務(wù)網(wǎng)關(guān)系統(tǒng)的對接,實現(xiàn)端側(cè)的按需引流。后續(xù)隨著Smartswitch、SmartNIC的規(guī)模上線,vDCI可以以更靈活的方式與業(yè)務(wù)進(jìn)行聯(lián)動,實現(xiàn)端網(wǎng)協(xié)同調(diào)度。這也標(biāo)志著DCI網(wǎng)絡(luò)系統(tǒng)從控制面到轉(zhuǎn)發(fā)面的全面開放,讓上層業(yè)務(wù)可以靈活、高效的享用底層網(wǎng)絡(luò)提供的豐富的服務(wù)能力。
結(jié)語
最后總結(jié)一下騰訊DCI的演進(jìn)歷程,首先通過B2網(wǎng)絡(luò)和自動化運營平臺,解決了業(yè)務(wù)對于網(wǎng)絡(luò)質(zhì)量、效率、成本的最基礎(chǔ)需求;然后通過vDCI+SDN調(diào)度算法,實現(xiàn)了為業(yè)務(wù)提供差異化服務(wù)能力;接下來基于管理面、控制面、轉(zhuǎn)發(fā)面全棧自研的騰訊DCI網(wǎng)絡(luò)平臺,通過高精度網(wǎng)絡(luò)度量和數(shù)據(jù)建模與分析,進(jìn)一步深入理解業(yè)務(wù),更好的幫忙云上客戶產(chǎn)生價值。