康寧：人工智能及其對(duì)數(shù)據(jù)中心的影響

訊石光通訊網(wǎng) 發(fā)布時(shí)間:2019/3/12 16:23:28 編者:iccsz

摘要：人工智能是如何影響數(shù)據(jù)中心的呢?早在2014年，Google就在他們的一個(gè)數(shù)據(jù)中心部署了Deepmind AI(使用人工智能的一種應(yīng)用——機(jī)器學(xué)習(xí))。結(jié)果呢?他們能夠持續(xù)地減少40%用于冷卻的能量，這相當(dāng)于在考慮到電氣損耗和其他非冷卻效率之后，總PUE開銷減少15%。這產(chǎn)生了該數(shù)據(jù)中心見(jiàn)過(guò)的最低PUE?；谶@些顯著的節(jié)省，Google希望在他們的其他數(shù)據(jù)中心里部署這項(xiàng)技術(shù)，并建議其他公司也這樣做。

這可能有助于發(fā)現(xiàn)新的效率水平，伴隨的是帶寬需求的大幅增加 Tony Robinson, Corning

ICCSZ訊 電影制作人如何能夠?qū)⒛切┰诋?dāng)時(shí)看來(lái)與現(xiàn)實(shí)相去甚遠(yuǎn)的概念引入我們的日常生活中，這一點(diǎn)一直讓人感到驚奇。1990年，阿諾德施瓦辛格(Arnold Schwarzenegger)的電影《Total recall》向我們展示了“Johnny Cab”，這是一種無(wú)人駕駛汽車，可以載著我們?nèi)ト魏蜗肴サ牡胤健，F(xiàn)在，大多數(shù)大型汽車公司都在投資數(shù)百萬(wàn)美元將這項(xiàng)技術(shù)推廣到大眾。多虧了《回到未來(lái)2》(Back to the Future II)，馬蒂·麥克弗萊(Marty McFly)在磁浮滑板上躲避暴徒，可以讓我們的孩子們站在類似于1989年我們看到的東西上撞向家具(以及彼此)。

回到1968年(我們有些人還能記得)，我們用HAL 9000(電影《2001太空漫游》中發(fā)現(xiàn)號(hào)宇宙飛船上的一臺(tái)有感知的計(jì)算機(jī))接觸到了人工智能(AI)。HAL能夠說(shuō)話和面部識(shí)別，自然語(yǔ)言處理，唇讀，藝術(shù)欣賞，解釋情感行為，自動(dòng)推理，甚至可以下棋。

快進(jìn)到過(guò)去幾年，您可以非?？焖俚拇_定AI已經(jīng)成為我們?nèi)粘Ｉ钪胁豢苫蛉钡囊徊糠?。您可以向智能手機(jī)詢問(wèn)下一個(gè)旅行目的地的天氣情況，虛擬助理可以播放您喜歡的音樂(lè)，您的社交媒體賬戶將根據(jù)您的個(gè)人喜好更新新聞和廣告。沒(méi)有冒犯科技公司的意思，這就是AI 101。

但是在這個(gè)背景下發(fā)生的事情太多了，我們看不到這有助于改善，甚至拯救生活。語(yǔ)言翻譯、新聞推送、面部識(shí)別、復(fù)雜疾病的更準(zhǔn)確診斷以及藥物研發(fā)速度的加快，只是企業(yè)開發(fā)和部署人工智能的部分應(yīng)用。據(jù)Gartner預(yù)測(cè)，人工智能帶來(lái)的商業(yè)價(jià)值到2022年將達(dá)到3.9萬(wàn)億美元。

縝密思考的服務(wù)器

那么人工智能是如何影響數(shù)據(jù)中心的呢?早在2014年，Google就在他們的一個(gè)數(shù)據(jù)中心部署了Deepmind AI(使用人工智能的一種應(yīng)用——機(jī)器學(xué)習(xí))。結(jié)果呢?他們能夠持續(xù)地減少40%用于冷卻的能量，這相當(dāng)于在考慮到電氣損耗和其他非冷卻效率之后，總PUE開銷減少15%。這產(chǎn)生了該數(shù)據(jù)中心見(jiàn)過(guò)的最低PUE。基于這些顯著的節(jié)省，Google希望在他們的其他數(shù)據(jù)中心里部署這項(xiàng)技術(shù)，并建議其他公司也這樣做。

Facebook的使命是“賦予人們建立社區(qū)的力量，讓世界更緊密地聯(lián)系在一起”，他們?cè)诎灼禙acebook應(yīng)用機(jī)器學(xué)習(xí):數(shù)據(jù)中心基礎(chǔ)設(shè)施的視角》(Applied Machine Learning at Facebook: A Datacenter Infrastructure Perspective)中概述了這一點(diǎn)。它描述了在全球范圍內(nèi)支持機(jī)器學(xué)習(xí)的硬件和軟件基礎(chǔ)架構(gòu)。

為了讓你對(duì)AI和ML需要多少計(jì)算能力有個(gè)基本概念，百度硅谷實(shí)驗(yàn)室的首席科學(xué)家Andrew Ng表示，訓(xùn)練一個(gè)百度的中文語(yǔ)音識(shí)別模型不僅需要4 terabytes的訓(xùn)練數(shù)據(jù)，還需要20個(gè)計(jì)算機(jī)的exaflops計(jì)算量，也就是整個(gè)培訓(xùn)周期內(nèi)需要200億億次數(shù)學(xué)運(yùn)算。

但是我們的數(shù)據(jù)中心基礎(chǔ)設(shè)施呢?人工智能是如何影響不同規(guī)模和類型基礎(chǔ)設(shè)施的設(shè)計(jì)和部署的，我們正在建造、租用或升級(jí)數(shù)據(jù)中心基礎(chǔ)設(shè)施，以適應(yīng)這種創(chuàng)新的、節(jié)省成本的和更為高效的技術(shù)。

ML可以在一臺(tái)機(jī)器上運(yùn)行，但由于難以置信的數(shù)據(jù)吞吐量通常會(huì)在多臺(tái)機(jī)器上運(yùn)行。所有機(jī)器都互相連接，在訓(xùn)練和數(shù)據(jù)處理階段，所有設(shè)備都相互連接，以確保持續(xù)的通信和低延遲，絕對(duì)不會(huì)中斷在我們指尖、屏幕或音頻設(shè)備上的服務(wù)。作為一個(gè)人類，我們對(duì)越來(lái)越多數(shù)據(jù)的渴望正在推動(dòng)帶寬指數(shù)的增長(zhǎng)，以滿足我們最簡(jiǎn)單的想法。

這種帶寬需要在設(shè)備內(nèi)部和跨多個(gè)設(shè)備分布，使用更復(fù)雜的架構(gòu)設(shè)計(jì)(spine-and-leaf)。我們說(shuō)的super-spine和super-leaf它們?yōu)樗袕?fù)雜的算法提供了一條高速公路，以便數(shù)據(jù)在不同的設(shè)備之間傳輸，最終回到我們的接收器。

數(shù)據(jù)中心中的技術(shù)部署選項(xiàng)

這就是光纖在將您的特殊(或搞怪)時(shí)刻的圖片或視頻播放給全世界觀看，分享和評(píng)論方面發(fā)揮關(guān)鍵作用的地方。與銅纜相比，光纖具有高速和超高密度的性能，已成為我們數(shù)據(jù)中心基礎(chǔ)設(shè)施中的實(shí)際傳輸介質(zhì)。隨著我們向更高的網(wǎng)絡(luò)速度遷移，還在混合部署中引入了全新的復(fù)雜性，也就是將采用哪種技術(shù)?

傳統(tǒng)的3層網(wǎng)絡(luò)架構(gòu)使用核心、聚合和邊緣交換來(lái)連接數(shù)據(jù)中心內(nèi)的不同服務(wù)器，服務(wù)器間的通信通過(guò)光收發(fā)器以南北向的方式彼此通信。然而現(xiàn)在，非常感謝AI和ML為游戲帶來(lái)的高計(jì)算要求和相互依賴性,更多的網(wǎng)絡(luò)使用2層的spine-and-leaf網(wǎng)絡(luò),由于生產(chǎn)和培訓(xùn)網(wǎng)絡(luò)所需的超低延遲，服務(wù)器之間以東西方向進(jìn)行通信。

自2010年IEEE批準(zhǔn)40G和100G網(wǎng)絡(luò)傳輸技術(shù)標(biāo)準(zhǔn)以來(lái)，出現(xiàn)了許多相互競(jìng)爭(zhēng)的解決方案，這些解決方案在一定程度上影響了用戶的判斷，因?yàn)樗麄儾淮_定應(yīng)該采用哪種方式。解釋一下，在40G之前，我們使用的是SR(即多模的短距離傳輸)和LR(即單模的長(zhǎng)距離傳輸)。兩者都使用一對(duì)光纖在兩個(gè)設(shè)備之間傳輸信息。無(wú)論您使用哪種設(shè)備或在該設(shè)備中安裝了哪種收發(fā)器，這都是通過(guò)兩芯光纖進(jìn)行的簡(jiǎn)單數(shù)據(jù)交換。

但是隨著IEEE批準(zhǔn)了40G及更高速率的解決方案后，游戲規(guī)則發(fā)生了改變。現(xiàn)在我們正在研究使用標(biāo)準(zhǔn)批準(zhǔn)的或?qū)Ｓ械膬煞N方案，專有的WDM技術(shù)，和標(biāo)準(zhǔn)批準(zhǔn)的、或多源協(xié)議(MSAs)認(rèn)可的并行光學(xué)技術(shù)，并行光學(xué)技術(shù)使用8芯光纖(4芯發(fā)送和4芯接收)或20芯光纖(10芯發(fā)送和10芯接收)。

如果您想使用標(biāo)準(zhǔn)認(rèn)可的解決方案并降低光學(xué)器件成本，并且在不需要單模光纖的長(zhǎng)距離能力的情況下，您可以選擇多模并行光學(xué)技術(shù)。它還可以讓您將高速40或100G的交換機(jī)端口拆分為更靈活的10或25G服務(wù)器端口。我將在本文中更詳細(xì)的介紹這一點(diǎn)。

如果您希望延長(zhǎng)已安裝的雙工光纖系統(tǒng)的使用壽命，并且不介意在沒(méi)有通用性選項(xiàng)的情況下繼續(xù)使用單一的硬件供應(yīng)商，也不需要更長(zhǎng)的傳輸距離，那么您可以選擇多模WDM解決方案。

現(xiàn)在我要告訴你的是，大多數(shù)大規(guī)模部署人工智能的科技公司都在為今天和明天的網(wǎng)絡(luò)設(shè)計(jì)…單模并行光學(xué)系統(tǒng)。這里有三個(gè)簡(jiǎn)單的原因。

1.成本和距離

目前的市場(chǎng)趨勢(shì)是并行光學(xué)解決方案首先開發(fā)和發(fā)布，幾年后WDM解決方案也隨之發(fā)布，因此使用并行光學(xué)解決方案的數(shù)量大大增加，從而降低了制造成本。與2 km和10 km WDM解決方案相比，并行光學(xué)解決方案支持更短的距離，因此您不需要太多復(fù)雜的組件來(lái)冷卻激光器，并對(duì)兩端信號(hào)進(jìn)行復(fù)用和解復(fù)用。雖然我們已經(jīng)看到這些“超大型”設(shè)施的規(guī)模已經(jīng)激增到3-4個(gè)足球場(chǎng)的大小，但我們的數(shù)據(jù)顯示，單模光纖的平均部署長(zhǎng)度尚未超過(guò)165米，因此無(wú)需使用更昂貴的WDM收發(fā)器來(lái)滿足他們不需要支持的距離。

2.靈活性

部署并行光學(xué)設(shè)備的一個(gè)主要優(yōu)勢(shì)是能夠使用高速交換機(jī)端口，比如40G，并將其分解為4x10G服務(wù)器端口。端口拆分提供了巨大的經(jīng)濟(jì)性，因?yàn)椴鸱值退俣丝诳梢燥@著的將電子設(shè)備的機(jī)箱或機(jī)架安裝單元數(shù)量減少到1/3(數(shù)據(jù)中心資產(chǎn)并不便宜)，并且使用更少的電源，需要更少的冷卻，從而進(jìn)一步降低能源消耗。我們的數(shù)據(jù)顯示這相當(dāng)于在單模解決方案上節(jié)省30%。光纖收發(fā)器供應(yīng)商還確認(rèn)，在所有銷售的并行光收發(fā)器中，有很大一部分是為了利用這個(gè)端口拆分能力而部署的。

3.簡(jiǎn)單清晰的遷移

主要交換機(jī)和收發(fā)器廠商的技術(shù)路線圖為部署并行光學(xué)的客戶提供了非常清晰和簡(jiǎn)單的遷移路徑。我之前提到過(guò)，大多數(shù)科技公司都遵循這條路徑，所以當(dāng)系統(tǒng)從100G遷移到200g或400G時(shí)，光纖基礎(chǔ)設(shè)施仍然保持不變，不需要任何升級(jí)。那些決定使用雙工，2芯光纖為布線基礎(chǔ)的公司可能會(huì)發(fā)現(xiàn)他們想要升級(jí)到100G以上，WDM光學(xué)技術(shù)可能無(wú)法在其遷移計(jì)劃的時(shí)間范圍內(nèi)完成。

對(duì)數(shù)據(jù)中心設(shè)計(jì)的影響

從連接性的角度來(lái)看，這些網(wǎng)絡(luò)是高度網(wǎng)狀的光纖基礎(chǔ)設(shè)施，以確保沒(méi)有任何一臺(tái)服務(wù)器彼此之間的網(wǎng)絡(luò)跳數(shù)超過(guò)兩個(gè)。但是帶寬需求如此之大，以至于從spine交換機(jī)到leaf交換機(jī)的3:1的收斂比配置是不夠的，因此更常用的是從不同數(shù)據(jù)核心之間的超級(jí)spine進(jìn)行分布式計(jì)算。

由于交換機(jī)IO速度的顯著提高，網(wǎng)絡(luò)運(yùn)營(yíng)商正在努力提高利用率，我們通過(guò)使用從spine到leaf的1:1收斂比例設(shè)計(jì)系統(tǒng)，達(dá)到了更高的效率和超低的延遲，在當(dāng)今的人工智能環(huán)境中，這是一個(gè)昂貴但必要的需求。

此外，在谷歌最近宣布推出最新的人工智能硬件后，我們又一次改變了傳統(tǒng)的數(shù)據(jù)中心設(shè)計(jì)，這是一種定制的專用集成電路，稱為張量處理單元(TPU 3.0)，在其巨大pod設(shè)計(jì)中，其功率將是過(guò)去的TPU的8倍，超過(guò)100 petaflops。但是，在芯片中加入更多的計(jì)算能力也會(huì)增加驅(qū)動(dòng)它的能量，因此也會(huì)增加熱量，這也是為什么大量的聲明聲稱，由于TPU 3.0產(chǎn)生的熱量已經(jīng)超過(guò)了以前的數(shù)據(jù)中心冷卻解決方案的限制，將轉(zhuǎn)向?qū)π酒M(jìn)行液體冷卻的原因。

最后

人工智能是下一波商業(yè)創(chuàng)新。它所帶來(lái)的優(yōu)勢(shì)來(lái)自運(yùn)營(yíng)成本的節(jié)約、額外的收入流、簡(jiǎn)化以及更高效的客戶交互，數(shù)據(jù)驅(qū)動(dòng)的工作方式帶來(lái)的優(yōu)勢(shì)太有吸引力了——不僅對(duì)CFO和股東如此，對(duì)客戶也是如此。這一點(diǎn)在最近的一次組內(nèi)討論中得到了證實(shí)，專家當(dāng)時(shí)表示使用聊天機(jī)器人的網(wǎng)站，如果效率不高且客戶關(guān)注度不夠，客戶就會(huì)放棄對(duì)話，并且很難再次合作。

因此，我們必須接受這項(xiàng)技術(shù)并從中受益，這也意味著采用一種不同的方式來(lái)思考數(shù)據(jù)中心的設(shè)計(jì)和實(shí)施。由于ASIC的性能顯著提高，我們最終會(huì)看到IO速度的提高，從而進(jìn)一步提高系統(tǒng)的聯(lián)通性。概括來(lái)講，您的數(shù)據(jù)中心在支持ML訓(xùn)練的同時(shí)，需要超高效率，高密度，超低延遲，東西向的spine-and-leaf光纖網(wǎng)絡(luò)，以適應(yīng)您的日常流量需求。

我們已經(jīng)看到，主要的科技公司是如何接受人工智能的，以及采用并行單模技術(shù)如何幫助它們比傳統(tǒng)的雙工模式獲得更好的資本和運(yùn)營(yíng)成本的，后者承諾從第一天起就降低成本。但是，數(shù)據(jù)中心的運(yùn)營(yíng)從第二天就開始了，隨著我們個(gè)人及行業(yè)內(nèi)交流習(xí)慣和方式的不斷變化、速度的提高和復(fù)雜性的增加，數(shù)據(jù)中心的運(yùn)營(yíng)也在不斷發(fā)展?，F(xiàn)在部署正確的布線基礎(chǔ)設(shè)施解決方案，將使您的企業(yè)從一開始就獲得更大的經(jīng)濟(jì)效益，留住和吸引更多的客戶，并使您的數(shù)據(jù)中心設(shè)施能夠更靈活的蓬勃發(fā)展。

內(nèi)容來(lái)自：訊石光通訊咨詢網(wǎng)
本文地址：http://getprofitprime.com//Site/CN/News/2019/03/12/20190312083217443119.htm 轉(zhuǎn)載請(qǐng)保留文章出處
關(guān)鍵字: 人工智能
文章標(biāo)題:康寧：人工智能及其對(duì)數(shù)據(jù)中心的影響

【加入收藏夾】【推薦給好友】

免責(zé)聲明：凡本網(wǎng)注明“訊石光通訊咨詢網(wǎng)”的所有作品，版權(quán)均屬于光通訊咨詢網(wǎng)，未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用上述作品。已經(jīng)本網(wǎng)授權(quán)使用作品的，應(yīng)在授權(quán)范圍內(nèi)使用，反上述聲明者，本網(wǎng)將追究其相關(guān)法律責(zé)任。
※我們誠(chéng)邀媒體同行合作！聯(lián)系方式：訊石光通訊咨詢網(wǎng)新聞中心　電話：0755-82960080-168 Right

康寧：人工智能及其對(duì)數(shù)據(jù)中心的影響

相關(guān)新聞