康普觀點(diǎn)：數(shù)據(jù)中心如何更快、更經(jīng)濟(jì)地利用AI

訊石光通訊網(wǎng) 發(fā)布時(shí)間:2023/11/23 20:51:27 編者:iccsz

摘要：如若當(dāng)下投資于先進(jìn)的光纖基礎(chǔ)設(shè)施以推動(dòng)AI的訓(xùn)練和運(yùn)行，日后就會(huì)收獲令人難以置信的成果。

ICC訊 人氣科幻小說(shuō)在描繪“機(jī)器智能的崛起”時(shí)，通常伴隨著激光、爆炸等場(chǎng)景，就算不是這般震撼，至少也會(huì)帶有些許哲學(xué)上的恐懼意味。但毋庸置疑的是，人們?nèi)找骊P(guān)注人工智能(AI)和機(jī)器學(xué)習(xí)(ML)在更廣泛應(yīng)用中的可能性，而且新的應(yīng)用也層出不窮。

目前，數(shù)百萬(wàn)人已經(jīng)開(kāi)始通過(guò) ChatGPT 和其他AI界面來(lái)嘗試這些想法。但這些用戶中的許多人并沒(méi)有意識(shí)到，他們通過(guò)電腦屏幕與富有好奇心的AI助手之間的交流實(shí)際上是由位于全球各地的大型數(shù)據(jù)中心驅(qū)動(dòng)的。

企業(yè)也在其數(shù)據(jù)中心內(nèi)投資建立自己的AI集群，構(gòu)建、訓(xùn)練并完善自己的AI模型，以滿足其自身商業(yè)利益。這些AI的核心就是由大量 GPU(圖形處理器)機(jī)架所構(gòu)成的，其可提供AI模型所需的驚人的并行處理能力，以便對(duì)其算法進(jìn)行詳盡的訓(xùn)練。

在導(dǎo)入數(shù)據(jù)集后，AI推理會(huì)對(duì)數(shù)據(jù)進(jìn)行分析，并闡釋其中蘊(yùn)含的意義。例如，基于貓與狗特征差異進(jìn)行訓(xùn)練，就能識(shí)別出圖片中呈現(xiàn)的是貓還是狗。然后，生成式AI就可以對(duì)此數(shù)據(jù)進(jìn)行處理，以創(chuàng)建全新的圖像或文本。

正是這種“智能”的處理吸引著全球各地的人們、政府和企業(yè)發(fā)揮想象力。據(jù)IDC最新發(fā)布的《全球人工智能支出指南》預(yù)計(jì)，2027年中國(guó)AI投資規(guī)模有望達(dá)到381億美元，全球占比約9%。近年來(lái)，本土人工智能產(chǎn)業(yè)向高質(zhì)量發(fā)展邁進(jìn)，并加速與各行業(yè)的不同需求的融合落地。然而，創(chuàng)建一個(gè)有用的AI算法需要大量的數(shù)據(jù)用于訓(xùn)練，而這是一個(gè)成本高昂且耗能的過(guò)程。

“智能”源自高效的訓(xùn)練

數(shù)據(jù)中心一般都有著離散式的AI和計(jì)算集群，他們協(xié)同工作以提供訓(xùn)練AI算法的數(shù)據(jù)。這些高能耗 GPU 產(chǎn)生的熱量限制了在給定機(jī)架空間內(nèi)能夠安裝GPU的數(shù)量，因此必須優(yōu)化物理布局。另一個(gè)令人擔(dān)憂的問(wèn)題是，光纖線纜線路過(guò)長(zhǎng)會(huì)增加插入損耗。

光纖是一種高效、低損耗、低延遲的基礎(chǔ)設(shè)施，AI集群的運(yùn)行速度可達(dá) 100G 或 400G。然而，隨著大量數(shù)據(jù)在AI集群中傳輸，每增加一米光纖布線，都會(huì)帶來(lái)成本高昂的延遲和損耗。

一般認(rèn)為，訓(xùn)練大規(guī)模AI所需的時(shí)間中，約有三成消耗在網(wǎng)絡(luò)延遲上，其余七成用于計(jì)算時(shí)間。任何減少延遲的機(jī)會(huì)，哪怕是通過(guò)減少 10 米光纖來(lái)減少 50 納秒的延遲，都能節(jié)省大量的時(shí)間和成本。考慮到訓(xùn)練這樣一個(gè)大型AI模型動(dòng)輒需要花費(fèi) 1000 萬(wàn)美元或更多，延遲的代價(jià)就非常明顯了。

縮減光纖米數(shù)、延遲納秒數(shù)和功耗瓦數(shù)

運(yùn)營(yíng)商應(yīng)仔細(xì)考慮在AI集群中使用哪些光收發(fā)器和光纜，以最大限度地降低成本和功耗。由于光纖運(yùn)行必須盡可能短，因此光學(xué)成本將取決于收發(fā)器。使用并行光纖的收發(fā)器的優(yōu)勢(shì)在于其無(wú)需用于波分復(fù)用的光復(fù)用器和解復(fù)用器。因此，使用并行光纖的收發(fā)器成本和功耗都更低。收發(fā)器成本的節(jié)省足以抵消多芯光纜(而非雙工光纜)成本的小幅增加。例如，使用8芯光纜的 400G-DR4 收發(fā)器比使用雙工光纜的 400G-FR4 收發(fā)器更具成本效益。

單模光纖和多模光纖應(yīng)用可支持長(zhǎng)達(dá) 100 米的鏈路。硅光等技術(shù)的進(jìn)步降低了單模收發(fā)器的成本，使其接近同等多模收發(fā)器的成本。對(duì)于高速收發(fā)器(400G +)而言，單模收發(fā)器的成本往往是同等多模收發(fā)器成本的兩倍。雖然多模光纖的成本略高于單模光纖，但由于多模光纖線纜成本主要取決于 MPO 連接器，因此多模和單模之間的線纜成本差異較小。

此外，高速多模收發(fā)器的功耗比單模收發(fā)器低一到兩瓦。單一AI集群中最多有 768 個(gè)收發(fā)器，使用多模光纖的設(shè)置將節(jié)省高達(dá) 1.5 千瓦的功率。與每臺(tái) GPU 服務(wù)器 10 千瓦的功耗相比，這似乎微不足道，但對(duì)于AI集群而言，任何節(jié)省功耗的機(jī)會(huì)都能在AI訓(xùn)練和運(yùn)行過(guò)程中節(jié)省大量費(fèi)用。

收發(fā)器與AOC

許多 AI/ML 集群和 HPC 使用有源光纜(AOC)來(lái)實(shí)現(xiàn) GPU 和交換機(jī)之間的互連。有源光纜是一種設(shè)備直連線纜，兩端集成了光發(fā)射器和接收器。大多數(shù)有源光纜用于短距離傳輸，其通常使用多模光纖和 VCSEL光源。高速(>40G)有源光纜和連接光收發(fā)器的光纜相同，使用的都是 OM3 或 OM4 光纖。AOC 中的發(fā)射器和接收器可能與同類收發(fā)器中的發(fā)射器和接收器相同，但它們不一定適合所有場(chǎng)合使用。每個(gè)發(fā)射器和接收器都不需要滿足嚴(yán)格的互操作性規(guī)范，它們只需要與連接到光纜另一端的特定設(shè)備一同運(yùn)行即可。由于安裝人員無(wú)法接觸到光纖連接器，因此無(wú)需具備清潔和檢查光纖連接器的技能。

AOC 的缺點(diǎn)是不具備收發(fā)器能提供的靈活性。安裝 AOC 需要耗費(fèi)大量時(shí)間，因?yàn)楸仨氃谶B接著收發(fā)器的情況下布線。正確安裝帶分支的 AOC 尤其具有挑戰(zhàn)性。AOC 的故障率是同等收發(fā)器的兩倍。當(dāng) AOC 出現(xiàn)故障時(shí)，新的 AOC 必須通過(guò)網(wǎng)絡(luò)來(lái)布線，這也就占用了計(jì)算時(shí)間。最后，當(dāng)需要升級(jí)網(wǎng)絡(luò)鏈路時(shí)，必須移除 AOC 并用新的 AOC 取而代之。對(duì)于收發(fā)器，光纖布線是基礎(chǔ)設(shè)施的一部分，并且可以在幾代數(shù)據(jù)速率下保持不變。

結(jié)論

AI/ML 已經(jīng)到來(lái)，并將成為人、企業(yè)和設(shè)備之間交互方式中更重要、更集成的一部分。但不可否認(rèn)的是，雖然與AI服務(wù)的交互可以在手機(jī)上實(shí)現(xiàn)，但它仍然依賴于大型數(shù)據(jù)中心基礎(chǔ)設(shè)施和算力的驅(qū)動(dòng)，而能夠快速高效地訓(xùn)練AI的企業(yè)將在當(dāng)前瞬息萬(wàn)變、超級(jí)互聯(lián)的世界中占據(jù)重要的一席之地。如若當(dāng)下投資于先進(jìn)的光纖基礎(chǔ)設(shè)施以推動(dòng)AI的訓(xùn)練和運(yùn)行，日后就會(huì)收獲令人難以置信的成果。

作者:康普北亞區(qū)技術(shù)總監(jiān) 吳健

內(nèi)容來(lái)自：機(jī)房360
本文地址：http://getprofitprime.com//Site/CN/News/2023/12/03/20231203125341365305.htm 轉(zhuǎn)載請(qǐng)保留文章出處
關(guān)鍵字:
文章標(biāo)題:康普觀點(diǎn)：數(shù)據(jù)中心如何更快、更經(jīng)濟(jì)地利用AI

1、凡本網(wǎng)注明“來(lái)源：訊石光通訊網(wǎng)”及標(biāo)有原創(chuàng)的所有作品，版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像，違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位，也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標(biāo)注作者信息和本站來(lái)源。
2、免責(zé)聲明，凡本網(wǎng)注明“來(lái)源：XXX（非訊石光通訊網(wǎng)）”的作品，均為轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。因可能存在第三方轉(zhuǎn)載無(wú)法確定原網(wǎng)地址，若作品內(nèi)容、版權(quán)爭(zhēng)議和其它問(wèn)題，請(qǐng)聯(lián)系本網(wǎng)，將第一時(shí)間刪除。
聯(lián)系方式：訊石光通訊網(wǎng)新聞中心　電話：0755-82960080-168 Right

康普觀點(diǎn)：數(shù)據(jù)中心如何更快、更經(jīng)濟(jì)地利用AI

相關(guān)新聞