ICC訊(編譯:Nina)LightCounting(LC)發(fā)布了名為《人工智能光學》(Optics for AI)的新報告。
人工智能(AI)在一眨眼的時間里就走到了前臺。預測人工智能是為勇者準備的。LightCounting的第一份人工智能光學報告強調了人工智能如何改變計算機架構和網(wǎng)絡,以及其中光學技術起著關鍵作用。LightCounting的人工智能預測主要集中在光學領域。但如果加上一個預測,那就是:光學不僅將在人工智能系統(tǒng)的發(fā)展中發(fā)揮至關重要的作用,而且人工智能將越來越多地在晶體管、芯片和系統(tǒng)層面為這些系統(tǒng)的設計做出貢獻。
行業(yè)中不同領域的創(chuàng)新速度各不相同。新的應用可以快速開發(fā)。大多數(shù)人會失敗,但有些人會成功,并在一夜之間改變世界。軟件和人工智能算法的創(chuàng)新速度快得我們無法跟上。至少在外界觀察者看來是這樣,但專家們可能不這么認為。
硬件創(chuàng)新是一個漸進而無情的過程。光學連接也不例外,我們有數(shù)據(jù)可以證明這一點。硅光子學的采用花了十年時間,但我們仍在等待這項技術提供真正顛覆性的解決方案,如可靠的共封裝光學器件。毫無疑問,這將在本十年末發(fā)生,但本報告的預測重點是部署在人工智能集群中的可插拔光學收發(fā)器,這是當今和未來5年的光學連接的主要解決方案。
目前,AI集群中部署的光收發(fā)器,90%以上用于InfiniBand和以太網(wǎng)連接。谷歌是唯一一家在其人工智能生產(chǎn)集群中使用光收發(fā)器進行TPU之間的核心互連(Inter-core interconnect,ICI)的公司。英偉達正在其研究集群中測試光學NVLink與GPU的連接。如下圖所示,NVLink連接到GPU所需的帶寬比以太網(wǎng)和InfiniBand高4倍。AI集群設計中的另一個瓶頸是GPU可用的高帶寬內存(HBM)有限,這也是帶寬提高3倍的另一因素,如下圖所示。
谷歌也是唯一一家使用光交換機擴展和重新配置人工智能集群的公司。事實證明,它可以提高集群性能,同時最大限度地降低成本和功耗。LC預計在未來3-5年內會有更多的公司采用這項技術。
2023年,人工智能集群應用對光學器件的需求規(guī)模令人驚喜。ChatGTP在2022年底成為頭條新聞的時機再好不過了。對即將到來的經(jīng)濟衰退的擔憂,以及收入增長放緩的最初跡象,迫使所有領先的云計算公司削減支出,包括對數(shù)據(jù)中心的投資和對光收發(fā)器的購買。LC尚未完成統(tǒng)計2023年的最終銷售數(shù)據(jù),但人工智能很有可能挽救了去年市場的頹勢。并且毫無疑問2024-2025年的增長將非常強勁。
英偉達業(yè)務的增長是影響2023-2025年光收發(fā)器銷售的主要因素。英偉達人工智能集群的新設計需要更多的收發(fā)器。以前的所有系統(tǒng)都只使用InfiniBand網(wǎng)絡進行光學連接,而且這些系統(tǒng)大多是AOC?;贜DR(400G)InfiniBand的最新系統(tǒng)使用可插拔400/800G SR4/SR8和DR4/DR8收發(fā)器,而不是AOC。該公司還于2022年3月宣布了專為800G光連接設計的NVLink機箱交換機。英偉達目前正在內部測試光纖NVLink,但這些解決方案應在2024年底前提供給最終用戶。LC表示,如果這需要更長的時間,他們將不得不降低對2025-2029年的預測。
LC該報告提出了對英偉達提供的光模塊的第一個預測,并將其與AI集群中使用的其他光模塊進行了比較。英偉達設計的光收發(fā)器具有更嚴格的誤碼率規(guī)范,以盡量減少傳輸錯誤。它不阻止客戶使用第三方光學器件,但它不保證系統(tǒng)性能。這促使包括微軟在內的許多客戶使用英偉達提供的光學器件。LC預計終端用戶最終將轉向使用第三方光學器件以節(jié)省成本,但這將是一個漸進的過渡。