共封裝光學器件(CPO)由于其在數(shù)據(jù)中心的電源效率,最近獲得了關注。雖然大多數(shù)針對網絡應用的CPO的主要支持者,由于宏觀經濟的阻力而停止了CPO計劃,但用于人工智能(AI)和機器學習(ML)系統(tǒng)的CPO的情況卻有所不同。人工智能模型對計算能力、存儲和數(shù)據(jù)移動有著永不滿足的需求,而傳統(tǒng)架構正在成為擴展ML的主要瓶頸。因此,為HPC和新的分布式系統(tǒng)架構,出現(xiàn)了新的光學互連。Yole集團旗下的Yole Intelligence在其新報告《數(shù)據(jù)中心的共封裝光學技術》中對此進行了回顧。用于xPU、內存和存儲的封裝內光學I/O技術可以幫助實現(xiàn)必要的帶寬。此外,未來數(shù)十億個光互連的潛力正在推動大型代工廠為設計公司的任何PIC架構的大規(guī)模生產(包括硅光子學工藝流程)做準備。2022年CPO收入約為3800萬美元,預計2033年將達到26億美元,2022-2033年年均復合增長率為46%,受AI/ML裝備中數(shù)據(jù)加速傳輸?shù)耐苿印?
AyarLabs的TeraPHY?光學I/O芯片和SuperNova?光源的結合,以更低的延遲、更遠的距離和現(xiàn)有電氣I/O解決方案的一小部分功率,大幅提高帶寬。其封裝內部的光學I/O解決方案正在顛覆半導體和計算行業(yè)的傳統(tǒng)性能、成本和效率曲線。Yole Intelligence的高級分析師Martin Vallo有幸采訪了Ayar實驗室商業(yè)運營副總裁Terry Thorn,討論了數(shù)據(jù)中心應用的光互連的當前趨勢。
Martin Vallo: 我們的最后一次采訪是在2021年,當時你介紹了你的突破性光學I/O解決方案,實現(xiàn)了計算芯片之間的光通信?,F(xiàn)在你們有什么新情況?
Terry Thorn: 在過去的18個月里,我們啟動了幾個備受矚目的戰(zhàn)略伙伴關系,同時也與大批量的代工廠、激光器和供應鏈合作伙伴建立了關鍵關系。2022年開始,我們慶祝了與惠普企業(yè)的戰(zhàn)略合作。此后不久,Global Foundries宣布了其新的Fotonix制造工藝,我們在2021年6月的OFC2022上用它來展示了我們的第一個工作硅。
其他重要的里程碑包括我們1.3億美元的C輪融資,以及與GPU和人工智能強手英偉達和領先的航空航天和國防承包商洛克希德-馬丁公司合作開發(fā)光互連。在2022年結束時,我們與美國國防部簽訂了1500萬美元的多年期項目KANAGAWA,該項目將促進Ayar Labs光學互連的下一步發(fā)展,引領其過渡到國防部的先進封裝生態(tài)系統(tǒng)。
最近,我們舉行了一次光學I/O解決方案的現(xiàn)場演示,成功展示了每秒4兆比特(雙向)的數(shù)據(jù)傳輸。我們還在生態(tài)系統(tǒng)合作伙伴的展位上展示了我們的技術,包括Global Foundries、Quantifi Photonics和Sivers Photonics。在今年的OFC上,我們在封裝邊緣與英特爾的可拆卸光學連接器的解決方案原型的揭幕,也引起了很多人的興趣。在傳統(tǒng)的邊緣耦合方法中,光纖帶是用環(huán)氧樹脂永久地連接到V型槽中的??刹鹦妒焦膺B接器提供了一種更換光纖帶的方法。仍在開發(fā)中的可拆卸式光連接器有希望獲得更高的封裝產量和易于現(xiàn)場更換。
我們還看到,使用芯片粒(chiplets)的趨勢越來越強,并有強大的標準化努力來實現(xiàn)一個開放的芯片生態(tài)系統(tǒng)。這是一個重要的發(fā)展,與我們以芯片粒形式提供光學I/O解決方案的愿景是一致的。
Ayar Labs的TeraPHY?光學I/O芯片具有4 Tbps的雙向帶寬,低于5pJ/b,每個芯片粒+TOF的延遲為5ns,覆蓋范圍從毫米到公里。由Ayar Labs提供,2023年。
Martin Vallo:我們觀察到人們對CPO的興趣減少了,特別是對交換機的應用。然而,高性能計算對光I/O的需求仍在繼續(xù)。這其中的根本原因是什么?
Terry Thorn:光I/O更適合于高性能計算(HPC)和人工智能(AI)/機器學習(ML)應用,在這些應用中,你需要分布式計算和共享內存容量,以滿足對性能、功率和帶寬的要求,同時不增加延遲。采用波分復用(WDM)和簡單調制的光I/O所需的功率要小得多,并允許更大的密度:低至幾pJ/bit,帶寬密度高達1 Tbps/mm,導致僅有幾納秒的延遲,而CPO往往使用復雜的調制方案,則需要數(shù)百納秒。
此外,作為一個電光收發(fā)器,光I/O使用一個微鏡調制器結構,需要更小的芯片面積,從而降低了成本。例如,我們的微鏡調制器的尺寸大約是Mach-Zehnder調制器的百分之一。最后,光輸入/輸出采用波分復用技術,允許將多個數(shù)據(jù)流裝入一根光纖,以實現(xiàn)非常高的吞吐量。
Martin Vallo:光學I/O的第一個實際應用將是什么,我們什么時候可以期待一個公告?在我們看到AI/ML系統(tǒng)中的第一個光I/O之前,有哪些挑戰(zhàn)需要克服?
Terry Thorn:我們看到許多不同的應用都遇到了同樣的功率、性能和延遲挑戰(zhàn),而每一種應用都對光I/O有強烈的需求:
人工智能和HPC:AI/ML和HPC應用需要一個分布式的加速器網絡來分散計算和共享內存容量。在內存容量方面,一個擁有數(shù)千億個參數(shù)的AI/ML模型可能需要高達2TB的內存容量來存儲中間計算結果。當你在一個集群中連接數(shù)百個GPU,使每個GPU都能與其他GPU對話時,每個GPU所需的數(shù)據(jù)吞吐量會迅速增加。這給帶寬密度帶來了巨大的壓力,這是衡量每個封裝邊緣或區(qū)域所能實現(xiàn)的數(shù)據(jù)吞吐量。光學I/O對于實現(xiàn)所需的帶寬密度、功率和延遲性能指標以實現(xiàn)更大的集群是至關重要的。
高帶寬內存(HBM)擴展器:一個GPU通常被兩到四個本地內存HBM堆棧所包圍,每個都有大約64GBytes的內存容量。對于HPC和AI/ML應用,這個容量是不夠的。HBM內存擴展器可用于增加內存容量至數(shù)百GB字節(jié)或更多。由于內存應用對延遲非常敏感,使用光學I/O鏈路來連接GPU和擴展器內存模塊是必要的。僅僅由于延遲問題,可插拔光學器件或CPO光學器件是不適合的。
內存池和可組合的基礎設施:隨著云計算基礎設施處理動態(tài)變化的工作負載,靈活的匯集和共享內存的功能正變得至關重要。愿景是將基于工作負載的集群與所需的CPU、GPU、內存和存儲資源組合在一起,實現(xiàn)高性能和低延遲。隨著CXL?標準的采用,光學I/O互連正在成為關注點。
用于航空航天和國防的傳感系統(tǒng):在這個方面,反映了我們最近宣布與洛克希德-馬丁公司的戰(zhàn)略合作,光學I/O被用來捕獲、數(shù)字化、傳輸和處理光譜信息。將高密度、高效率的光學I/O芯片粒,與射頻處理設備置于同一封裝中的多芯片封裝解決方案將被用于相控陣孔徑,以連接系統(tǒng),做出更智能、更快速的決策。
目前,光學I/O的主要挑戰(zhàn)是生態(tài)系統(tǒng)的發(fā)展,這需要許多公司的協(xié)調。我們正在與廣泛的合作伙伴合作,促進該生態(tài)系統(tǒng)的發(fā)展。至于這些應用的首次公布,考慮到現(xiàn)有的市場需求,我們預計這些應用會來得更早而不是更晚,也許在未來一年左右。
Ayar Labs的TeraPHY?光學I/O晶圓來自Global Foundries Fotonix?單片RF-CMOS平臺。由Ayar實驗室提供,2023年。
Martin Vallo:光學I/O性能使xPU能夠在從毫米到兩公里的廣泛距離內相互通信。因此,預計AOC(以太網)和光學I/O(CXL、UCIe)之間會有激烈的競爭。這兩種技術之間的斗爭將如何進行?
Terry Thorn:以太網應用和以計算或內存為中心的應用之間有明顯的區(qū)別,所以我們不認為AOC是一個直接的競爭對手。在以計算或內存為中心的互連協(xié)議中,Compute Express Link?(CXL)和Universal Chiplet Interconnect Express?(UCle?)是互補的。CXL是一個較高層次的協(xié)議,傳統(tǒng)上在PCIe物理層上運行。最近,CXL已被擴展到也可與UCIe物理層一起工作。對于機架內或跨機架的片外連接,使用光I/O技術構建的UCIe光復接器可以提供AOC無法滿足的低功耗、低延遲和高帶寬密度指標。
通過光互連,我們可以用更低的功耗和延遲實現(xiàn)更大的范圍。仍然會有一些對延遲不敏感的應用可以滿足更高的功率要求,而以太網將是首選,包括系統(tǒng)與系統(tǒng)之間的通信。在這些情況下,可以使用AOC。但是一旦你開始考慮深度學習和HPC應用, 同樣,你要把許多計算節(jié)點連接在一起的話,AOC可能無法滿足所有的性能指標。
Martin Vallo:你如何看待光學I/O在技術方面的發(fā)展?
Terry Thorn:首先,光學I/O具有高度的可擴展性,該技術將有幾種發(fā)展方式。一個是每根光纖的lambdas數(shù)量。我們目前使用的是每根光纖8個lambdas,但CW-WDM MSA(連續(xù)波分復用多源協(xié)議)路線圖已經有每根光纖16和32個lambdas的規(guī)范。每當你把每根光纖的lambdas數(shù)量增加一倍(保持其他方面不變)就會自動把帶寬增加一倍。我們還可以擴大光端口的數(shù)量(我們目前使用的是8個)并提高調制率(我們目前使用的是32Gbps的調制率)。
在光I/O內部,我們預計將看到在使用內部或外部激光器方面的不同意見??紤]到緊湊的外形尺寸、靈活性和現(xiàn)場可更換性,我們仍然傾向于外部激光器的方法。我們還認為UCIe是最適合于芯片到芯片連接的標準,它促進了實施光學I/O的芯片方法。
一個包含四個Ayar Labs TeraPHY?光學I/O芯片和一個客戶ASIC的多芯片封裝。由Ayar實驗室提供,2023年。
Martin Vallo:圍繞激光源的關鍵規(guī)格是什么?我們是否會在未來看到光學芯片中廣泛集成激光器?
Terry Thorn:目前業(yè)界的趨勢是使用外部激光源,我們相信這種趨勢會持續(xù)下去。在光學I/O中,激光器是最敏感的部件,需要在較低的溫度環(huán)境下工作。把它放在外部,與計算硅分離,可以更好更有效地控制溫度。如果你把激光器模塊放在計算硅旁邊,來自計算節(jié)點內的GPU和CPU的熱量會影響激光器的性能。
我們確實希望看到梳狀激光器的使用,但它們仍處于早期研究發(fā)展階段。當該技術成為商業(yè)化的時候,我們可以看看這個東西。但是,最終,我們相信保持 "外部激光不可控 "在制造和部署方面是最合理的。
Martin Vallo:有很多關于分布式機架架構的討論,目前是光學I/O技術的主要驅動力。你能分享一下這會如何發(fā)展嗎?
Terry Thorn: 分散的基礎設施需要光I/O來擴展到機架級別甚至更高的級別。將內存與處理器和加速器解耦的分布式機架可以實現(xiàn)更靈活、更經濟的節(jié)點設計,滿足下一代HPC和AI工作負載的需求。為了使分布式機架成為可能,一個能夠在幾米到幾百米的距離內以低功率和低延遲提供高吞吐量的互連是至關重要的。CXL是一種新興的用于分布式機架的統(tǒng)一協(xié)議,使用PCIe電信號進行I/O互連,其覆蓋范圍有限。為了擴大覆蓋范圍和扇形范圍,人們對 "CXL over optical "I/O互連有強烈的興趣。
例如,很容易設想一種可組合性方案,其中幾個CPU包含在一個機箱中,而GPU在一個單獨的機箱中,而內存則占據(jù)另一個機箱。隨著工作負載的擴大,你可以將兩個CPU、一個GPU、幾個SSD和匯集一定量的內存組成一個節(jié)點。CXL為內存分解帶來了緩存一致性互連,這就是為什么這么多公司正在努力實現(xiàn)利用CXL的解決方案,我們相信光I/O是實現(xiàn)這一愿景的關鍵成分。
這里的另一個重要角度是分布式計算,這又回到了一個事實,即人工智能/ML和深度學習都需要大量的訓練參數(shù),現(xiàn)在是以萬億計。在各種計算節(jié)點之間共享計算和內存將越來越有必要。連接這些節(jié)點并有效擴展的唯一可靠方式是通過光學I/O。
四個Ayar Labs TeraPHY?光學I/O芯片和一個客戶的ASIC在一個多芯片封裝中。由Ayar實驗室提供,2023年。
Martin Vallo:把電/光接口帶到芯片旁邊,將大大影響這個行業(yè)。您能否解釋一下供應鏈將受到怎樣的影響?
Terry Thorn:該行業(yè)目前正面臨著顯著的連接瓶頸,這迫使各參與者探索新的方法。我們看到的一個趨勢是將SoC的單芯片分解成芯片粒。將電光芯片納入封裝內,緊挨著SoC核心芯片是這種趨勢的延續(xù)。這種共封裝的方法將會改變供應鏈的復雜性。
除了用芯片粒封裝外,光纖連接和測試方法也需要發(fā)展。我們還看到代工廠(即Global Foundries、英特爾和最近的臺積電),在支持集成電子/光學元件方面取得的巨大進展和承諾。最后,選擇將激光器放在外部是我們能夠減輕這些供應鏈復雜性的一種方式。
標準化也將在解決供應鏈挑戰(zhàn)和擴大這項技術的規(guī)模方面發(fā)揮關鍵作用。UCIe和CXL都在尋求解決光纖互連的問題,并正在探索制定光學I/O規(guī)范。此外,CW-WDM MSA是一個重要的行業(yè)倡議,它正在定義和促進光學激光源的新標準和規(guī)范。由于光I/O是一項革命性的技術,對行業(yè)的許多領域都有影響,因此發(fā)展和培育這個完整的生態(tài)系統(tǒng)有巨大的需求。
Martin Vallo:光學I/O技術將如何影響其他應用?
Terry Thorn:這是個好問題。我們已經談了很多關于HPC和AI/ML的問題,但我們也希望看到它在其他需要快速傳輸數(shù)據(jù)的領域的應用增長,例如在云和數(shù)據(jù)中心、電信、航空航天和國防、自動駕駛、AR/VR等。隨著光學I/O的成熟和變得更具成本效益,我們看到它有可能滿足廣泛的應用中不斷增長的帶寬、功率和延遲要求。