ICC訊 近日,在美國加利福尼亞舉行的Hot CHIPS會議上,英特爾展示了一款代號為“Piuma”的具有1TB/s硅光子互連的8核528線程處理器,旨在用于處理最大的分析工作負載。
7nm工藝8核心528線程
據(jù)介紹,Piuma芯片基于臺積電7nm FinFET工藝制造(如果你不知道的話,英特爾在臺積電制造了很多非CPU產(chǎn)品,而且已經(jīng)有很多年了),它有八個核,每個核具有66個線程,總共528線程,晶體管數(shù)量超過276億個。
△芯片中心的一個重要部分專門用于路由器,這些路由器控制從共封裝光學(xué)器件流入的數(shù)據(jù)流
需要指出的是,該芯片并不是基于x86架構(gòu)的,它是專門為DARPA(美國國防高級研究計劃局的分層身份驗證漏洞(HIVE)程序使用自定義RISC架構(gòu)構(gòu)建的。美國的這項軍事舉措旨在開發(fā)一種圖形分析處理器,該處理器能夠以比傳統(tǒng)計算架構(gòu)快100倍的速度處理流式數(shù)據(jù),同時功耗更低。雖然這對DARPA來說可能是一件奇怪的事情,但該政府機構(gòu)認為大規(guī)模圖形分析在基礎(chǔ)設(shè)施監(jiān)控和網(wǎng)絡(luò)安全方面有應(yīng)用。
英特爾首席工程師Jason Howard在他的Hot Chips演示中指出的應(yīng)用例子是社交網(wǎng)絡(luò),它可以運行圖形分析工作負載來了解成員之間的聯(lián)系。
這項創(chuàng)建大規(guī)模并行圖形處理和互連芯片項目時間起源于2017年,英特爾被選為制造 HIVE 處理器的供應(yīng)商,麻省理工學(xué)院的林肯實驗室和亞馬遜網(wǎng)絡(luò)服務(wù)被選為基于此類處理器的系統(tǒng)創(chuàng)建和托管萬億邊圖形數(shù)據(jù)集以供分析。
雖然英特爾曾在2019和2022年對于“Piuma”處理器進行過一些介紹,但是在本周的Hot CHIPS大會上,英特爾首席工程師Jason Howard進一步詳解了Piuma處理器和系統(tǒng),其中包括英特爾與 Ayar Labs 合作創(chuàng)建的光子互連技術(shù),用于將大量處理器連接在一起。
在2012年,超級計算機制造商Cary推出的XMT系列就是一個巨大的共享內(nèi)存線程的怪物,非常適合圖形分析,它擁有多達 8,192 個處理器,每個處理器有 128 個以 500 MHz 運行的線程,插入 Opteron 8000 使用的 AMD Rev F 插槽系列 X86 CPU 全部與定制的“SeaStar2+”環(huán)面互連捆綁在一起,該互連提供 105 萬個線程和 512 TB 共享主內(nèi)存,供圖形發(fā)揮作用。就 Linux 系統(tǒng)而言,這看起來就像一個單一的 CPU。
The nextplatform認為,“Piuma”處理器就像是再次將舊的東西變成新的,雖然處理器本身比較普通,但其使用的硅光子互連技術(shù)更好,想必性價比也是如此。也許英特爾會將這個Piuma系統(tǒng)商業(yè)化,并真正改變一切。
全新的內(nèi)存架構(gòu)設(shè)計
Jason Howard表示,當(dāng)英特爾開始設(shè)計“Piuma”處理器時,從事 HIVE 項目的研究人員意識到圖形處理不僅是大規(guī)模并行,這意味著可能有一些方法可以利用這種并行性來提高圖形分析的性能。當(dāng)在標(biāo)準(zhǔn) X86 處理器上運行時,圖形數(shù)據(jù)庫的緩存行利用率非常低,在圖形數(shù)據(jù)庫運行的 80% 以上的時間里,72 字節(jié)緩存行中只有 8 字節(jié)或更少被使用。指令流中的大量分支給 CPU 管道帶來了壓力,而內(nèi)存子系統(tǒng)也因依賴負載的長鏈而承受了很大的壓力,這對 CPU 上的緩存造成了很大的影響。
Piuma芯片有四個管道,每個管道有 16 個線程(稱為 MTP),還有兩個管道,每個管道有一個線程(稱為 STP),其性能是MTP中一個線程的8倍。處理核心基于定制的RISC指令集,但是并未明確具體情況。
Jason Howard在他的Hot Chips演示中解釋道:“所有的管道都使用自定義ISA,它類似于RISC,是一個固定的長度?!? “每個管道都有32個可用的物理寄存器。我們這樣做是為了方便您在任何管道之間遷移計算線程。因此,也許我開始在一個多線程管道上執(zhí)行,如果我發(fā)現(xiàn)它花費了太長時間,或者可能是最后一個可用的線程,我可以快速遷移到我的單線程管道上,以獲得更好的性能。
STP 和 MTP 單元通過交叉開關(guān)連接,并具有組合的 192 KB L1 指令和 L1 數(shù)據(jù)緩存,并且它們鏈接到比 L2 緩存更簡單的共享 4 MB 暫存器 SRAM 存儲器。
每個Piuma芯片都有 8 個活動核心,每個核心都有自己定制的 DDR5 內(nèi)存控制器,該控制器具有 8 字節(jié)訪問粒度,而不是像普通 DDR5 內(nèi)存控制器那樣具有 72 字節(jié)訪問粒度。每個插槽都有 32 GB 的定制 DDR5-4400 內(nèi)存。
Jason Howard解釋說,Piuma芯片所采用的新穎的內(nèi)存架構(gòu),這是優(yōu)化圖形分析工作負載的一個重要內(nèi)容。這些芯片與32GB DDR5-4400內(nèi)存配對,通過允許8字節(jié)訪問粒度的自定義內(nèi)存控制器進行訪問。根據(jù)Jason Howard的說法,這是有利的,因為“每當(dāng)我們從內(nèi)存中取出一條數(shù)據(jù)線時,我們都會嘗試?yán)盟械臄?shù)據(jù)線,而不是扔掉7/8的數(shù)據(jù)線?!?
1TB/s硅光互連,可以連接超過10萬個芯片
“Piuma”芯片被認為是英特爾首個直接網(wǎng)狀光子結(jié)構(gòu)的一部分,英特爾并沒有使用銅線將多個芯片縫合在一起,而是使用了使用硅光子互連技術(shù),使用了共封裝光學(xué)器件(CPO)可以將數(shù)百甚至數(shù)千個芯片連接在一個低延遲、高帶寬的網(wǎng)絡(luò)中。
這是一個不錯的想法,但無論如何,該芯片仍然是一個原型。英特爾的目標(biāo)是開發(fā)可以擴展的技術(shù),以支持最大的圖形分析工作負載。
△圍繞中央計算芯片的四個小芯片為英特爾這個原型芯片提供1TB/s的光學(xué)帶寬
雖然該芯片最初看起來是一個標(biāo)準(zhǔn)處理器,它甚至有一個相當(dāng)?shù)湫偷腂GA接口,與Xeon-D芯片上的接口沒有什么不同,但I/O芯片的大部分數(shù)據(jù)都是使用與Ayar Labs合作開發(fā)的硅光子芯片進行光學(xué)傳輸?shù)摹?
中央處理器周圍的四個小芯片將進出處理器的電信號轉(zhuǎn)換為32根單模光纖攜帶的光信號。正如我們所理解的,這些光纖束中的16根用于傳輸數(shù)據(jù),另16根用于接收數(shù)據(jù)。
根據(jù)英特爾的說法,每根光纖都可以在芯片內(nèi)外以32GB/s的速度傳輸數(shù)據(jù),總帶寬為1TB/s。該光纖網(wǎng)絡(luò)可以將超過100000個“Piuma”芯片配置聯(lián)網(wǎng)在一起,任何一個芯片都可以以非常低的延遲與另一個芯片通信。
進出英特爾原型處理器的數(shù)據(jù)都是通過光學(xué)傳輸?shù)?
英特爾還必須找到一種方法來處理進出計算芯片的巨大數(shù)據(jù)流,理論上需要高達1TB/s。根據(jù)Jason Howard的說法,這一要求使得Piuma芯片內(nèi)部大量區(qū)塊專用于路由器的原因。
具體來說,Piuma芯片的每個核心都有一對路由器,將 2D 網(wǎng)格中的核心相互鏈接、鏈接到八個內(nèi)存控制器以及四個高速高級接口總線 (AIB) 端口。AIB 是英特爾于 2018 年推出的用于互連小芯片的免版稅 PHY。Ayar Labs 的芯片有 32 個光學(xué) I/O 端口,每個 AIB 8 個,每個方向可提供 32 GB/秒的帶寬。
以下是在 PIUMA 封裝上實現(xiàn) 2D 網(wǎng)格的片上路由器的深入分析:
這是一個十端口直通路由器。2D 網(wǎng)格以 1 GHz 運行,需要四個周期來遍歷路由器。它有 10 個虛擬通道和四種不同的消息類別,Jason Howard表示這可以避免網(wǎng)格上的任何死鎖,并且為路由器內(nèi)的每個鏈路提供 64 GB/秒的速度。
Piuma芯片上的路由器和核心封裝比想象的要復(fù)雜一些,如下圖:
它更像是芯片上有 16 個核心/路由器單元,其中只有 8 個核心被激活,因為芯片上網(wǎng)格需要兩倍數(shù)量的路由器來饋入 AIB,而 AIB 又饋入 Ayar Labs 芯片光子學(xué)。硅光子鏈路僅用作物理層,它們專門用于擴展多個插槽之間的片上網(wǎng)絡(luò)。
比如,由 16 個使用硅光子鏈路的Piuma芯片組成的網(wǎng)絡(luò)可以以全對全配置的 4×4 網(wǎng)格連接在一起。每個Piuma芯片在標(biāo)稱電壓和工作負載下消耗約 75瓦,這意味著它消耗約1200瓦??紤]到一個具有112個內(nèi)核和224個線程的單雙插槽Intel Sapphire Rapids系統(tǒng)在負載下可以很容易地消耗那么多功率,Piuma芯片的功耗表現(xiàn)還不錯。
Piuma芯片具有 1 TB/秒的光學(xué)互連能力,可以將多達131,072個芯片連接在一起,形成一個大型共享內(nèi)存的圖形處理超級計算機。路由器就是網(wǎng)絡(luò),所有設(shè)備都通過 HyperX 拓撲進行連接,而不是直接連接到機架內(nèi)的所有拓撲,每個機架內(nèi)將有16個Piuma芯片。
16 個Piuma芯片,則意味著擁有 128 個內(nèi)核、8,448 個線程和 512 GB 內(nèi)存。HyperX 網(wǎng)絡(luò)的第一級擁有 256 個芯片,包含32,768 個核心、270,336 個線程和 1 TB 內(nèi)存。升級到 HyperX 網(wǎng)絡(luò)的二級,則可以構(gòu)建一個包含 16,384 個芯片,包含210 萬個核心、1730 萬個線程和 64 TB 共享內(nèi)存的 Piuma芯片集群。最后,在 HyperX 網(wǎng)絡(luò)的第三級,則可以擴展到 131,072 個芯片,擁有1680 萬個核心、1.384 億個線程和 512 PB 共享內(nèi)存。
每個Piuma芯片節(jié)點通過單模光纖連接在一起,有趣的是,Piuma網(wǎng)絡(luò)設(shè)計所實現(xiàn)的帶寬(每方向 16 GB/秒)僅具有理論設(shè)計點的帶寬。但即便如此,這仍然是一個巨大的帶寬怪獸,理論上整個 HyperX 網(wǎng)絡(luò)的單向平分帶寬為 16 PB/秒。
挑戰(zhàn)依然存在
英特爾此次成功展示Piuma芯片,并不是說其在光學(xué)器件研發(fā)方面沒有遇到挑戰(zhàn)。Jason Howard說,在測試中,Piuma芯片實際的硅光互連速率只達到了預(yù)計(1TB/s)的一半,并且光纖還經(jīng)常出現(xiàn)故障。
Jason Howard說:“一旦我們把所有東西都調(diào)好并工作起來,就會出現(xiàn)很多纖維附著問題,因為這些都是脆性纖維,它們就會脫落?!? “我們還看到,當(dāng)我們對整個封裝進行回流工藝時,由于熱結(jié)果,我們會遇到光學(xué)問題,最終會產(chǎn)生糟糕的光學(xué)成品率?!?
Jason Howard解釋說,為了克服這些挑戰(zhàn),英特爾必須與合作伙伴合作開發(fā)具有較低熱障的新材料。
到目前為止,英特爾已經(jīng)構(gòu)建了兩塊主板,每塊板都配有一個Piuma芯片,并將它們互連起來以運行測試并向 DARPA 證明其有效。
現(xiàn)在的問題是,這樣一臺機器的大規(guī)模成本是多少?嗯,以每個節(jié)點 750 美元計算,這根本不算什么,對于一個具有 4,096 個Piuma芯片的 HyperX 一級系統(tǒng)來說,大概需要 310 萬美元;對于一個具有 262,144 個Piuma芯片的HyperX 二級系統(tǒng)來說,成本接近 2 億美元;而對于一個具有210萬個Piuma芯片的HyperX 三級系統(tǒng)來說,成本將達到15.7億美元。
英特爾設(shè)想,Piuma芯片可以構(gòu)建到包含超過10萬個芯片的網(wǎng)格中,即使是最大的圖形分析工作負載,也可以實現(xiàn)近乎線性的性能擴展。然而,目前這還只是個夢想,因為英特爾迄今為止只測試了兩個連接在其結(jié)構(gòu)上的芯片。
Jason Howard解釋說,英特爾是否會將該設(shè)計商業(yè)化將取決于資金?!叭绻锌蛻艨梢越o我們資金支持,我們非常歡迎建造這些東西?!?