據(jù)微信公眾號“大國重器”報道,美國Lightmatter公司由美國麻省理工學院孵化,主要開發(fā)用于人工智能加速的光學計算處理器,近日在Hot Chips 32上展示了一款測試芯片。該芯片利用硅光電學和MEMS的技術,可以光速在硅中執(zhí)行矩陣向量乘法,由毫瓦級激光光源提供動力。計算速度比基于晶體管的芯片(包括最新的GPU)提升了數(shù)個量級,且功耗非常小。
Lightmatter希望通過展示這款測試芯片來證明其處理器設計方法可靠。該公司是首批展示為人工智能推理工作負載量身定制的光計算(
silicon photonics,硅光子學)芯片的公司之一。Lightmatter將在2021年秋季推出基于這款演示芯片的第一款商用產品,帶有光計算芯片的PCIe卡。
圖 在PCIe卡上的硅光子學芯片,光通過光纖進入
硅光子學技術的進步--通過硅芯片傳播光--使復雜的片上結構成為可能,可通過控制以完全不同于傳統(tǒng)基于晶體管的電子器件的方式執(zhí)行MAC操作。由于傳統(tǒng)基于晶體管的芯片達到了Dennard擴展的極限,單位面積的功耗上升,冷卻技術的能力無法跟上更大的芯片。因此,一種更具能效優(yōu)勢的硅光子技術就有了發(fā)展空間。
Lightmatter首席執(zhí)行官Nick Harris說:“我們通過采用完全不同類型的物理學,使用光繞過了整個功率擴展問題,意味著我們可以使用一套不同的規(guī)則進行擴展,所以[光學計算]速度更快,能量更低?!?
到底有多快,能量有多低?
Harris說:“我們可以將現(xiàn)有人工智能數(shù)據(jù)中心的能耗降低20倍,將物理體積縮小5倍,這還只是我們正在研發(fā)的第一代產品。未來還規(guī)劃了很長的路線圖?!?
Harris強調,這款測試芯片是作為該技術的演示而打造,并不是為了在基準測試上有好的表現(xiàn)。在實際應用中,Lightmatter的量產芯片將擊敗AI加速市場的領導者Nvidia的Ampere A100芯片。與A100相比,Lightmatter的芯片在BERT和Resnet-50推理等工作負載上的能效將是20倍,吞吐量至少是5倍。
Lightmatter的芯片由兩個裸片垂直堆疊。上面是一個采用12納米工藝的ASIC,包含存儲器并協(xié)調控制下方的90納米光計算芯片。兩個裸片均采用格芯(GF)公司標準CMOS工藝制造。
下方光電處理器有一個64×64的光電矩陣矢量積計算器;數(shù)據(jù)在芯片上傳播的時間不到200皮秒,比需要多個時鐘周期的晶體管計算提升數(shù)個量級。計算引擎由一個50毫瓦的激光器驅動。根據(jù)Harris表示,這種低功耗光計算芯片的好處之一是它可以與控制/內存ASIC進行3D堆疊;而基于晶體管的計算芯片會產生太多熱量。堆疊芯片可縮短ASIC上的操作指令存儲與光電芯片上的計算部分之間的走線 — 從數(shù)據(jù)轉換器到光計算引擎的總路由不到一毫米。進一步改善了延遲和功率。“這里有一個很好的正向循環(huán),節(jié)省功率可讓實現(xiàn)疊加,而疊加又可以節(jié)省更多的功率?!?
圖 Lightmatter的“芯片”是由兩個裸芯片堆疊在一起的3D封裝。
上面是一個12nm的ASIC,具有內存和控制功能,下面是作為計算引擎的90nm硅光電器件
DAC接收數(shù)字輸入信號,將其轉換為模擬電壓,然后用其來驅動激光器(這項技術在光收發(fā)器中已經很成熟)。來自該激光器的光進入計算陣列。計算部分是馬赫澤德干涉儀(MZI)。進入MZI的相干光被一分為二,每一半的相位都有不同的調整量。結合不同相位的信號,產生建設性或破壞性的干擾,從而有效地調制通過MZI的光的亮度(這種調制可以被認為是一種乘法運算)。在波導相交的地方,信號有效疊加在一起,這是光MAC的基礎。從計算陣列輸出的光到達光電二極管,其信號通過ADC輸入,以便與數(shù)字電路的其他部分連接。
圖 Lightmatter的光學計算陣列由DAC和ADC塊組成,用于與其他數(shù)字電路相接
MZI中的關鍵操作--移動光的相位,通過機械方式實現(xiàn)。Lightmatter公司副總裁Carl Ramey說,該光電芯片采用了納米光學機電系統(tǒng)(NOEMS)。類似于MEMS器件,波導結構通過蝕刻在下方懸浮,然后通過向其上方和下方的電容板添加電荷來偏轉。這就成功地改變了光的相位,達到了要求的量。
Ramey說:“NOEMS器件具有一些非常驚人的特性,它們的損耗極低,靜態(tài)功率耗散幾乎為零。我們只需將一些電子傾倒到小電容上,幾乎沒有漏電現(xiàn)象--電容足夠小,用于致動的動態(tài)功率也非常小......。[結構]也可以以相對較高的速度致動,最高可達數(shù)百兆赫茲。”
Ramey說,Lightmatter的演示器有64×64個計算單元,但這很容易擴大規(guī)模?!芭c基于晶體管的收縮陣列類似,計算量隨面積線性縮放,延遲也是隨著陣列的維度而縮放的。所以在一個典型的流水線晶體管設計中,你需要64個時鐘周期來執(zhí)行這里的操作,從左到右。我們的延遲也是隨著陣列維度而縮放的,但我們的速度要快三個數(shù)量級。所以即使是一千乘一千的陣列,其延遲時間也會遠低于納秒?!?
有趣的是,光計算陣列消耗的功率與面積的平方根成比例。這是因為功耗主要歸于數(shù)據(jù)轉換。“當我們向陣列中添加新計算單元時,我們獲得了更多的性能,但在功率方面我們只支付了平方根,因此,建造的芯片越大,實際上的能效也越來越高效。這與電子系統(tǒng)非常不同,電子系統(tǒng)只能線性擴展——更多的性能,更多的功耗?!?
除了與計算相關的能量,還有在芯片上移動數(shù)據(jù)所涉及的能量(今天基于晶體管的大型人工智能芯片在硅片上移動數(shù)據(jù)可能會消耗50-100W)。有了光學計算,以光學方式移動數(shù)據(jù)就意味著不需要功率,這是一個巨大的功率節(jié)省。其結果是,一個器件的工作功率不到3W,是其他計算方法每次推理操作所需能量的一小部分。
光計算的另一個有趣的特點是多路復用的能力。多個獨立的數(shù)據(jù)流可以被編碼到不同波長的光上,類似于光通信中使用的技術,并同時輸入到計算引擎中。這意味著一個光計算芯片可以同時進行多個AI推理。Harris說:“這是光學計算的一個非常獨特的屬性,這意味著你有一個物理資源,一個處理器,但它就像一個處理器陣列一樣工作?!彪m然指定頻譜(1310至1600nm)理論上至少可以容納1000個通道,但Harris表示,由于激光技術相對不成熟,目前只能容納8個通道。
Lightmatter目標客戶是數(shù)據(jù)中心,包括高性能計算等擴展系統(tǒng),不過未來可能會擴大;自動駕駛是遠期的路線圖,但Harris承認,進入這一領域所需的可靠性工程將是“一項巨大的工程”。
Lightmatter有一個完整的軟件棧,可以與TensorFlow或Pytorch集成;Harris表示,他們的目標是與這兩個機器學習框架即插即用。
Lightmatter成立于2017年,目前有46人,位于馬薩諸塞州波士頓,已經從包括谷歌風投在內的投資者那里籌集了3300萬美元的資金,并擁有30項專利。對于這家初創(chuàng)公司來說,首先面臨的挑戰(zhàn)之一可能是向持懷疑態(tài)度的客戶推銷整個光計算的概念。Harris說:“這是一個高難度的挑戰(zhàn),自20世紀60年代以來,在計算的歷史上,從來沒有一種技術能夠取代電子晶體管進行計算。它從未發(fā)生過。人們曾經嘗試過,但沒有成功。我認為,這是第一次,你會看到它發(fā)生,我們銷售它的方式是通過展示它的工作而進行。”