一级中文字幕在线播放,无码人妻久久一区二区三区蜜桃

簡介

亞馬遜、谷歌、Meta、微軟、甲骨文和 Akamai 等世界領先的Hyperscaler云數(shù)據(jù)中心公司正在推動專為云計算設計的芯片架構的快速創(chuàng)新。為了在更小的面積內容納更多的計算能力，同時降低冷卻成本，這些公司正在采用針對特定數(shù)據(jù)類型和工作負載進行優(yōu)化的異構多核架構。

這一趨勢緊隨移動設備的腳步，因為移動設備必須應對狹小的占地面積以及嚴格的功耗和散熱要求。Quadric 市場營銷副總裁 Steve Roddy 指出："英特爾等行業(yè)巨頭的單片機幾乎在每個產(chǎn)品代碼中都有人工智能 NPU。當然，人工智能先驅英偉達(NVIDIA)長期以來一直在其大獲成功的數(shù)據(jù)中心產(chǎn)品中混合使用 CPU、shader(CUDA)內核和張量內核。未來幾年向芯片組的轉變將徹底鞏固這一過渡?！?

定制架構的經(jīng)濟性

隨著傳統(tǒng)擴展的優(yōu)勢不斷縮小，以及先進封裝技術的成熟(先進封裝技術允許許多以前受限于微粒尺寸的定制功能)，每瓦特和每美元性能的競爭已進入白熱化階段。這導致針對不同工作負載進行優(yōu)化的定制架構激增。

西門子 EDA IC 市場總監(jiān) Neil Hand 解釋說："如今，每個人都在構建自己的架構，尤其是數(shù)據(jù)中心的參與者，而處理器架構很大程度上取決于工作負載的外觀。與此同時，這些開發(fā)人員也在詢問加速的最佳途徑是什么”。

一些公司專注于多核并行，而另一些公司則以提高內存帶寬為目標。許多公司正在為數(shù)據(jù)處理、矩陣運算和壓縮/解壓縮等任務開發(fā)專用加速器。

異構多核架構

由此產(chǎn)生的芯片架構是混合了通用 CPU、GPU 和固定功能加速器的異構多核設計。正如 Synopsys 公司 ASIP 工具產(chǎn)品經(jīng)理 Patrick Verbist 所描述的那樣：

“它們是異構多核架構，通常是通用 CPU 和 GPU 的混合，具體取決于公司類型，因為它們偏好其中一種。然后是具有固定功能的 RTL 加速器......這些加速器運行的應用負載類型一般包括數(shù)據(jù)操作、矩陣乘法引擎、激活函數(shù)、參數(shù)的壓縮/解壓縮、圖形的權重等?！?

為了支持不斷變化的工作負載要求，許多公司正在采用特定應用指令處理器(ASIP)，這種處理器可以定制數(shù)據(jù)通路和指令集。

“ASIP允許定制運算器，因此數(shù)據(jù)路徑和指令集只能以比普通DSP更有效的方式執(zhí)行有限的一組運算，”Verbist說?！叭绻憧? GPU，它必須支持各種工作負載，但不是所有的工作負載。這就是 ASIP 發(fā)揮作用的地方，它支持靈活性和可編程性。

適應人工智能/ML 工作負載

人工智能和機器學習的興起是這種架構多樣性的主要驅動力。Fraunhofer IIS 高效電子學負責人 Andy Heinig 說："AI/ML 的需求將加速開發(fā)新的特定應用架構的進程。傳統(tǒng)的 CPU 如果能提供更好的內存接口來解決內存問題，就能成為這場革命的一部分。如果 CPU 能提供這種新的內存架構，那么 AI/ML 加速器就能成為與 CPU 并駕齊驅的數(shù)據(jù)中心最佳解決方案?！?

Arm正在與AWS、谷歌和微軟等超大規(guī)模廠商直接合作，優(yōu)化其基于Neoverse的AI/ML和高性能計算解決方案?！癆rm 基礎設施產(chǎn)品線產(chǎn)品管理高級總監(jiān) Brian Jeff 說：”CPU 上推理非常重要，我們看到合作伙伴正在利用我們的 SVE 管道和矩陣數(shù)學增強功能以及數(shù)據(jù)類型來運行推理。

GPT-3 等大型語言模型所需的巨大模型尺寸也推動了新的架構考慮。Synopsys 首席產(chǎn)品經(jīng)理 Priyank Shukla 解釋說：

“以 GPT-3 為例，它有 1，750 億個參數(shù)。每個參數(shù)的寬度為 2 字節(jié)，即 16 位。您需要在 2 個字節(jié)中存儲如此多的信息--1750 億個參數(shù)，相當于 3500 億字節(jié)的內存。這些內存需要存儲在共享該模型的所有加速器中，而該模型需要放置在加速器的結構中......你需要一個結構，它可以接受這個更大的模型，然后對其進行處理?！?

這些大型模型的某些部分可以在多個芯片或機架上并行處理，而其他部分則必須通過低延遲訪問完整模型來串行處理。

圖 1 顯示了一個 ML 優(yōu)化服務器機架的示例，旨在高效處理此類大型模型。

多芯片要求

為了集成所有必要的計算元件(CPU、GPU、定制加速器、高帶寬內存等)，同時管理電源和散熱，多芯片或基于芯片的方法變得重要。

“Synopsys 研發(fā)總監(jiān) Sutirtha Kabir 說：”整個行業(yè)正處于一個拐點，你不能再回避這個問題?！拔覀冊诤笈_談論摩爾定律和‘SysMoore’，但設計人員必須在 CPU 和 GPU 中增加更多功能，而由于微粒尺寸限制、產(chǎn)量限制等原因，他們根本無法在一個芯片中實現(xiàn)這些功能。多芯片在這里是不可避免的。

多芯片設計為分區(qū)、芯片間同步、熱管理和 3D 平面規(guī)劃帶來了新的挑戰(zhàn)?！翱ū葼柦忉屨f：”你要把一棟單層房屋變成三層或四層?？ū葼柦忉屨f，"但還有其他設計挑戰(zhàn)。你不能再忽視散熱問題了......如果你在平面規(guī)劃時不考慮散熱問題，你的處理器就會燒毀。

在最近的 ISSCC 會議上，Ansys 產(chǎn)品營銷總監(jiān) Marc Swinnen 說："這些數(shù)據(jù)中心耗電量巨大。我參加了在舊金山舉行的 ISSCC 會議，我們的展臺就在英偉達公司旁邊，英偉達公司正在展示其人工智能訓練箱--一個裝有八個芯片、大量風扇和散熱片的大箱子。我們問它的耗電量有多大，他們說：'哦，最高時有 1 萬瓦，但平均也有 6000 瓦。'電力真是越來越瘋狂了。

采用系統(tǒng)方法

為了應對這些多方面的設計挑戰(zhàn)，需要采用一種全面的系統(tǒng)級方法，涵蓋指令集、微架構、內存子系統(tǒng)、互連等。

“Arm 的 Jeff 說：”完整的系統(tǒng)方法使我們能夠與合作伙伴合作，根據(jù)現(xiàn)代工作負載和工藝節(jié)點定制 SoC 設計，同時利用基于芯片的設計方法?！斑@種定制芯片設計方法使數(shù)據(jù)中心運營商能夠優(yōu)化其電力成本和計算效率?！?

西門子的 Hand 還強調了系統(tǒng)級分析和優(yōu)化的重要性：“應用的系統(tǒng)級協(xié)同設計已經(jīng)變得非常重要，而且由于高性能計算不再像以前那樣容易獲得，因此它變得更加容易獲得。這是一個帶輪子的數(shù)據(jù)中心”。

未來之路

這種架構演變的方向很難預測，但很明顯，“高性能計算 ”的定義將繼續(xù)擴大。

“一旦你開始打破馮-諾依曼架構，開始使用不同的內存流，開始研究內存計算，它就會變得非?？帷Ｈ缓竽銜f，'高性能計算到底意味著什么?

集成硅基光電子技術、跨機架的統(tǒng)一內存架構和非馮-諾依曼計算模型等因素可能會從根本上重塑數(shù)據(jù)中心系統(tǒng)拓撲結構，并重新定義什么是最佳架構和性能。

可以肯定的是，隨著全球最大的科技巨頭繼續(xù)進行軍備競賽，為未來呈指數(shù)級增長的人工智能/移動計算和傳統(tǒng)計算工作負載提供領先的性能、效率和可擴展性，云數(shù)據(jù)中心芯片設計的創(chuàng)新步伐只會加快。

參考文獻

[1] B. Smith, "Architecting Chips For High-Performance Computing," Semiconductor Engineering, May 15, 2024. [Online]. Available: https://semiengineering.com/architecting-chips-for-high-performance-computing/. [Accessed: May 23, 2024].

高性能計算芯片的架構