91国内揄拍国内精品对白不卡,双飞两个丰满少妇11p,18禁黄色网站进入观看

引言

2023 年是生成式人工智能的一年，對(duì) ChatGPT 等新型大型語(yǔ)言模型（LLM）的興趣大增。眾多公司正在將人工智能整合到自己的服務(wù)中（如微軟Bing、谷歌Bard、Adobe Creative Cloud 等），對(duì)英偉達(dá)今年的股價(jià)產(chǎn)生了重大影響。

在我們展望人工智能的未來(lái)及其面臨的挑戰(zhàn)時(shí)，Ayar Labs 的首席技術(shù)官兼聯(lián)合創(chuàng)始人Vladimir Stojanovic提供真知灼見(jiàn)，在這次問(wèn)答訪談中就 Ayar Labs 的技術(shù)如何促進(jìn)生成式人工智能的發(fā)展向 Vladimir 提出了十幾個(gè)問(wèn)題。

問(wèn)答訪談

1.從架構(gòu)的角度來(lái)看，在繼續(xù)提高人工智能模型的增長(zhǎng)和性能方面面臨哪些挑戰(zhàn)，尤其是在生成式人工智能的背景下？

生成式人工智能模型的關(guān)鍵在于它們非常龐大，需要在許多 GPU 之間進(jìn)行全局通信，這超出了數(shù)據(jù)中心中單個(gè)機(jī)箱或機(jī)架的范圍。即使是推理（即推理和決策），要求也很高，微調(diào)和訓(xùn)練更是如此。大致的規(guī)模是這樣的：一個(gè)機(jī)架用于推理，數(shù)十個(gè)機(jī)架用于微調(diào)，數(shù)百個(gè)機(jī)架用于訓(xùn)練。你必須以某種方式將所有這些 GPU 互聯(lián)起來(lái)。

2. GPU 互聯(lián)的關(guān)鍵考慮因素是什么？

在上述生成式人工智能架構(gòu)中，互聯(lián)的作用是在全 GPU I/O 帶寬和低延遲的情況下，提供從每個(gè) GPU 到每個(gè)其他 GPU 或子系統(tǒng)的全局通信，以最大限度地提高處理效率，同時(shí)在功耗、面積和成本方面的影響可以忽略不計(jì)。基本上，它使分布式系統(tǒng)看起來(lái)就像一個(gè)巨大的虛擬 GPU。因此，互聯(lián)必須非?？焖?、密集、省電和經(jīng)濟(jì)。這就是 Ayar Labs致力于將光學(xué)輸入/輸出（I/O）商業(yè)化的原因：利用硅基光電子技術(shù)在芯片級(jí)集成光學(xué)連接，直接從 GPU（XPU）封裝中產(chǎn)生最快、最高效的互連。

3. 目前使用的是什么，為什么不是最佳的？

目前，這些系統(tǒng)依賴(lài)于可插拔光連接，這本質(zhì)上是一種光網(wǎng)絡(luò)技術(shù)。可插拔光纜非常適合電信等長(zhǎng)距離應(yīng)用，但并不是為板載輸入/輸出而設(shè)計(jì)的。

在帶寬/延遲、功耗、密度和成本這四個(gè)方面，可插拔設(shè)備都無(wú)法滿(mǎn)足 GPU 輸入/輸出的要求?；诓灏问皆O(shè)計(jì)的 GPU 至 GPU 鏈路（或 GPU 至外部交換機(jī)鏈路）每比特消耗約 30 皮焦耳（pJ/b）：從最初的電氣 GPU 到光學(xué)可插拔鏈接需要 5 皮焦耳/比特，光學(xué)可插拔到光學(xué)可插拔鏈接需要 20 皮焦耳/比特，從光學(xué)可插拔轉(zhuǎn)換回電氣 GPU 或交換機(jī)還需要 5 皮焦耳/比特。將這 30pJ/b 與封裝內(nèi)光 I/O 解決方案相比，后者直接連接兩個(gè)封裝，功耗不到 5pJ/b，可節(jié)省近 8 倍功耗。

插拔式模塊也很笨重。與封裝內(nèi)光 I/O 相比，其邊緣帶寬密度低 10 倍以上，面積密度低 100 倍以上。這就限制了從 GPU 卡或機(jī)箱到系統(tǒng)其他部分的帶寬?；旧?，今天我們已經(jīng)到了極限，也許還能再擠出一代，系統(tǒng)就會(huì)完全陷入瓶頸。最后但并非最不重要的是成本。由于插拔式電纜是外部模塊，而不是板載芯片，因此其成本擴(kuò)展性很差，多年來(lái)一直徘徊在 1 至 2 美元/Gbps 之間。要實(shí)現(xiàn)未來(lái)生成式人工智能系統(tǒng)性能擴(kuò)展所需的 GPU-GPU 帶寬擴(kuò)展，成本需要降低約 10 倍。封裝內(nèi)光電 I/O 可以通過(guò)在光電芯片側(cè)和激光側(cè)進(jìn)行集成，幫助實(shí)現(xiàn)上述成本節(jié)約。

4. 您能談?wù)剬?duì)訓(xùn)練和推理的影響嗎？您認(rèn)為光 I/O 在哪些方面能發(fā)揮最大作用？

如上所述，有三種應(yīng)用，每種應(yīng)用都有不同的足跡和數(shù)量。首先，您需要訓(xùn)練一個(gè)人工智能模型，然后對(duì)其進(jìn)行微調(diào)（這可能是持續(xù)性的），最后通過(guò)推理將其投入生產(chǎn)?？紤]到模型的擴(kuò)展趨勢(shì)--從目前最大的模型到下一代或兩代模型，推斷將需要 10-100 個(gè) GPU，微調(diào)需要 100-1000 個(gè) GPU，而訓(xùn)練則需要數(shù)千到數(shù)萬(wàn)個(gè) GPU。鑒于一個(gè)機(jī)箱最多可容納 8 個(gè) GPU，而一個(gè)機(jī)架可容納 32 個(gè) GPU，因此即使是推理也會(huì)成為需要光 I/O 的機(jī)架級(jí)操作。

5. 您能否解釋一下系統(tǒng)工程師在設(shè)計(jì)大規(guī)模人工智能工作負(fù)載時(shí)面臨的主要挑戰(zhàn)，以及光 I/O 如何應(yīng)對(duì)這些挑戰(zhàn)？

首先，我們要明確我們談?wù)摰氖钦l(shuí)。如果我們指的是機(jī)器學(xué)習(xí)（ML）程序員，那么采用光 I/O 的平臺(tái)將提供具有高吞吐量擴(kuò)展、低延遲性能和低延遲分布的 Fabric 解決方案。這樣一來(lái)，整個(gè)分布式計(jì)算操作看起來(lái)就像一個(gè)單一的虛擬 GPU，從而提高了程序員的工作效率，實(shí)現(xiàn)了可擴(kuò)展的 ML 工作負(fù)載。

如果我們談?wù)摰氖怯布O(shè)計(jì)人員，他們需要構(gòu)建能夠?qū)崿F(xiàn)強(qiáng)可擴(kuò)展性分布式計(jì)算的平臺(tái)，那么光 I/O 就能實(shí)現(xiàn)物理分解。這是用更小的組件構(gòu)建復(fù)雜、可擴(kuò)展的平臺(tái)的關(guān)鍵所在，而這些組件的成本縮放曲線也更為激進(jìn)?？梢韵胂螅磥?lái)的設(shè)計(jì)將圍繞類(lèi)似于一堆物理分解的 GPU 計(jì)算卡或交換卡來(lái)構(gòu)建，而不再需要復(fù)雜而昂貴的多 GPU 機(jī)箱。

6. 在未來(lái)五到十年內(nèi)，您如何看待光 I/O 技術(shù)在人工智能模型增長(zhǎng)和能源消耗方面的作用？

光 I/O 的路線圖可實(shí)現(xiàn)超過(guò)十年的持續(xù)帶寬和功耗擴(kuò)展，這反過(guò)來(lái)又可實(shí)現(xiàn)強(qiáng)大的分布式計(jì)算平臺(tái)擴(kuò)展和相應(yīng)的模型增長(zhǎng)。

7. 在生成式人工智能場(chǎng)景中，"全對(duì)全連接 "與統(tǒng)一延遲和總體效率有何關(guān)系？光 I/O 在這方面有何幫助？

在生成式人工智能所需的超大規(guī)模（如數(shù)千個(gè)計(jì)算插槽）中，必須通過(guò)交換結(jié)構(gòu)實(shí)現(xiàn)全對(duì)全連接。這必須分布在所有計(jì)算插座上（如基于 TPU 的系統(tǒng)），或者與計(jì)算插座分開(kāi)（如基于 GPU 的系統(tǒng)）。無(wú)論哪種情況，光 I/O 都能以低功耗和低成本提供豐富的帶寬和低每鏈路延遲。這就使得大量對(duì)距離不敏感的光連接可以直接從計(jì)算/交換插座和光纖架構(gòu)拓?fù)洌此^的胖樹(shù)（或折疊克洛斯）設(shè)計(jì)）中取出，從而在不影響注入帶寬（節(jié)點(diǎn)向網(wǎng)絡(luò)注入數(shù)據(jù)的速率）或分段帶寬（計(jì)算真正的整體網(wǎng)絡(luò)帶寬）的情況下提供短而均勻的延遲。

目前，現(xiàn)有的 Fabric 設(shè)計(jì)在 Fabric 成本和性能之間折衷的辦法是使用較少的光纖可插拔連接，例如，與胖樹(shù)設(shè)計(jì)中計(jì)算節(jié)點(diǎn)的注入能力相比，降低分段帶寬，或使用其他 Fabric 拓?fù)洌ㄈ?TPU 系統(tǒng)中的環(huán)形結(jié)構(gòu)），這些拓?fù)浣Y(jié)構(gòu)最大限度地減少了機(jī)架和行級(jí)光纖連接的數(shù)量，但帶來(lái)了不均勻的延遲曲線，再次限制了應(yīng)用性能。

8. 您能否詳細(xì)說(shuō)明光 I/O 技術(shù)在可重構(gòu)性方面的作用，特別是在適應(yīng)不斷變化的人工智能模型要求方面，以及這種靈活性如何影響系統(tǒng)級(jí)效率？

封裝內(nèi)光學(xué) I/O 可實(shí)現(xiàn)計(jì)算/交換封裝的高帶寬和大量端口（鏈路），為如何配置結(jié)構(gòu)以滿(mǎn)足不斷變化的模型要求提供了靈活性。例如，系統(tǒng)設(shè)計(jì)可以強(qiáng)調(diào)更高的弧度（更多鏈接），從而根據(jù)需要增加節(jié)點(diǎn)數(shù)量，以更低的延遲支持更大的模型張量并行性。另外，系統(tǒng)設(shè)計(jì)也可以強(qiáng)調(diào)提高每個(gè)鏈路的吞吐量，從而降低流水線并行的傳輸延遲。

9. 考慮到人工智能應(yīng)用向邊緣計(jì)算發(fā)展的趨勢(shì)，光 I/O 技術(shù)在為資源受限的邊緣設(shè)備提供高速連接方面有哪些獨(dú)特的挑戰(zhàn)和機(jī)遇？

由于邊緣設(shè)備可利用的資源有限，物理分解是一個(gè)關(guān)鍵考慮因素，也是光 I/O 的主要優(yōu)勢(shì)之一。例如，航空航天公司正在尋求將下一代傳感器從底層計(jì)算中分離出來(lái)，以重新平衡關(guān)鍵約束條件（如尺寸、重量和功率），同時(shí)實(shí)現(xiàn)新的傳感配置，解決距離（一米以上）問(wèn)題（如多靜態(tài)雷達(dá)、合成孔徑、協(xié)作多輸入多輸出通信等）。

10. 光 I/O可為人工智能帶來(lái)哪些潛在的性能提升？

我們一直在創(chuàng)建和評(píng)估平臺(tái)開(kāi)發(fā)，在機(jī)箱、機(jī)架和系統(tǒng)層面，這些平臺(tái)有可能在下一代產(chǎn)品中將光纖架構(gòu)吞吐量提升 10 倍以上。這樣，互連帶寬就能跟上 GPU 改進(jìn)和人工智能集群擴(kuò)展的趨勢(shì)，確保連接性不會(huì)成為未來(lái)人工智能發(fā)展的制約因素。

11. 隨著光 I/O 的成熟，在標(biāo)準(zhǔn)化、互操作性和生態(tài)系統(tǒng)發(fā)展方面有哪些關(guān)鍵考慮因素，以確保其廣泛采用并與各種生成式人工智能硬件和軟件框架兼容？

標(biāo)準(zhǔn)化對(duì)于整個(gè)生態(tài)系統(tǒng)的發(fā)展和繁榮非常重要，而標(biāo)準(zhǔn)化必須將光 I/O 作為核心考慮因素。這里有兩個(gè)要素：物理和軟件。

在物理層，有連接本身和為光學(xué)供電的激光。UCIe（通用芯片互連 Express）是業(yè)界圍繞封裝級(jí)通用互連而制定的標(biāo)準(zhǔn)，它將同類(lèi)最佳的芯片到芯片互連與來(lái)自可互操作的多供應(yīng)商生態(tài)系統(tǒng)的協(xié)議連接結(jié)合在一起。

對(duì)于激光器而言，CW-WDM MSA（連續(xù)波分復(fù)用多源協(xié)議）是一項(xiàng)行業(yè)倡議和規(guī)范，旨在為新興的先進(jìn)集成光學(xué)應(yīng)用（如人工智能、高性能計(jì)算和高密度光學(xué)）實(shí)現(xiàn) O 波段 WDM CW 光源標(biāo)準(zhǔn)化，這些應(yīng)用預(yù)計(jì)將發(fā)展到 8、16 和 32 波長(zhǎng)。

與其他物理層互連技術(shù)相比，這兩項(xiàng)計(jì)劃都能在性能、效率、成本和帶寬擴(kuò)展方面實(shí)現(xiàn)飛躍。

在軟件層，CXL（Compute Express Link）等協(xié)議是處理器、內(nèi)存和加速器高速緩存相干互連的開(kāi)放標(biāo)準(zhǔn)，是未來(lái)的發(fā)展趨勢(shì)。這使得池化或交換式內(nèi)存等先進(jìn)技術(shù)成為可能，為 GPU 利用物理層的高吞吐量和低延遲共享分解內(nèi)存提供了基礎(chǔ)。

12. 在技能組合和專(zhuān)業(yè)知識(shí)方面，進(jìn)入人工智能光 I/O 開(kāi)發(fā)領(lǐng)域的專(zhuān)業(yè)人員需要具備哪些關(guān)鍵資質(zhì)和知識(shí)領(lǐng)域，企業(yè)和教育機(jī)構(gòu)如何為人才隊(duì)伍做好相應(yīng)準(zhǔn)備？

這是一個(gè)具有挑戰(zhàn)性的跨學(xué)科問(wèn)題--從硅基光電子學(xué)和激光物理學(xué)到電路設(shè)計(jì)和計(jì)算機(jī)/網(wǎng)絡(luò)架構(gòu)（再加上制造和封裝），更不用說(shuō)分布式計(jì)算/共享內(nèi)存系統(tǒng)的系統(tǒng)編程/通信堆棧。公司、個(gè)人和教育機(jī)構(gòu)可以通過(guò)認(rèn)識(shí)和強(qiáng)調(diào)這種跨堆棧設(shè)計(jì)方法來(lái)做好最佳準(zhǔn)備。

后記

感謝 Vladimir 先生抽出寶貴時(shí)間分享見(jiàn)解和觀點(diǎn)，讓我們了解如何應(yīng)對(duì)企業(yè)在發(fā)展和提高人工智能模型性能時(shí)所面臨的架構(gòu)挑戰(zhàn)。顯而易見(jiàn)，光 I/O 在實(shí)現(xiàn)生成式人工智能的未來(lái)方面大有可為。

參考來(lái)源

https://insidebigdata.com/2024/03/13/how-optical-i-o-is-enabling-the-future-of-generative-ai-a-qa-with-ayar-labs-cto-vladimir-stojanovic/?utm_content=288493874&utm_medium=social&utm_source=linkedin&hss_channel=lcp-6627049

Ayar Labs CTO Vladimir Stojanovic訪談：基于硅基光電子技術(shù)的光I/O如何助力生成式人工智能的未來(lái)