電路訓(xùn)練:硅基光電子處理器為更有效的神經(jīng)網(wǎng)絡(luò)片上訓(xùn)練鋪平道路。圖片來源:喬治華盛頓大學(xué)/昆士蘭大學(xué)。
使用深度學(xué)習(xí)算法,訓(xùn)練大量的數(shù)據(jù)可以產(chǎn)生迷人的結(jié)果。這方面的例子包括Generative Pre-trained Transformer 3(簡稱GPT-3)-- 這是目前世界上最強(qiáng)大的自動(dòng)回歸語言模型。但是,這些巨大的人工智能(AI)處理所需的算力開銷和能源開銷,已經(jīng)引發(fā)了人們對(duì)人工智能的碳排放的關(guān)注。
坦白講,人工智能的好處是巨大的。GPT-3可以看作為文本自動(dòng)完成的類固醇。在輸入普通語言后,深度學(xué)習(xí)模型可以將這些人類可讀的指令變成計(jì)算機(jī)代碼。微軟從開發(fā)商OpenAI那里獲得了GPT-3的授權(quán),正在其所謂的 "Power Apps "中使用這一提高生產(chǎn)力的功能。通過利用人工智能,該軟件允許用戶在沒有或很少有編碼經(jīng)驗(yàn)的情況下實(shí)現(xiàn)計(jì)算機(jī)編程結(jié)果。
時(shí)間和金錢
今年早些時(shí)候,OpenAI宣布了新的GPT-3功能,不僅能夠完成一個(gè)未完成的句子,而且使得重寫一個(gè)現(xiàn)有段落或重構(gòu)幾行代碼成為現(xiàn)實(shí)。但是要達(dá)到這一點(diǎn),需要大量的計(jì)算處理能力。據(jù)報(bào)道,GPT-3的1750億個(gè)參數(shù)模型,需要3.14E23 FLOPS的計(jì)算來進(jìn)行訓(xùn)練。
蘭姆達(dá)實(shí)驗(yàn)室(Lambda Labs,一家云服務(wù)提供商)的Chuan Li寫道,采用理論上28 TFLOPS的算力運(yùn)行NVIDIA Tesla V100云實(shí)例, 即便他的團(tuán)隊(duì)能找到最低三年保留的云價(jià)格,一次訓(xùn)練運(yùn)行將需要355個(gè)GPU-年,花費(fèi)約460萬美元。這凸顯了最先進(jìn)的深度學(xué)習(xí)模型所需的大致數(shù)字,并使我們回到了對(duì)人工智能的碳排放的關(guān)注,因?yàn)榫薮蟮腉PU的功率需求。
人們對(duì)COP27氣候會(huì)議記憶猶新,能源密集型業(yè)務(wù)再次受到關(guān)注。用清潔能源為云計(jì)算供電是一個(gè)答案,但這需要協(xié)調(diào),以確保處理過程與可再生電力的可用性相吻合。但即使這樣也不能解決所有的問題。
還有一個(gè)問題是,高昂的成本限制了這些大規(guī)模人工智能模型的開發(fā),只有少數(shù)幾個(gè)財(cái)大氣粗的公司能夠做到。幸運(yùn)的是,一種新興的計(jì)算架構(gòu)可以在多個(gè)方面改變現(xiàn)狀-- 它不僅利用電子,還利用光子。
在過去的十年里,芯片設(shè)計(jì)者在硅基光電子學(xué)領(lǐng)域取得了巨大的進(jìn)展,它利用硅基光電子集成電路的制造優(yōu)勢,設(shè)計(jì)了一系列基于光的操作。硅基光電子集成電路(PIC)提供低延遲、高帶寬和固有的并行處理(使用光復(fù)用)。
此前,PIC芯片已被證明能夠進(jìn)行推理(使用現(xiàn)有算法從新數(shù)據(jù)中推斷出特征)。但人工智能模型本身仍然必須以傳統(tǒng)的、能源密集型的方式進(jìn)行離線訓(xùn)練?,F(xiàn)在,美國和加拿大的研究人員提出了一個(gè)PIC概念,可以同時(shí)做到這兩點(diǎn) -- 在最新一期的《Optica》雜志上報(bào)告了他們的結(jié)果。
該團(tuán)隊(duì)認(rèn)為,其新穎的硬件將加快機(jī)器學(xué)習(xí)系統(tǒng)的訓(xùn)練,并利用光子學(xué)和電子芯片所能提供的最好的東西。該小組一直在努力構(gòu)建光子版本的張量核心(在完成標(biāo)準(zhǔn)人工智能相關(guān)操作方面優(yōu)于GPU的處理器)。而這一最新突破是這一更大努力的一部分。
從紙面上看,具有高帶寬信息處理特性的低功耗光子技術(shù)很適合減少人工智能的碳排放。但當(dāng)涉及到訓(xùn)練深度學(xué)習(xí)模型時(shí),"回傳步驟" -- 即調(diào)整模型權(quán)重以便更準(zhǔn)確地概括數(shù)據(jù)所表現(xiàn)出的特征 -- 使事情變得緩慢,因?yàn)榫W(wǎng)絡(luò)層必須按順序更新。
多通道改進(jìn)
為了解決這個(gè)問題,研究人員采取了另一種被稱為直接反饋對(duì)準(zhǔn)(DFA)的方法,允許網(wǎng)絡(luò)并行更新。"在回傳過程中,來自網(wǎng)絡(luò)推理步驟的誤差被編碼在多通道光學(xué)輸入上",作者在論文中解釋道,"然后光電電路計(jì)算每個(gè)隱藏層的梯度矢量,使用一個(gè)外部數(shù)字控制系統(tǒng),來更新存儲(chǔ)在內(nèi)存中的網(wǎng)絡(luò)參數(shù)。"
當(dāng)使用PIC芯片而不是純數(shù)字電子器件時(shí),另一個(gè)潛在的障礙是模擬電路所固有的噪音。然而,神經(jīng)網(wǎng)絡(luò)在推理和訓(xùn)練過程中對(duì)噪聲具有魯棒性(這也是其廣泛成功的原因之一)。此外,由于DFA,噪音不會(huì)在網(wǎng)絡(luò)層之間積累,否則就會(huì)出現(xiàn)這種情況。在回傳過程中,作為訓(xùn)練過程的一部分,誤差從輸出端通過每個(gè)隱藏層(人工智能算法的內(nèi)部運(yùn)作)步入。
"人工智能系統(tǒng)的訓(xùn)練要花費(fèi)大量的能源和碳排放。參與研究的機(jī)構(gòu)之一、喬治華盛頓大學(xué)的沃爾克-索爾格強(qiáng)調(diào)說:"例如,一個(gè)人工智能變壓器所耗費(fèi)的電力中的二氧化碳約為一輛汽油車在其一生中花費(fèi)的五倍"。而這個(gè)團(tuán)隊(duì)包括來自皇后大學(xué)、英屬哥倫比亞大學(xué)和普林斯頓大學(xué)的研究人員,他們希望采用硅基光電子芯片的培訓(xùn)將有助于減少這種開銷。
為了探索硅基光電子技術(shù)在商業(yè)環(huán)境中的機(jī)會(huì),Sorger與Hamed Dalir一起成立了一家名為Optelligence的新公司。該公司的總部設(shè)在德克薩斯州奧斯汀市,并在弗吉尼亞州的阿什本設(shè)有制造廠。
逍遙科技| 編譯自 T_HQ technology and business