數(shù)據(jù)開(kāi)源為AI發(fā)展“推波助瀾”

訊石光通訊網(wǎng) 發(fā)布時(shí)間:2023/6/26 9:43:01 編者:iccsz

摘要：大模型是AI未來(lái)發(fā)展的重要方向，其研究和應(yīng)用將逐步成為AI發(fā)展的關(guān)鍵方向，并有望形成新一波AI推廣浪潮，而AI數(shù)據(jù)開(kāi)源將進(jìn)一步促進(jìn)大模型的發(fā)展。

ICC訊 在6月9日—10日舉行的2023北京智源大會(huì)上，“AI 數(shù)據(jù)開(kāi)源”引發(fā)廣泛關(guān)注。AI 數(shù)據(jù)為什么要開(kāi)源？AI 數(shù)據(jù)開(kāi)源面臨哪些挑戰(zhàn)？它會(huì)是未來(lái)AI發(fā)展的重要趨勢(shì)嗎？科技日?qǐng)?bào)記者帶著這些問(wèn)題采訪了相關(guān)專家。

AI 數(shù)據(jù)開(kāi)源意義重大

有專家認(rèn)為，AI 數(shù)據(jù)開(kāi)源對(duì)深度學(xué)習(xí)模型的發(fā)展意義重大。由于訓(xùn)練AI大模型需要大量資源，所以預(yù)計(jì)“贏家通吃”類AI系統(tǒng)的開(kāi)發(fā)和管理將首先由少部分閉源實(shí)體所主導(dǎo)。

但遺憾的是，這種資源限制導(dǎo)致研究人員、非營(yíng)利組織和初創(chuàng)公司等小規(guī)模實(shí)體因無(wú)法承擔(dān)高昂的成本，幾乎不可能從零開(kāi)始訓(xùn)練自己的AI大模型。

以對(duì)話類模型為例，目前國(guó)內(nèi)外眾多已經(jīng)開(kāi)源的對(duì)話模型，其實(shí)都是基于語(yǔ)言基礎(chǔ)大模型，再利用少量指令微調(diào)數(shù)據(jù)進(jìn)行訓(xùn)練所得。

如果開(kāi)源AI大模型的數(shù)據(jù)在質(zhì)量上具有足夠的競(jìng)爭(zhēng)力，深度學(xué)習(xí)模型的規(guī)模化訓(xùn)練和運(yùn)行成本將大幅降低。

北京智源人工智能研究院（以下簡(jiǎn)稱智源）副院長(zhǎng)兼總工程師林詠華對(duì)記者表示，大模型是AI未來(lái)發(fā)展的重要方向，其研究和應(yīng)用將逐步成為AI發(fā)展的關(guān)鍵方向，并有望形成新一波AI推廣浪潮，而AI 數(shù)據(jù)開(kāi)源將進(jìn)一步促進(jìn)大模型的發(fā)展。

深度學(xué)習(xí)需要大量的標(biāo)注數(shù)據(jù)進(jìn)行模型訓(xùn)練。在林詠華看來(lái)，過(guò)去10年，深度學(xué)習(xí)技術(shù)快速發(fā)展的重要原因，就是許多志愿者團(tuán)體、國(guó)外科研團(tuán)隊(duì)一直在積極地收集、整理并開(kāi)源用于深度學(xué)習(xí)的訓(xùn)練數(shù)據(jù)集?！爱?dāng)前AI大模型訓(xùn)練對(duì)數(shù)據(jù)量的需求，比之前的深度學(xué)習(xí)小模型對(duì)數(shù)據(jù)量的需求有了百倍，甚至千倍的提升。所以，尤其在過(guò)去一年，數(shù)據(jù)開(kāi)源的問(wèn)題日益受到廣泛關(guān)注?！绷衷伻A說(shuō)。

背后挑戰(zhàn)不容忽視

開(kāi)源固然會(huì)為AI發(fā)展帶來(lái)諸多好處，但其背后的挑戰(zhàn)也不容忽視。其中之一，便是開(kāi)源安全與合規(guī)挑戰(zhàn)。林詠華認(rèn)為，對(duì)傳統(tǒng)的商業(yè)軟件而言，開(kāi)源中的安全、合規(guī)、許可證和代碼質(zhì)量風(fēng)險(xiǎn)等是使用開(kāi)源組件必須面臨的挑戰(zhàn)。然而在AI大模型時(shí)代，更大的挑戰(zhàn)則在開(kāi)源數(shù)據(jù)集方面。

因此，AI 數(shù)據(jù)開(kāi)源應(yīng)在協(xié)議許可的范圍內(nèi)進(jìn)行。“用于AI大模型訓(xùn)練的開(kāi)源數(shù)據(jù)必須是合法地從公開(kāi)或可公開(kāi)獲得的資源中收集的數(shù)據(jù)。人們可以在開(kāi)源協(xié)議允許的范圍內(nèi)，以AI大模型訓(xùn)練、AI算法開(kāi)發(fā)為目的，對(duì)數(shù)據(jù)進(jìn)行訪問(wèn)、修改和使用。部分數(shù)據(jù)可能要求使用過(guò)程中遵守更嚴(yán)格的協(xié)議?！绷衷伻A表示。

此外，今天的基礎(chǔ)AI大模型不只具備理解能力，還具有生成能力，它能夠?qū)ν膺M(jìn)行認(rèn)知輸出、價(jià)值觀輸出等，可能給社會(huì)帶來(lái)巨大影響。“我們?cè)谟?xùn)練基礎(chǔ)大模型的時(shí)候，所使用的預(yù)訓(xùn)練數(shù)據(jù)會(huì)對(duì)AI生成內(nèi)容質(zhì)量起到很大程度的決定性作用。因此，開(kāi)源數(shù)據(jù)的質(zhì)量十分重要?！?

林詠華指出，由于高質(zhì)量的數(shù)據(jù)（如文章、圖片、視頻等）通常有版權(quán)，由于版權(quán)或商業(yè)因素導(dǎo)致的閉源以及數(shù)據(jù)孤島等挑戰(zhàn)會(huì)制約AI的發(fā)展，所以需要多方推動(dòng)構(gòu)建更多高質(zhì)量的開(kāi)源數(shù)據(jù)集，尤其是用于訓(xùn)練基礎(chǔ)AI大模型的開(kāi)源數(shù)據(jù)集。

LF AI & DATA基金會(huì)董事主席堵俊平對(duì)此也深有感觸：“AI大模型就像一個(gè)貪吃的‘怪獸’，始終需要研究人員投喂更多的、質(zhì)量更好的數(shù)據(jù)。”他說(shuō)，當(dāng)前數(shù)據(jù)幾乎都是從“在網(wǎng)絡(luò)上主動(dòng)收集”“從第三方購(gòu)買”“利用公開(kāi)數(shù)據(jù)集”這三個(gè)渠道得來(lái)。在堵俊平看來(lái)，從第一個(gè)渠道得到的數(shù)據(jù)局限性較強(qiáng)，由于版權(quán)問(wèn)題，很多公司只能從其私域獲得數(shù)據(jù)；從第二個(gè)渠道獲取的數(shù)據(jù)面臨數(shù)據(jù)定價(jià)、數(shù)據(jù)質(zhì)量等問(wèn)題；而從第三個(gè)渠道獲取的數(shù)據(jù)往往只能作為研究使用，在商用或者其他方面有很多限制。

開(kāi)源漸成AI發(fā)展重要趨勢(shì)

記者了解到，智源對(duì)2023年1月到5月底發(fā)布的、具有影響力的語(yǔ)言模型進(jìn)行過(guò)統(tǒng)計(jì)。統(tǒng)計(jì)結(jié)果表明，國(guó)外發(fā)布的開(kāi)源語(yǔ)言模型有39個(gè)，國(guó)內(nèi)發(fā)布的開(kāi)源語(yǔ)言模型有11個(gè)。

“開(kāi)源是推動(dòng)AI技術(shù)進(jìn)步的重要力量，AI開(kāi)源開(kāi)放生態(tài)及平臺(tái)建設(shè)也日益受到重視。開(kāi)源開(kāi)放毫無(wú)疑問(wèn)已經(jīng)成為重要的AI發(fā)展趨勢(shì)之一?！绷衷伻A表示，“開(kāi)源能夠促進(jìn)AI大模型科研創(chuàng)新，推動(dòng)和降低AI大模型落地乃至整個(gè)AI產(chǎn)業(yè)落地的門檻?！?

然而，通往開(kāi)源的道路并非一帆風(fēng)順，在數(shù)據(jù)之外，算力也是開(kāi)源路上的一只“攔路虎”。AI大模型訓(xùn)練依賴龐大的數(shù)據(jù)、算力。訓(xùn)練參數(shù)量級(jí)的增長(zhǎng)使得算力需求也隨之增長(zhǎng)，算力集群正變得愈發(fā)龐大。

然而算力成本卻是小型開(kāi)發(fā)者的“不可承受之重”。拿到AI大模型開(kāi)源數(shù)據(jù)后，往往需要對(duì)其進(jìn)行微調(diào)和二次開(kāi)發(fā)。但現(xiàn)實(shí)的情況是，對(duì)一些小型開(kāi)發(fā)者來(lái)說(shuō)，僅僅是做推理都很困難，就更別提對(duì)AI大模型做微調(diào)、二次開(kāi)發(fā)。以ChatGPT為例，僅就算力而言，Open AI為了訓(xùn)練它，就構(gòu)建了由近3萬(wàn)張英偉達(dá)V100顯卡組成的龐大算力集群。有消息稱，Open AI公司發(fā)布的新一代語(yǔ)言模型GPT-4甚至達(dá)到了100萬(wàn)億的參數(shù)規(guī)模，其對(duì)應(yīng)的算力需求同比大幅增加。

目前，有一些研究機(jī)構(gòu)希望用技術(shù)的革新抵消巨大的算力成本。最直接的手段是通過(guò)訓(xùn)練技術(shù)的革新加快AI大模型推理速度、降低算力成本、減少能耗，以此來(lái)提高AI大模型的易用性，讓開(kāi)源數(shù)據(jù)更好地發(fā)揮價(jià)值，但這只能從工程上對(duì)算力資源的約束起到緩解作用，并非終極方案。

有業(yè)內(nèi)專家表示，解決算力問(wèn)題最終還是要回到AI大模型自身尋找突破點(diǎn)，一個(gè)十分被看好的方向便是稀疏大模型。稀疏大模型的特點(diǎn)是容量很大，但只有用于給定任務(wù)、樣本或標(biāo)記時(shí)，模型的部分功能才會(huì)被激活。也就是說(shuō)，這種稀疏大模型的動(dòng)態(tài)結(jié)構(gòu)能夠讓AI大模型在參數(shù)量上再躍升幾個(gè)層級(jí)，同時(shí)又不必付出巨大的算力代價(jià)，一舉兩得。

此外，開(kāi)源社區(qū)的作用同樣不容忽視。開(kāi)源社區(qū)是推動(dòng)開(kāi)源發(fā)展的重要基石，開(kāi)源的最初發(fā)源點(diǎn)，就是來(lái)自于社區(qū)開(kāi)發(fā)者的貢獻(xiàn)?！癓inux系統(tǒng)的成功很大程度上得益于開(kāi)源社區(qū)。30多年來(lái)，Linux系統(tǒng)發(fā)展成為擁有海量全球用戶的操作系統(tǒng)，其成功以及長(zhǎng)久不衰的秘訣就是開(kāi)源，尤其是內(nèi)核社區(qū)成千上萬(wàn)開(kāi)發(fā)者的貢獻(xiàn)。”林詠華舉例說(shuō)。

“開(kāi)源開(kāi)放可以使得我們站在前人的肩膀上前行?！绷衷伻A總結(jié)道，“這些年AI領(lǐng)域取得的成果大多受益于開(kāi)源，如果沒(méi)有開(kāi)源，AI不會(huì)發(fā)展到今天?！?

內(nèi)容來(lái)自：科技日?qǐng)?bào)
本文地址：http://getprofitprime.com//Site/CN/News/2023/06/26/20230626014350401767.htm 轉(zhuǎn)載請(qǐng)保留文章出處
關(guān)鍵字: 數(shù)據(jù) AI
文章標(biāo)題:數(shù)據(jù)開(kāi)源為AI發(fā)展“推波助瀾”

1、凡本網(wǎng)注明“來(lái)源：訊石光通訊網(wǎng)”及標(biāo)有原創(chuàng)的所有作品，版權(quán)均屬于訊石光通訊網(wǎng)。未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像，違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位，也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標(biāo)注作者信息和本站來(lái)源。
2、免責(zé)聲明，凡本網(wǎng)注明“來(lái)源：XXX（非訊石光通訊網(wǎng)）”的作品，均為轉(zhuǎn)載自其它媒體，轉(zhuǎn)載目的在于傳遞更多信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。因可能存在第三方轉(zhuǎn)載無(wú)法確定原網(wǎng)地址，若作品內(nèi)容、版權(quán)爭(zhēng)議和其它問(wèn)題，請(qǐng)聯(lián)系本網(wǎng)，將第一時(shí)間刪除。
聯(lián)系方式：訊石光通訊網(wǎng)新聞中心　電話：0755-82960080-168 Right

數(shù)據(jù)開(kāi)源為AI發(fā)展“推波助瀾”

相關(guān)新聞