ICCSZ訊 世界領先的高性能計算、數(shù)據(jù)中心端到端互連方案提供商Mellanox(納斯達克交易所代碼: MLNX)今日宣布,互聯(lián)網(wǎng)搜索巨頭百度公司現(xiàn)已采用Mellanox端到端RDMA以太網(wǎng)互連解決方案為其打造全球頂尖的AI平臺。在全球計算機系統(tǒng)領域的頂級會議——第26屆操作系統(tǒng)原理大會(SOSP’17)上,百度提交了關于“高性能RDMA協(xié)議棧關鍵技術”的Poster。該Poster展示通過建立一種類Socket的RDMA通信庫,可將現(xiàn)有業(yè)務無縫遷移到高性能RDMA協(xié)議棧。百度是國內(nèi)第一家大規(guī)模部署Mellanox 100G RDMA (支持RoCE v2) 以太網(wǎng)網(wǎng)絡的企業(yè),Mellanox與百度精誠合作,引領了網(wǎng)絡技術的快速發(fā)展。
隨著人工智能和5G網(wǎng)絡的興起,“喚醒萬物,萬物互聯(lián)”的時代已經(jīng)來臨。在人工智能領域,計算量需求的爆發(fā)式增長無疑對網(wǎng)絡提出了更苛刻的要求。百度AI算法具有高流量突發(fā)的網(wǎng)絡特征,而且對網(wǎng)絡的時延、帶寬以及吞吐量的需求也很高。百度類Socket通信庫底層采用Mellanox 100G RDMA以太網(wǎng),使得百度AI集群的訓練速度獲得了大幅度的提升,AI訓練參數(shù)的同步時間也進一步縮短。
作為高性能互連網(wǎng)絡的核心組件,基于RDMA技術的Mellanox以太網(wǎng)解決方案在百度HPC集群和高性能存儲集群中也發(fā)揮了關鍵作用。百度云旗下的塊存儲服務——云磁盤(CDS)采用NVMe介質,其讀寫時延已低于傳統(tǒng)TCP網(wǎng)絡的通信時延,網(wǎng)絡因此成為了最大的瓶頸。結合25G RDMA以太網(wǎng)解決方案,百度對其底層的Baidu RPC(brpc)進行了改造。測試結果表明,改造后brpc的延遲可降低20% - 60%,QPS(每秒查詢率)可提升40% - 80%。相應的,云磁盤(CDS)的讀寫時延可降低10%-40%。
“無論是傳統(tǒng)的HPC應用還是新興的人工智能平臺,都離不開高性能RDMA網(wǎng)絡的支持”,Mellanox公司亞太及中國區(qū)市場開發(fā)高級總監(jiān)劉通表示。“我們很榮幸與百度公司合作,為業(yè)界領先的AI開放生態(tài)架構提供支持,共同構建更高效的網(wǎng)絡協(xié)議堆棧,推動網(wǎng)絡革新,共同引領100G RDMA以太網(wǎng)大規(guī)模部署,打造AI平臺的網(wǎng)絡新引擎。”
目前,百度人工智能研究成果已全面應用于百度產(chǎn)品,讓數(shù)億網(wǎng)民從中受益;同時,百度還將語音、圖像、機器翻譯等難度高、投入大的領先技術向業(yè)界開放,以降低大眾創(chuàng)業(yè)、萬眾創(chuàng)新的門檻,進一步釋放創(chuàng)業(yè)創(chuàng)新活力。