新聞中心
云原生超級(jí)計(jì)算已經(jīng)到來:何為云原生超級(jí)計(jì)算機(jī)?
作者:佚名 2021-04-15 10:57:05
服務(wù)器
芯片
云原生
云原生 作為與統(tǒng)一通信框架(UCF)聯(lián)盟合作項(xiàng)目的一部分,洛斯阿拉莫斯國家實(shí)驗(yàn)室正在助力實(shí)現(xiàn)加速數(shù)據(jù)算法的能力。俄亥俄州立大學(xué)正在更新消息傳遞接口(MPI)軟件,以增強(qiáng)科學(xué)仿真。

據(jù) NVIDIA消息,在英國,劍橋大學(xué)正在構(gòu)建一臺(tái)云原生超級(jí)計(jì)算機(jī)。在美國,有兩個(gè)研究團(tuán)隊(duì)正在分別開發(fā)云原生超級(jí)計(jì)算的關(guān)鍵軟件部分。
作為與統(tǒng)一通信框架(UCF)聯(lián)盟合作項(xiàng)目的一部分,洛斯阿拉莫斯國家實(shí)驗(yàn)室正在助力實(shí)現(xiàn)加速數(shù)據(jù)算法的能力。俄亥俄州立大學(xué)正在更新消息傳遞接口(MPI)軟件,以增強(qiáng)科學(xué)仿真。
NVIDIA 正在通過最新的DGX SuperPOD向全球用戶提供云原生超級(jí)計(jì)算機(jī)。DGX SuperPOD現(xiàn)已投入生產(chǎn),它包含NVIDIA BlueField-2 DPU(數(shù)據(jù)處理器)等關(guān)鍵組成部分。
那么,何為云原生超級(jí)計(jì)算?
就像銳滋的花生醬夾心巧克力一樣,云原生超級(jí)計(jì)算融合了兩項(xiàng)業(yè)界領(lǐng)先的技術(shù)優(yōu)點(diǎn)。
云原生超級(jí)計(jì)算機(jī)融合了高性能計(jì)算的強(qiáng)大算力和云服務(wù)的安全性與易用性。
換個(gè)角度看,云原生超級(jí)計(jì)算提供了一個(gè)性能強(qiáng)如TOP500超級(jí)計(jì)算機(jī)的HPC云,它在保障不犧牲應(yīng)用性能的同時(shí)允許多用戶安全共享。
BlueField DPU通過支持安全、通信和管理任務(wù)的卸載來創(chuàng)建高效的云原生超級(jí)計(jì)算機(jī)。
云原生超級(jí)計(jì)算機(jī)有何功能?
云原生超級(jí)計(jì)算機(jī)有兩個(gè)關(guān)鍵功能。
首先,它允許多用戶共享一臺(tái)超級(jí)計(jì)算機(jī),同時(shí)保證每個(gè)用戶的應(yīng)用的安全性和私密性。這種能力被稱為“多租戶隔離”,在當(dāng)今的商業(yè)云計(jì)算服務(wù)中十分普遍,但一般不會(huì)出現(xiàn)在技術(shù)和科學(xué)應(yīng)用的HPC系統(tǒng)中,因?yàn)樵谶@些系統(tǒng)中,裸性能的優(yōu)先級(jí)最高,而安全服務(wù)會(huì)降低系統(tǒng)效率。
其次,云原生超級(jí)計(jì)算機(jī)使用DPU來處理存儲(chǔ)、租戶隔離安全和系統(tǒng)管理等任務(wù)。這樣可以卸載CPU,使其專注于處理任務(wù),從而最大限度地提高系統(tǒng)的整體性能。
如此,一臺(tái)超級(jí)計(jì)算機(jī)便可以在不損失性能的情況下,實(shí)現(xiàn)云原生服務(wù)。未來DPU將處理更多的卸載任務(wù),從而使系統(tǒng)在運(yùn)行HPC和AI應(yīng)用時(shí)時(shí)刻保持最高的運(yùn)行效率。
云原生超級(jí)計(jì)算機(jī)如何運(yùn)行?
如今,超級(jí)計(jì)算機(jī)通常有兩個(gè)“大腦”——CPU和加速器(一般為GPU)。
加速器集合了數(shù)千個(gè)處理核,可為AI和HPC應(yīng)用中最重要的并行運(yùn)算提供加速。CPU是針對(duì)需要快速串行處理的算法部分而設(shè)計(jì)的,但隨著其管理的系統(tǒng)日益龐大且日漸復(fù)雜,通信的層數(shù)不斷增多,導(dǎo)致CPU的負(fù)擔(dān)越來越重。
云原生超級(jí)計(jì)算機(jī)引入第三個(gè)“大腦”——DPU,旨在幫助構(gòu)建更快、更高效的系統(tǒng)。DPU能夠卸載安全、通信、存儲(chǔ)等需要由現(xiàn)代系統(tǒng)管理的工作。
超級(jí)計(jì)算機(jī)的專用通道
在傳統(tǒng)超級(jí)計(jì)算機(jī)中,運(yùn)行中的計(jì)算任務(wù)有時(shí)不得不暫停等待CPU去處理通信任務(wù),這是業(yè)界熟知的一個(gè)問題,被稱為系統(tǒng)噪聲。
在云原生超級(jí)計(jì)算機(jī)中,計(jì)算和通信是并行處理的。這就像在高速公路上開設(shè)第三條車道一樣,能夠讓所有流量變得更加順暢。
俄亥俄州立大學(xué)MVAPICH實(shí)驗(yàn)室是HPC通信領(lǐng)域的專業(yè)機(jī)構(gòu)。該實(shí)驗(yàn)室的早期測(cè)試顯示,在云原生超級(jí)計(jì)算機(jī)執(zhí)行某些HPC作業(yè)的速度是傳統(tǒng)計(jì)算機(jī)的1.4倍。該實(shí)驗(yàn)室還展示,云原生超級(jí)計(jì)算機(jī)實(shí)現(xiàn)了計(jì)算和通信功能的100%重合,這比現(xiàn)有的HPC系統(tǒng)高出99%。
云原生超級(jí)計(jì)算之專家視角
這就是全球各地陸續(xù)推出云原生超級(jí)計(jì)算的原因。
劍橋大學(xué)高性能計(jì)算總監(jiān)Paul Calleja表示:“我們正在打造歐洲首臺(tái)科研云原生超級(jí)計(jì)算機(jī),以提供裸金屬性能與云原生InfiniBand服務(wù)?!?/p>
“按照2020年11月TOP500榜單,這套系統(tǒng)將躋身前100名。它將使我們的研究人員能夠運(yùn)用超級(jí)計(jì)算架構(gòu)領(lǐng)域的最新成果來充分優(yōu)化他們的應(yīng)用。”
HPC專家正在為云原生超級(jí)計(jì)算機(jī)的進(jìn)一步發(fā)展鋪路。
統(tǒng)一通信框架聯(lián)盟總監(jiān)Steve Poole表示:“由工業(yè)界和學(xué)術(shù)界領(lǐng)先成員組成的UCF聯(lián)盟正在創(chuàng)建實(shí)現(xiàn)未來云原生超級(jí)計(jì)算所需的生產(chǎn)級(jí)通信框架和開放標(biāo)準(zhǔn)?!痹撀?lián)盟成員包括來自Arm、IBM、NVIDIA、美國國家實(shí)驗(yàn)室和多所美國大學(xué)的代表。
俄亥俄州立大學(xué)計(jì)算機(jī)科學(xué)與工程系教授兼網(wǎng)絡(luò)計(jì)算實(shí)驗(yàn)室主任Dhabaleswar K.(DK)Panda表示:“我們的測(cè)試表明,云原生超級(jí)計(jì)算機(jī)的架構(gòu)效率能夠?qū)⒊?jí)計(jì)算機(jī)的HPC性能提升至新的高度,并實(shí)現(xiàn)新的安全功能?!?/p>
網(wǎng)站標(biāo)題:云原生超級(jí)計(jì)算已經(jīng)到來:何為云原生超級(jí)計(jì)算機(jī)?
當(dāng)前URL:http://fisionsoft.com.cn/article/cdighsh.html


咨詢
建站咨詢
