亚洲嫩模在线观看,日韩视频特黄色大片,乱色中文视频在线,动漫免费观看

游客發(fā)表

AI大模型浪潮下的GPU互連革命:UALink與ALS引領(lǐng)技術(shù)新紀(jì)元

發(fā)帖時(shí)間:2024-12-29 11:26:36

在LLM熱潮中,大模的我們不僅要關(guān)注GPU本身,型浪還要關(guān)注互連技術(shù)。潮下隨著AI參數(shù)量成倍地增加,互連甚至“上不封頂”地?cái)U(kuò)展,革命如果想要服務(wù)器扛住這樣的領(lǐng)技“巨浪”,就要編織更多的術(shù)新網(wǎng),形成非常強(qiáng)大的紀(jì)元算力網(wǎng)絡(luò);如果想要釋放GPU集群的全部潛力,每個(gè)節(jié)點(diǎn)間的大模的通信都要順暢無阻,猶如鋪設(shè)一條條“高速公路”。型浪

從UEC到UALink,潮下取代現(xiàn)有技術(shù)

AI大模型浪潮下的GPU互連革命:UALink與ALS引領(lǐng)技術(shù)新紀(jì)元

GPU領(lǐng)域,互連比較典型的革命兩個(gè)互連技術(shù)是InfiniBand和NVLink/NLSwitch技術(shù),前者用于服務(wù)器間連接,領(lǐng)技可以形成大型AI算力網(wǎng)絡(luò),術(shù)新后者可以將GPU和GPU互連,至多讓576個(gè)GPU實(shí)現(xiàn)每秒1.8TB的通信。

毋庸置疑,兩種私有協(xié)議的性能都很強(qiáng)勁,但它們都非常封閉,在一定程度上制約了技術(shù)的持續(xù)演進(jìn)與效能優(yōu)化潛力。目前,行業(yè)更為通用的做法是通過成立聯(lián)盟,制定公開的協(xié)議標(biāo)準(zhǔn)。眾人拾柴火焰高,參與的玩家越多,互連技術(shù)進(jìn)化得就越快,協(xié)議標(biāo)準(zhǔn)也就越趨于統(tǒng)一。

去年7月,AMD、Arista、博通、思科、EVIDEN等公司聯(lián)合成立超以太網(wǎng)聯(lián)盟(Ultra Ethernet Consortium,簡稱UEC),隨后增強(qiáng)型以太網(wǎng)開始取代InfiniBand技術(shù),迅速成為GPU新的加速節(jié)點(diǎn)。一些公司也因此獲得了豐厚的利潤,例如Arista公司的AI集群互連銷售額顯著增長。

就在10月28日,AMD、AWS、谷歌和思科等九家巨頭宣布正式成立UALink聯(lián)盟(Ultra Accelerator Link Consortium,簡稱UALink聯(lián)盟),主推AI服務(wù)器Scale UP互連協(xié)議——UALink。這一協(xié)議一經(jīng)推出便廣受關(guān)注。UALink是新一代AI/ML集群性能的高速加速器互連技術(shù),擁有低延遲和高帶寬的特點(diǎn),具備高性能內(nèi)存語義訪問的原生支持,可以完美適配GPU等AI加速器的編程模型,在一個(gè)超節(jié)點(diǎn)內(nèi)實(shí)現(xiàn)一點(diǎn)規(guī)模的AI計(jì)算節(jié)點(diǎn)互連。除此之外,UALink的優(yōu)勢還包括顯存共享,支持Switch組網(wǎng)模式,以及超高帶寬和超低時(shí)延能力等。

區(qū)別于專注在Scale Out(橫向/水平擴(kuò)展)的UEC,UALink協(xié)議已經(jīng)成為最具潛力的AI服務(wù)器Scale UP(縱向/垂直擴(kuò)展)互連開放標(biāo)準(zhǔn),正在迅速構(gòu)建起一個(gè)AI服務(wù)器Scale UP互連技術(shù)的超級(jí)開放生態(tài)。


10月28日官網(wǎng)公布的UALink聯(lián)盟9家創(chuàng)始成員單位

UALink如何在中國市場落地

作為一個(gè)互連系統(tǒng)開發(fā)標(biāo)準(zhǔn),UALink在落地過程中需要覆蓋多個(gè)產(chǎn)業(yè)環(huán)節(jié),因此成員涵蓋了芯片制造商、交換機(jī)提供商、服務(wù)器提供商等整個(gè)產(chǎn)業(yè)鏈的關(guān)鍵角色。然而,由于AI大模型產(chǎn)業(yè)在國內(nèi)具備本土特色,因此UALink如何在中國市順利場落地,面臨著巨大的挑戰(zhàn)。

為了打造一個(gè)原生支持AI場景的Scale UP開放生態(tài)系統(tǒng),阿里云在今年9月倡議并牽頭成立了ALS(ALink System,加速器互連系統(tǒng))開放生態(tài)系統(tǒng),依托于ODCC(開放數(shù)據(jù)中心委員會(huì)),解決Scale UP互連系統(tǒng)的行業(yè)發(fā)展規(guī)范問題。目前已有20多家AI芯片、互連芯片、服務(wù)器整機(jī)硬件和IP設(shè)計(jì)廠商加入,成員單位已就相關(guān)協(xié)議標(biāo)準(zhǔn)制定和實(shí)行路徑選擇展開交流。

目前,ALS已形成從協(xié)議到芯片、從硬件設(shè)備到軟件平臺(tái)的系統(tǒng)體系,主要包括ALS-D數(shù)據(jù)面和ALS-M管控面兩個(gè)組成部分:ALS-D數(shù)據(jù)面互連采用UALink協(xié)議,具備UALink的一切優(yōu)勢,還增加定義了在網(wǎng)計(jì)算等特性;ALS-M可為不同芯片方案提供標(biāo)準(zhǔn)化接入方案,同時(shí)為云計(jì)算等集群管理場景,提供單租、多租等靈活和彈性的配置能力。


ALink System架構(gòu)示意圖

正因?yàn)槿婕嫒輫H標(biāo)準(zhǔn)UALink生態(tài),ALS可以與行業(yè)伙伴開放共建超高性能、超大規(guī)模的Scale UP集群互連能力,一級(jí)互連64~80個(gè)節(jié)點(diǎn),二級(jí)互連可達(dá)千級(jí)節(jié)點(diǎn),提供PB級(jí)共享顯存和TB級(jí)互連帶寬。

在今年9月底的云棲大會(huì)上,阿里云展示了其面向下一代超大規(guī)模AI集群的磐久AI Infra 2.0服務(wù)器,開放性地定義了AI計(jì)算節(jié)點(diǎn)和Scale UP/Scale Out互連系統(tǒng),可以在統(tǒng)一硬件架構(gòu)下支持業(yè)界主流AI方案,引領(lǐng)AI領(lǐng)域的“一云多芯”。


2024云棲大會(huì)阿里云磐久AI Infra 2.0服務(wù)器展示區(qū)

磐久AI Infra 2.0服務(wù)器的有六大亮點(diǎn):一是計(jì)算節(jié)點(diǎn)業(yè)界密度最高,單機(jī)柜支持最大80個(gè)AI計(jì)算節(jié)點(diǎn);二是計(jì)算節(jié)點(diǎn)集成阿里自研CIPU 3.0芯片,既能幫助實(shí)現(xiàn)Scale Out網(wǎng)絡(luò)擴(kuò)展,又能兼顧云網(wǎng)絡(luò)彈性、安全的要求;三是供電效率高,在業(yè)界率先采用400V PSU,單體供電效率可達(dá)98%,整體供電效率提高2%;四是節(jié)能,機(jī)柜級(jí)液冷方案可根據(jù)實(shí)際負(fù)載動(dòng)態(tài)調(diào)整CDU冷卻能力來降低能耗,單柜冷卻系統(tǒng)節(jié)能30%;五是方便運(yùn)維,全新的CableCartridge后維護(hù)設(shè)計(jì),支持全盲插,零理線易運(yùn)維、零誤操作,維護(hù)效率提升50%;六是可靠性高,支持彈性節(jié)點(diǎn)、智能路由、高可靠供電、分布式CDU等技術(shù),可實(shí)時(shí)監(jiān)控、探測各種硬件故障并自愈,硬件故障域也縮減到節(jié)點(diǎn)級(jí)。

除了積極擁抱UALink和牽頭成立ALink System產(chǎn)業(yè)生態(tài),阿里云也在積極推動(dòng)UALink技術(shù)生態(tài)影響力的建設(shè),在剛剛過去的2024開放計(jì)算全球峰會(huì)人工智能特別關(guān)注議程(Special Focus Tracks)上,阿里云服務(wù)器研發(fā)資深總監(jiān)文芳志受邀和UALink聯(lián)盟主席Kurtis Bowman聯(lián)合發(fā)表了題為'UALink: Pioneering the AI Accelerator Revolution'的演講,重點(diǎn)闡述了AI服務(wù)器Scale UP互連技術(shù)領(lǐng)域的發(fā)展趨勢,UALink標(biāo)準(zhǔn)的路線圖,UALink聯(lián)盟和ALink System產(chǎn)業(yè)生態(tài)未來的合作潛力,以及阿里云磐久AI Infra 2.0服務(wù)器的落地實(shí)踐思路。


阿里云服務(wù)器研發(fā)資深總監(jiān)文芳志和UALink聯(lián)盟主席Kurtis Bowman聯(lián)合演講

對(duì)AI來說,Scale UP非常重要

都是增強(qiáng)現(xiàn)有系統(tǒng)能力,處理更大規(guī)模能力,為什么要分成Scale-up(向上/垂直擴(kuò)展)和Scale-out(橫向/水平擴(kuò)展)兩張網(wǎng)?

兩張網(wǎng)絡(luò)的目標(biāo)不同,Scale Out是在計(jì)算集群內(nèi)部,利用外置網(wǎng)卡技術(shù),通過橫向擴(kuò)展機(jī)柜的數(shù)目,實(shí)現(xiàn)到數(shù)萬甚至數(shù)十萬張卡的互連;Scale UP是超節(jié)點(diǎn)內(nèi)部,采用GPU直出技術(shù),通過十倍于Scale Out的吞吐能力,達(dá)成數(shù)十、數(shù)百的GPU高效協(xié)同。

這兩張網(wǎng),將業(yè)務(wù)邏輯緊密耦合在一起??梢哉f,兩張網(wǎng)對(duì)于AI,尤其是AIGC或LLM都相當(dāng)重要。AI基礎(chǔ)設(shè)施的計(jì)算效能要求很高,為了最大化達(dá)成端到端MFU,需要Scale UP和Scale Out都進(jìn)行最大程度的優(yōu)化。由于需要解決的互連問題各不相同,尤其是10倍左右的流程差異,Scale UP需要采用不同于Scale Out的協(xié)議設(shè)計(jì)來將性能發(fā)揮到極致。

在這種極致協(xié)議的實(shí)現(xiàn)落地過程中,需要眾多廠商和生態(tài)共同參與,一個(gè)開放的生態(tài)能夠最大程度地復(fù)用已有技術(shù)和解決方案,將整個(gè)系統(tǒng)的性能、成本、穩(wěn)定性做到最佳。但不難預(yù)見,無論是UALink,還是ALS,將發(fā)揮出協(xié)同開放的優(yōu)勢。

值得關(guān)注的是,UALink的重要技術(shù)基底是Infinity Fabric 協(xié)議,Infinity Fabric是一種成熟的高速互連技術(shù),它由AMD開發(fā),在自家的CPU、GPU產(chǎn)品中都有所使用,目前已經(jīng)迭代到第四代,從最初的CPU間互連已經(jīng)可以實(shí)現(xiàn)GPU間互連。在Infinity Fabric技術(shù)的加持下,UALink推進(jìn)的速度也會(huì)很快。

 

    熱門排行

    友情鏈接