AI大模型浪潮下的GPU互連革命：UALink與ALS引領(lǐng)技術(shù)新紀(jì)元

發(fā)帖時(shí)間：2024-12-29 11:26:36

[探索] 來源：下愚不移網(wǎng)

在LLM熱潮中，大模的我們不僅要關(guān)注GPU本身，型浪還要關(guān)注互連技術(shù)。潮下隨著AI參數(shù)量成倍地增加，互連甚至“上不封頂”地?cái)U(kuò)展，革命如果想要服務(wù)器扛住這樣的領(lǐng)技“巨浪”，就要編織更多的術(shù)新網(wǎng)，形成非常強(qiáng)大的紀(jì)元算力網(wǎng)絡(luò)；如果想要釋放GPU集群的全部潛力，每個(gè)節(jié)點(diǎn)間的大模的通信都要順暢無阻，猶如鋪設(shè)一條條“高速公路”。型浪

從UEC到UALink，潮下取代現(xiàn)有技術(shù)

AI大模型浪潮下的GPU互連革命：UALink與ALS引領(lǐng)技術(shù)新紀(jì)元

GPU領(lǐng)域，互連比較典型的革命兩個(gè)互連技術(shù)是InfiniBand和NVLink/NLSwitch技術(shù)，前者用于服務(wù)器間連接，領(lǐng)技可以形成大型AI算力網(wǎng)絡(luò)，術(shù)新后者可以將GPU和GPU互連，至多讓576個(gè)GPU實(shí)現(xiàn)每秒1.8TB的通信。

毋庸置疑，兩種私有協(xié)議的性能都很強(qiáng)勁，但它們都非常封閉，在一定程度上制約了技術(shù)的持續(xù)演進(jìn)與效能優(yōu)化潛力。目前，行業(yè)更為通用的做法是通過成立聯(lián)盟，制定公開的協(xié)議標(biāo)準(zhǔn)。眾人拾柴火焰高，參與的玩家越多，互連技術(shù)進(jìn)化得就越快，協(xié)議標(biāo)準(zhǔn)也就越趨于統(tǒng)一。

去年7月，AMD、Arista、博通、思科、EVIDEN等公司聯(lián)合成立超以太網(wǎng)聯(lián)盟（Ultra Ethernet Consortium，簡稱UEC），隨后增強(qiáng)型以太網(wǎng)開始取代InfiniBand技術(shù)，迅速成為GPU新的加速節(jié)點(diǎn)。一些公司也因此獲得了豐厚的利潤，例如Arista公司的AI集群互連銷售額顯著增長。

就在10月28日，AMD、AWS、谷歌和思科等九家巨頭宣布正式成立UALink聯(lián)盟（Ultra Accelerator Link Consortium，簡稱UALink聯(lián)盟），主推AI服務(wù)器Scale UP互連協(xié)議——UALink。這一協(xié)議一經(jīng)推出便廣受關(guān)注。UALink是新一代AI/ML集群性能的高速加速器互連技術(shù)，擁有低延遲和高帶寬的特點(diǎn)，具備高性能內(nèi)存語義訪問的原生支持，可以完美適配GPU等AI加速器的編程模型，在一個(gè)超節(jié)點(diǎn)內(nèi)實(shí)現(xiàn)一點(diǎn)規(guī)模的AI計(jì)算節(jié)點(diǎn)互連。除此之外，UALink的優(yōu)勢還包括顯存共享，支持Switch組網(wǎng)模式，以及超高帶寬和超低時(shí)延能力等。

區(qū)別于專注在Scale Out（橫向/水平擴(kuò)展）的UEC，UALink協(xié)議已經(jīng)成為最具潛力的AI服務(wù)器Scale UP（縱向/垂直擴(kuò)展）互連開放標(biāo)準(zhǔn)，正在迅速構(gòu)建起一個(gè)AI服務(wù)器Scale UP互連技術(shù)的超級(jí)開放生態(tài)。

10月28日官網(wǎng)公布的UALink聯(lián)盟9家創(chuàng)始成員單位

UALink如何在中國市場落地

作為一個(gè)互連系統(tǒng)開發(fā)標(biāo)準(zhǔn)，UALink在落地過程中需要覆蓋多個(gè)產(chǎn)業(yè)環(huán)節(jié)，因此成員涵蓋了芯片制造商、交換機(jī)提供商、服務(wù)器提供商等整個(gè)產(chǎn)業(yè)鏈的關(guān)鍵角色。然而，由于AI大模型產(chǎn)業(yè)在國內(nèi)具備本土特色，因此UALink如何在中國市順利場落地，面臨著巨大的挑戰(zhàn)。

為了打造一個(gè)原生支持AI場景的Scale UP開放生態(tài)系統(tǒng)，阿里云在今年9月倡議并牽頭成立了ALS（ALink System，加速器互連系統(tǒng)）開放生態(tài)系統(tǒng)，依托于ODCC（開放數(shù)據(jù)中心委員會(huì)），解決Scale UP互連系統(tǒng)的行業(yè)發(fā)展規(guī)范問題。目前已有20多家AI芯片、互連芯片、服務(wù)器整機(jī)硬件和IP設(shè)計(jì)廠商加入，成員單位已就相關(guān)協(xié)議標(biāo)準(zhǔn)制定和實(shí)行路徑選擇展開交流。

目前，ALS已形成從協(xié)議到芯片、從硬件設(shè)備到軟件平臺(tái)的系統(tǒng)體系，主要包括ALS-D數(shù)據(jù)面和ALS-M管控面兩個(gè)組成部分：ALS-D數(shù)據(jù)面互連采用UALink協(xié)議，具備UALink的一切優(yōu)勢，還增加定義了在網(wǎng)計(jì)算等特性；ALS-M可為不同芯片方案提供標(biāo)準(zhǔn)化接入方案，同時(shí)為云計(jì)算等集群管理場景，提供單租、多租等靈活和彈性的配置能力。

ALink System架構(gòu)示意圖

正因?yàn)槿婕嫒輫H標(biāo)準(zhǔn)UALink生態(tài)，ALS可以與行業(yè)伙伴開放共建超高性能、超大規(guī)模的Scale UP集群互連能力，一級(jí)互連64～80個(gè)節(jié)點(diǎn)，二級(jí)互連可達(dá)千級(jí)節(jié)點(diǎn)，提供PB級(jí)共享顯存和TB級(jí)互連帶寬。

在今年9月底的云棲大會(huì)上，阿里云展示了其面向下一代超大規(guī)模AI集群的磐久AI Infra 2.0服務(wù)器，開放性地定義了AI計(jì)算節(jié)點(diǎn)和Scale UP/Scale Out互連系統(tǒng)，可以在統(tǒng)一硬件架構(gòu)下支持業(yè)界主流AI方案，引領(lǐng)AI領(lǐng)域的“一云多芯”。

2024云棲大會(huì)阿里云磐久AI Infra 2.0服務(wù)器展示區(qū)

磐久AI Infra 2.0服務(wù)器的有六大亮點(diǎn)：一是計(jì)算節(jié)點(diǎn)業(yè)界密度最高，單機(jī)柜支持最大80個(gè)AI計(jì)算節(jié)點(diǎn)；二是計(jì)算節(jié)點(diǎn)集成阿里自研CIPU 3.0芯片，既能幫助實(shí)現(xiàn)Scale Out網(wǎng)絡(luò)擴(kuò)展，又能兼顧云網(wǎng)絡(luò)彈性、安全的要求；三是供電效率高，在業(yè)界率先采用400V PSU，單體供電效率可達(dá)98%，整體供電效率提高2%；四是節(jié)能，機(jī)柜級(jí)液冷方案可根據(jù)實(shí)際負(fù)載動(dòng)態(tài)調(diào)整CDU冷卻能力來降低能耗，單柜冷卻系統(tǒng)節(jié)能30%；五是方便運(yùn)維，全新的CableCartridge后維護(hù)設(shè)計(jì)，支持全盲插，零理線易運(yùn)維、零誤操作，維護(hù)效率提升50%；六是可靠性高，支持彈性節(jié)點(diǎn)、智能路由、高可靠供電、分布式CDU等技術(shù)，可實(shí)時(shí)監(jiān)控、探測各種硬件故障并自愈，硬件故障域也縮減到節(jié)點(diǎn)級(jí)。

除了積極擁抱UALink和牽頭成立ALink System產(chǎn)業(yè)生態(tài)，阿里云也在積極推動(dòng)UALink技術(shù)生態(tài)影響力的建設(shè)，在剛剛過去的2024開放計(jì)算全球峰會(huì)人工智能特別關(guān)注議程（Special Focus Tracks）上，阿里云服務(wù)器研發(fā)資深總監(jiān)文芳志受邀和UALink聯(lián)盟主席Kurtis Bowman聯(lián)合發(fā)表了題為'UALink: Pioneering the AI Accelerator Revolution'的演講，重點(diǎn)闡述了AI服務(wù)器Scale UP互連技術(shù)領(lǐng)域的發(fā)展趨勢，UALink標(biāo)準(zhǔn)的路線圖，UALink聯(lián)盟和ALink System產(chǎn)業(yè)生態(tài)未來的合作潛力，以及阿里云磐久AI Infra 2.0服務(wù)器的落地實(shí)踐思路。

阿里云服務(wù)器研發(fā)資深總監(jiān)文芳志和UALink聯(lián)盟主席Kurtis Bowman聯(lián)合演講

對(duì)AI來說，Scale UP非常重要

都是增強(qiáng)現(xiàn)有系統(tǒng)能力，處理更大規(guī)模能力，為什么要分成Scale-up（向上/垂直擴(kuò)展）和Scale-out（橫向/水平擴(kuò)展）兩張網(wǎng)？

兩張網(wǎng)絡(luò)的目標(biāo)不同，Scale Out是在計(jì)算集群內(nèi)部，利用外置網(wǎng)卡技術(shù)，通過橫向擴(kuò)展機(jī)柜的數(shù)目，實(shí)現(xiàn)到數(shù)萬甚至數(shù)十萬張卡的互連；Scale UP是超節(jié)點(diǎn)內(nèi)部，采用GPU直出技術(shù)，通過十倍于Scale Out的吞吐能力，達(dá)成數(shù)十、數(shù)百的GPU高效協(xié)同。

這兩張網(wǎng)，將業(yè)務(wù)邏輯緊密耦合在一起?？梢哉f，兩張網(wǎng)對(duì)于AI，尤其是AIGC或LLM都相當(dāng)重要。AI基礎(chǔ)設(shè)施的計(jì)算效能要求很高，為了最大化達(dá)成端到端MFU，需要Scale UP和Scale Out都進(jìn)行最大程度的優(yōu)化。由于需要解決的互連問題各不相同，尤其是10倍左右的流程差異，Scale UP需要采用不同于Scale Out的協(xié)議設(shè)計(jì)來將性能發(fā)揮到極致。

在這種極致協(xié)議的實(shí)現(xiàn)落地過程中，需要眾多廠商和生態(tài)共同參與，一個(gè)開放的生態(tài)能夠最大程度地復(fù)用已有技術(shù)和解決方案，將整個(gè)系統(tǒng)的性能、成本、穩(wěn)定性做到最佳。但不難預(yù)見，無論是UALink，還是ALS，將發(fā)揮出協(xié)同開放的優(yōu)勢。

值得關(guān)注的是，UALink的重要技術(shù)基底是Infinity Fabric 協(xié)議，Infinity Fabric是一種成熟的高速互連技術(shù)，它由AMD開發(fā)，在自家的CPU、GPU產(chǎn)品中都有所使用，目前已經(jīng)迭代到第四代，從最初的CPU間互連已經(jīng)可以實(shí)現(xiàn)GPU間互連。在Infinity Fabric技術(shù)的加持下，UALink推進(jìn)的速度也會(huì)很快。

分享到：新浪微博 QQ空間騰訊微博人人網(wǎng) 點(diǎn)點(diǎn)網(wǎng) 復(fù)制網(wǎng)址打印

相關(guān)內(nèi)容

太陽報(bào)：若日尼奧未婚妻深夜找一女子對(duì)峙，想了解她和未婚夫關(guān)系
微信這條救命短信升級(jí)了！
霸王招牌洗發(fā)水官方大促到手僅29元
極越汽車的生死時(shí)刻：正尋求百度支持
曼城2球落后：埃梅里彎腰緊握雙拳，瓜帥轉(zhuǎn)身甩手無奈&眾將士落寞
最近95次利物浦英超主場率先進(jìn)球，最終86勝9平0負(fù)
馬斯克回應(yīng)為何不玩LOL 怕沉迷游戲影響太空計(jì)劃
NBA彩經(jīng)：火箭難勝76人湖人拿下馬刺太陽戰(zhàn)勝籃網(wǎng) 勇士力克雷霆

隨機(jī)閱讀

熱門排行

亚洲嫩模在线观看,日韩视频特黄色大片,乱色中文视频在线,动漫免费观看

AI大模型浪潮下的GPU互連革命：UALink與ALS引領(lǐng)技術(shù)新紀(jì)元