當(dāng)前位置：首頁(yè) > 焦點(diǎn) > AI史上最大靈魂拷問(wèn)：10萬(wàn)卡集群該咋管

AI史上最大靈魂拷問(wèn)：10萬(wàn)卡集群該咋管

發(fā)表于 2024-12-29 00:35:38 來(lái)源：下愚不移網(wǎng)

11月6日，史上在百度智能云技術(shù)沙龍期間，靈魂百度杰出系統(tǒng)架構(gòu)師、拷問(wèn)百度智能云AI計(jì)算部負(fù)責(zé)人王雁鵬表示，集群全球科技巨頭正在積極打造10萬(wàn)卡集群，該咋管沖刺AGI；而國(guó)內(nèi)構(gòu)建10萬(wàn)卡集群則面臨著三大難題：跨地域部署、史上多芯混訓(xùn)以及集群穩(wěn)定性。靈魂這些難題包括技術(shù)和工程上的拷問(wèn)多重挑戰(zhàn)。王雁鵬介紹，集群經(jīng)過(guò)多年的該咋管技術(shù)積累和產(chǎn)業(yè)實(shí)踐，百舸4.0已能夠?qū)崿F(xiàn)10萬(wàn)卡集群的史上高效管理，并通過(guò)HPN高性能網(wǎng)絡(luò)、靈魂自動(dòng)化混訓(xùn)切分策略、拷問(wèn)自研集合通信庫(kù)等一系列產(chǎn)品技術(shù)創(chuàng)新，集群解決了上述難題。該咋管

百度杰出系統(tǒng)架構(gòu)師王雁鵬

為什么需要10萬(wàn)卡集群？

大模型競(jìng)賽本質(zhì)是算力競(jìng)賽

自O(shè)penAI發(fā)布Chatgpt兩年來(lái)，大模型產(chǎn)業(yè)發(fā)展的腳步似乎慢了。然而大洋彼岸，xAI、Meta、OpenAI等眾多科技巨頭都在積極布局10萬(wàn)卡乃至更大規(guī)模的智算集群。

當(dāng)?shù)貢r(shí)間 7 月 22 日，馬斯克宣布位于美國(guó)田納西州孟菲斯市的孟菲斯超級(jí)集群開(kāi)始投入訓(xùn)練。該集群配備了 10 萬(wàn)個(gè)英偉達(dá) H100 GPU，被稱為 “世界上最強(qiáng)大的 AI 訓(xùn)練集群”。兩個(gè)月后，馬斯克在 X 平臺(tái)上宣布該集群名為 “Colossus（巨人）”，將在未來(lái)幾個(gè)月內(nèi)再增加 10 萬(wàn)顆 GPU，其中 5 萬(wàn)顆將是更為先進(jìn)的英偉達(dá) H200。 Grok 3 大模型正在超算中心中進(jìn)行訓(xùn)練，訓(xùn)練預(yù)計(jì)在三到四個(gè)月內(nèi)完成，目標(biāo)是在今年 12 月發(fā)布 Grok 3。

另一家科技巨頭Meta也不示弱。Meta首席執(zhí)行官馬克·扎克伯格在第三季度財(cái)報(bào)電話會(huì)議上透露，Llama 4模型正在一個(gè)由10萬(wàn)片H100 GPU組成的集群上進(jìn)行訓(xùn)練，并預(yù)計(jì)在明年首次推出。為了支持大模型，Meta預(yù)計(jì)本年度資本支出將高達(dá)400億美元，比去年增加了超過(guò)42%。扎克伯格在財(cái)報(bào)電話會(huì)議中強(qiáng)調(diào)，明年將進(jìn)一步加大對(duì)AI基礎(chǔ)設(shè)施的投資。

而大模型領(lǐng)頭羊OpenAI與微軟的“黃金搭檔”卻因?yàn)橛?jì)算集群的交付進(jìn)度產(chǎn)生了分歧。此前微軟與 OpenAI 合作共建一個(gè)代號(hào)為 “星際之門” 的巨型數(shù)據(jù)中心項(xiàng)目。這個(gè)項(xiàng)目預(yù)計(jì)成本超過(guò) 1150 億美元，旨在容納一臺(tái)面向 AI 的配備數(shù)百萬(wàn)塊 GPU 的超級(jí)計(jì)算機(jī)。據(jù)報(bào)道，微軟計(jì)劃到明年年底向 OpenAI 提供約 30 萬(wàn)個(gè)英偉達(dá)最新的 GB200 圖形處理器。然而面對(duì)步步緊逼的對(duì)手，阿爾特曼似乎對(duì)微軟的速度不滿意。完成66億美元融資后，OpenAI開(kāi)始尋求更加獨(dú)立的數(shù)據(jù)中心和云服務(wù)方式并與甲骨文達(dá)成了協(xié)議，將在德克薩斯州的一個(gè)新數(shù)據(jù)中心租用服務(wù)器。該數(shù)據(jù)中心被譽(yù)為世界上最大的數(shù)據(jù)中心之一，未來(lái)可能容納數(shù)十萬(wàn)個(gè)英偉達(dá) AI 芯片。

王雁鵬表示，從美國(guó)科技企業(yè)的瘋狂布局10萬(wàn)卡可以看得出，Scaling Law定律目前看仍然有效。公開(kāi)數(shù)據(jù)顯示，GPT-3的訓(xùn)練數(shù)據(jù)集包含3000億個(gè)token。而GPT-4的訓(xùn)練數(shù)據(jù)集包含約13萬(wàn)億個(gè)token。模型的持續(xù)升級(jí)，意味著數(shù)據(jù)量的指數(shù)級(jí)增長(zhǎng)。而訓(xùn)練數(shù)據(jù)量的升級(jí)對(duì)計(jì)算集群也提出了挑戰(zhàn)。10萬(wàn)卡的訓(xùn)練集群正是為了滿足模型參數(shù)增長(zhǎng)所帶來(lái)的高算力需求。

10萬(wàn)卡集群難在哪？

跨地域部署、多芯混訓(xùn)、集群穩(wěn)定性是最大挑戰(zhàn)

10萬(wàn)卡雖好，但部署如此大規(guī)模的算力集群會(huì)面臨很大挑戰(zhàn)。

例如，美國(guó)老舊的電網(wǎng)就無(wú)法跟上大模型的步伐。由于集群耗電量巨大，美國(guó)的眾多數(shù)據(jù)中心都遭遇了電網(wǎng)崩潰。一位微軟工程師曾表示，為GPT-6搭建10萬(wàn)個(gè)H100訓(xùn)練集群時(shí)，整個(gè)電網(wǎng)發(fā)生了崩潰。據(jù)估算，一個(gè)10萬(wàn)卡集群每天的耗電量達(dá)到300萬(wàn)度，相當(dāng)于北京市東城區(qū)一天的居民用電量。此外，10萬(wàn)卡集群需要大約 10 萬(wàn)平方米，相當(dāng)于 14 個(gè)標(biāo)準(zhǔn)足球場(chǎng)的面積。如果想在單一建筑中部署這么大的集群，將面臨選址困難和法規(guī)限制等挑戰(zhàn)。

出于上述原因，美國(guó)科技公司的超大集群大多選擇跨地域部署。為了突破單一數(shù)據(jù)中心的規(guī)模限制，谷歌和微軟已著手將大規(guī)模模型訓(xùn)練擴(kuò)展至多個(gè)數(shù)據(jù)中心園區(qū)。其中，谷歌的Gemini 1 Ultra模型已率先實(shí)現(xiàn)多數(shù)據(jù)中心訓(xùn)練。微軟計(jì)劃將其在鳳凰城的AI訓(xùn)練基地?cái)U(kuò)展至10座建筑，自建24個(gè)數(shù)據(jù)中心，在多個(gè)超大規(guī)模園區(qū)互聯(lián)，實(shí)施覆蓋全美的大規(guī)模分布式訓(xùn)練。

王雁鵬介紹，由于電網(wǎng)配電限制、占地空間大等原因，十萬(wàn)卡集群需要跨樓、跨園區(qū)，甚至跨城部署。而這種跨地域部署勢(shì)必會(huì)增加網(wǎng)絡(luò)通信的復(fù)雜性?？绲赜蛲ㄐ判枰鉀Q長(zhǎng)距離通信延遲、擁塞控制等技術(shù)問(wèn)題。

國(guó)內(nèi)企業(yè)構(gòu)建10萬(wàn)卡集群還面臨著一個(gè)現(xiàn)實(shí)的困難：芯片。國(guó)內(nèi)企業(yè)面臨算力供應(yīng)不穩(wěn)定的挑戰(zhàn)，較難構(gòu)建單一大規(guī)模訓(xùn)練集群?，F(xiàn)實(shí)情況是，企業(yè)內(nèi)部會(huì)出現(xiàn)同一廠商不同代際芯片，或者不同廠商芯片共存的情況。這些芯片如何進(jìn)行混部訓(xùn)練，同時(shí)保證混部訓(xùn)練的效率也是難題。

此外，隨著芯片集成度的不斷提高，芯片的故障率也會(huì)相應(yīng)上升，英偉達(dá)H系列芯片的故障率比A系列高3-4倍。并且算力集群規(guī)模越大，其故障率就越高。按照H系列芯片的故障率水平，十萬(wàn)卡集群每20分鐘就會(huì)出現(xiàn)故障。較高的故障率對(duì)穩(wěn)定性訓(xùn)練保障提出了更高的要求。

如何破局？

如何解決跨地域部署、多芯混訓(xùn)、集群穩(wěn)定性是國(guó)內(nèi)10萬(wàn)卡部署的三大難題？王雁鵬介紹，以百度為代表的廠商正在破解這些難題。

在跨地域方面，針對(duì)由于傳輸距離變長(zhǎng)所產(chǎn)生的高延遲，百舸4.0已經(jīng)構(gòu)建了十萬(wàn)卡級(jí)別的超大規(guī)模HPN高性能網(wǎng)絡(luò)，通過(guò)提供更高效的拓?fù)浣Y(jié)構(gòu)、更優(yōu)的多路徑負(fù)載均衡策略及通信策略，能夠?qū)崿F(xiàn)幾十公里的跨地域通信。同時(shí)，在通信效率上，通過(guò)優(yōu)化的擁塞控制算法、集合通信算法策略，將帶寬有效率提升至95%，實(shí)現(xiàn)了完全無(wú)阻塞。最后，通過(guò)10ms級(jí)別超高精度網(wǎng)絡(luò)監(jiān)控，保障了網(wǎng)絡(luò)穩(wěn)定性。

在多芯混訓(xùn)方面，百舸能夠?qū)⒉煌攸c(diǎn)、不同規(guī)模的異構(gòu)算力進(jìn)行統(tǒng)一管理，構(gòu)建起多芯資源池。當(dāng)業(yè)務(wù)提交工作負(fù)載時(shí)，可自動(dòng)進(jìn)行芯片選型，依據(jù)集群剩余的芯片資源，選擇性價(jià)比最高的芯片來(lái)運(yùn)行任務(wù)，從而最大化地利用集群的剩余資源。最終，可實(shí)現(xiàn)高達(dá)95%的萬(wàn)卡多芯混合訓(xùn)練效能。

在集群穩(wěn)定性方面，百舸提供全面的故障診斷手段，可以快速自動(dòng)偵測(cè)到導(dǎo)致訓(xùn)練任務(wù)異常的節(jié)點(diǎn)故障。同時(shí)，百度自研的BCCL（百度集合通信庫(kù)），能夠快速定位故障同時(shí)提供自動(dòng)化的容錯(cuò)能力，重新調(diào)度任務(wù)到健康節(jié)點(diǎn)，繼續(xù)完成訓(xùn)練，目前已經(jīng)將故障恢復(fù)時(shí)間從小時(shí)級(jí)降低到分鐘級(jí)。

王雁鵬表示，公有云是企業(yè)進(jìn)行大模型訓(xùn)練的主流方式。在10萬(wàn)卡集群出現(xiàn)之前，為滿足企業(yè)大模型的訓(xùn)練需求，云廠商常常采用服務(wù)一個(gè)企業(yè)，搭建一個(gè)集群的方式。然而，這種方式存在明顯劣勢(shì)，即每個(gè)集群都是為特定企業(yè)服務(wù)，在企業(yè)的訓(xùn)練任務(wù)不處于高峰期時(shí)，集群中的計(jì)算資源可能會(huì)處于閑置狀態(tài)，造成資源的浪費(fèi)。而當(dāng)10萬(wàn)卡集群出現(xiàn)后，云廠商就可以依靠這個(gè)大型集群為眾多企業(yè)提供服務(wù)，根據(jù)不同企業(yè)的需求動(dòng)態(tài)分配計(jì)算資源，這樣不僅提高了資源利用率，也降低了企業(yè)使用云服務(wù)的成本，極大地增強(qiáng)了云廠商在市場(chǎng)中的競(jìng)爭(zhēng)優(yōu)勢(shì)。

“通過(guò)跨地域部署、多芯混訓(xùn)等技術(shù)，云廠商可以有效降低運(yùn)營(yíng)及算力成本，從而為企業(yè)客戶帶來(lái)更加實(shí)惠的云服務(wù)。”王雁鵬說(shuō)。

喜歡98 討厭30

隨機(jī)為您推薦

熱門文章

圖片報(bào)：多特高層閉眼支持沙欣球隊(duì)實(shí)力和心態(tài)受質(zhì)疑&缺領(lǐng)袖球員
紫光展銳力推5G融云云終端開(kāi)啟新時(shí)代
[流言板]本賽季限制對(duì)手命中率排行：多爾特第一，凱斯勒詹姆斯二三
卡普空提前開(kāi)啟冬促《洛克人》兩作新史低
[流言板]花海后援會(huì)發(fā)文：有人把比賽當(dāng)摸魚(yú)，有人把戰(zhàn)隊(duì)當(dāng)墊腳石！
你看好誰(shuí)？歐洲金靴排行：萊萬(wàn)15球領(lǐng)跑，凱恩14球，薩拉赫13球
含金量十足！利物浦17場(chǎng)不敗：3
普渡機(jī)器人發(fā)布首款全人形機(jī)器人PUDU D9
萬(wàn)億“寧王” 官宣赴港二次上市
阿森納英超對(duì)陣Big6球隊(duì)連續(xù)16場(chǎng)不敗，而曼聯(lián)連續(xù)10場(chǎng)不勝

文章排行

亚洲嫩模在线观看,日韩视频特黄色大片,乱色中文视频在线,动漫免费观看

AI史上最大靈魂拷問(wèn)：10萬(wàn)卡集群該咋管