游客發(fā)表
12月17日上午,阿里在中國信息通信研究院主辦的云發(fā)用戶云上2024第五屆“GOLF+IT新治理領(lǐng)導(dǎo)力論壇”主論壇上,阿里云重磅發(fā)布了全棧AI負(fù)載高可用架構(gòu),布全以滿足AI大模型企業(yè)級應(yīng)用在大規(guī)模參數(shù)量、棧A載高復(fù)雜結(jié)構(gòu)和高性能算力背景下,可用對云服務(wù)處理能力可擴展性、共建服務(wù)連續(xù)性、時代服務(wù)質(zhì)量和故障快速恢復(fù)的新治需求。
以為生成式 AI 打造持續(xù)的阿里卓越用戶體驗為目的,阿里云全棧AI負(fù)載高可用架構(gòu)可達到GPU故障預(yù)測準(zhǔn)確率92%,云發(fā)用戶云上千卡規(guī)模集群連續(xù)訓(xùn)練有效時長大于99%,布全秒級模型自動保存、棧A載高分鐘級故障恢復(fù);每分鐘10000個pod擴展,可用分鐘級自動擴容;核心模型服務(wù)99.99%的共建API SLA,模型應(yīng)用服務(wù)全鏈路可觀測等重要的時代AI業(yè)務(wù)高可用目標(biāo),在大規(guī)模數(shù)據(jù)處理和訓(xùn)推場景下,實現(xiàn)了對Gen AI應(yīng)用業(yè)務(wù)連續(xù)性、響應(yīng)速度、穩(wěn)定性和安全性的全面保障。
在論壇上,2025年中國數(shù)字化治理領(lǐng)域最新評估結(jié)果揭曉,阿里云成為首批通過信通院“企業(yè)用云治理能力成熟度評估”評測的兩家企業(yè)之一,同時獲得該項能力評估最高等級。
阿里云全棧AI負(fù)載高可用架構(gòu)正式發(fā)布
在AI算力需求逐漸超越通用需求的今天,以GenAI為代表的應(yīng)用場景和技術(shù)倍增,云上企業(yè)需要處理和存儲的數(shù)據(jù)量呈指數(shù)增長,AI驅(qū)動的應(yīng)用在高負(fù)載情況下,對保障業(yè)務(wù)的連續(xù)性、響應(yīng)速度、穩(wěn)定性和安全性均提出了更高要求。
為此,阿里云在升級云平臺自身的技術(shù)服務(wù)能力的同時,將GPU、異構(gòu)算力集群、容器集群、存儲、向量數(shù)據(jù)庫、機器學(xué)習(xí)平臺等AI負(fù)載高可用全面融入云平臺架構(gòu)設(shè)計,圍繞大模型訓(xùn)練微調(diào)、推理、多模態(tài)數(shù)據(jù)處理等環(huán)節(jié),構(gòu)建具備“高可用模型訓(xùn)練、靈活彈性的推理資源、數(shù)據(jù)高可靠”特性的全棧AI負(fù)載高可用架構(gòu),實現(xiàn)了從通用負(fù)載向AI負(fù)載的可用性演進,為客戶AI業(yè)務(wù)構(gòu)建提供穩(wěn)定的業(yè)務(wù)服務(wù)和出色的用戶體驗。
在高可用模型訓(xùn)練方面,阿里云AI基礎(chǔ)設(shè)施高可用能力融入云服務(wù)整體架構(gòu)設(shè)計,基于AI算法的故障預(yù)測,實現(xiàn)訓(xùn)推環(huán)節(jié)的性能瓶頸分析和潛在故障分析,GPU故障預(yù)測準(zhǔn)確率達92%,同時將異常預(yù)測接入自愈鏈路,訓(xùn)練恢復(fù)自愈率超90%、千卡規(guī)模集群連續(xù)訓(xùn)練有效時長大于99%,實現(xiàn)秒級模型自動保存、分鐘級故障恢復(fù);同時,CPFS 高性能存儲集群,在超大集群中 20TB/s 的吞吐能力,支持更大及更加頻繁的 Checkpoint 讀寫,能夠更好地防止數(shù)據(jù)丟失,并提升訓(xùn)練的穩(wěn)定性和可靠性。在網(wǎng)絡(luò)層面,阿里云自研的高性能網(wǎng)絡(luò),業(yè)界首創(chuàng)雙平面的高可用網(wǎng)絡(luò)架構(gòu),網(wǎng)絡(luò)Link和設(shè)備中斷,訓(xùn)練任務(wù)不中斷。
在推理資源方面,阿里云容器計算服務(wù)ACS的彈性能力實現(xiàn)每分鐘可以進行10000個pod擴展,分鐘級自動擴容;PAI-EAS模型在線服務(wù),適用于實時推理、近實時異步推理等多種AI推理場景,能感知每個請求的執(zhí)行進度,做到更公平的任務(wù)調(diào)度,提高擴縮容效率。同時,阿里云將跨區(qū)域的主動式重路由技術(shù)運用到數(shù)據(jù)中心間的通信,從而在跨數(shù)據(jù)中心推理網(wǎng)絡(luò)上,達到跨域帶寬業(yè)界最高的 99.995% SLA,實現(xiàn)秒級內(nèi)重新路由,提供一個更加穩(wěn)定的網(wǎng)絡(luò)通信延遲。
對于在實時語音交互、實時AI搜索等高性能場景有推理需求的客戶,阿里云百煉模型服務(wù)平臺,基于預(yù)訓(xùn)練模型為用戶提供模型推理與應(yīng)用構(gòu)建托管服務(wù),核心模型服務(wù)API達到 99.99% SLA,高性能場景核心用戶用例中的首包延時小于300毫秒,能夠有效解決應(yīng)用開發(fā)、模型調(diào)用等過程中的跨區(qū)域TPM限制、高并發(fā)需求下API響應(yīng)變慢等問題,提升Gen AI應(yīng)用推理與構(gòu)建時的用戶體驗。
在數(shù)據(jù)高可靠方面,阿里云數(shù)據(jù)存儲與數(shù)據(jù)庫服務(wù)面向不同計算引擎、多種 AI 框架進行了深度集成,形成承載PB級甚至EB級大規(guī)模數(shù)據(jù)統(tǒng)一的存儲底座,同城冗余容災(zāi),高達99.995% SLA,數(shù)據(jù)多副本冗余、大文件斷點續(xù)傳、批量和多線程數(shù)據(jù)操作保障數(shù)據(jù)服務(wù)高可靠,向上支撐面向單AZ, 雙AZ, 三AZ及跨Region的高可用服務(wù),跨Region AI數(shù)據(jù)的就近讀寫和負(fù)載均衡,滿足AI數(shù)據(jù)多活的強一致性,AI數(shù)據(jù)冷備、熱備、故障自動切換,解決AI數(shù)據(jù)故障風(fēng)險。
AI時代與用戶共建云上的IT新治理
AI時代的浪潮中,企業(yè)對于高可用架構(gòu)的需求不僅僅停留在節(jié)點的穩(wěn)定性上,而是在更高的層面追求智能化運營。阿里云全棧AI負(fù)載的高可用架構(gòu)已為企業(yè)奠定了堅實的技術(shù)基礎(chǔ),而進一步的挑戰(zhàn)則在于如何提升云上系統(tǒng)的運維管理與治理能力。通過與用戶攜手,阿里云致力于在云環(huán)境中構(gòu)建一個AI-Native的智能化、自動化和可持續(xù)的IT治理體系,為企業(yè)的創(chuàng)新之路保駕護航。
阿里云根據(jù)多年服務(wù)客戶的經(jīng)驗總結(jié)為一系列的方法論和架構(gòu)設(shè)計原則,推出了阿里云卓越架構(gòu) Well-Architeched Framework,意在幫助企業(yè)在云上構(gòu)建一個安全、穩(wěn)定、高效的應(yīng)用環(huán)境。面向AI技術(shù)融入帶來的更復(fù)雜更大規(guī)模的,根據(jù)云計算的彈性、實時交付、自助化等特點,阿里云卓越架構(gòu)進一步升級了用云企業(yè)運維管理和治理規(guī)則基線的最佳實踐,依靠Well-Architeched云卓越架構(gòu)來學(xué)習(xí)-度量-優(yōu)化,落地治理潛在的風(fēng)險隱患,從安全、穩(wěn)定、效率、成本、性能五大支柱全面提升系統(tǒng)整體韌性和運營效率。
阿里云開放平臺負(fù)責(zé)人何登成表示,“在云上構(gòu)建可靠的系統(tǒng)是云廠商與用戶共同的責(zé)任。云廠商負(fù)責(zé)提供云平臺的可靠性,確保提供的云服務(wù)可用性符合或超過阿里云服務(wù)等級協(xié)議;用戶需要根據(jù)業(yè)務(wù)需求,選擇合適的產(chǎn)品服務(wù),并根據(jù)云相關(guān)文檔的指導(dǎo)搭建高可用架構(gòu),來確保云上應(yīng)用的可靠性。”
尤其在AI迅猛發(fā)展的今天,企業(yè)更應(yīng)讓業(yè)務(wù)系統(tǒng)利用現(xiàn)代云平臺的基礎(chǔ)設(shè)施達到高可用,總結(jié)成三個"面向":面向失敗的設(shè)計架構(gòu),面向精細(xì)的運維管控,面向風(fēng)險的應(yīng)急快恢。同時,用戶可以在建設(shè)持續(xù)穩(wěn)定的云環(huán)境過程中,面向AI并結(jié)合AI,通過良好的AI模型訓(xùn)推架構(gòu)設(shè)計、AI數(shù)據(jù)資產(chǎn)處理與存儲、智能診斷與風(fēng)險預(yù)測等手段,進一步提升系統(tǒng)可用性、可靠性、可持續(xù)性。
阿里云獲信通院企業(yè)用云治理能力成熟度評估最高等級
據(jù)信通院發(fā)布的《企業(yè)用云治理能力成熟度分級要求》,企業(yè)用云治理能力成熟度評估共分為L1-L5共5個等級,分別為L1基礎(chǔ)級、L2應(yīng)用級、L3優(yōu)秀級、L4先進級、L5卓越級。該分級要求不僅適用于對云服務(wù)使用方用云治理能力成熟度進行評估,也適用于對云服務(wù)提供商云服務(wù)治理產(chǎn)品、技術(shù)能力成熟度進行評估。阿里云測評結(jié)果為L4+,是目前階段云服務(wù)提供商實際獲得的最高等級。
此前,阿里云企業(yè)用云治理能力曾兩度獲得信通院評測認(rèn)可,包括2022年“企業(yè)云治理能力成熟度模型”獲信通院科技治理領(lǐng)域年度明星解決方案及產(chǎn)品;2023年“云治理中心”獲信通院科技治理領(lǐng)域年度明星解決方案。
今年,針對企業(yè)用云發(fā)展路徑、企業(yè)云治理發(fā)展趨勢分析與洞察,阿里云聯(lián)合埃森哲發(fā)布《云治理企業(yè)成熟度發(fā)展2024年度報告》,報告調(diào)研取樣來自400多家企業(yè)客戶,橫跨互聯(lián)網(wǎng)、金融、新零售、交通等多個行業(yè),旨在幫助用戶理解云治理概念、企業(yè)用云實踐的現(xiàn)狀及變遷趨勢,并基于云治理框架的五大分類(即穩(wěn)定性、安全合規(guī)、成本效益、高效性能、卓越運營),報告作為企業(yè)云上旅程的實踐樣本,為面向AI時代做好IT新治理和云上架構(gòu)優(yōu)化提供更多的參考與決策依據(jù)。
(完)
隨機閱讀
熱門排行
友情鏈接