再放大招!NVIDIA聯(lián)手微軟助力AI應(yīng)用開發(fā)
在今年的再放助力 Microsoft Ignite 大會上,NVIDIA 與微軟聯(lián)合推出多個工具,大招幫助 Windows 開發(fā)者在 RTX AI PC 上快速構(gòu)建和優(yōu)化 AI 賦能的聯(lián)手應(yīng)用,使本地 AI 更加便捷。微軟這些新工具使應(yīng)用和游戲開發(fā)者能夠利用強(qiáng)大的應(yīng)用 RTX GPU 加速 AI 智能體、應(yīng)用助手和數(shù)字人等應(yīng)用的再放助力復(fù)雜 AI 工作流。
Microsoft Ignite是大招由Microsoft主辦的面向IT決策者、IT 專業(yè)人員、聯(lián)手企業(yè)開發(fā)人員的微軟頂級技術(shù)大會。今年的應(yīng)用大會地址選在了芝加哥,不僅有微軟的再放助力大咖介紹最新的技術(shù),同時也會聯(lián)合合作伙伴,大招對最新的聯(lián)手技術(shù)路線、概念方向進(jìn)行吹風(fēng)。微軟
而在今年的應(yīng)用 Microsoft Ignite 大會上,NVIDIA 與微軟聯(lián)合推出了多個工具,旨在幫助 Windows 開發(fā)者在 RTX AI PC 上快速構(gòu)建和優(yōu)化 AI 應(yīng)用,使本地 AI 更加便捷。這些新工具使應(yīng)用和游戲開發(fā)者能夠利用強(qiáng)大的 RTX GPU 加速 AI 智能體、應(yīng)用助手和數(shù)字人等應(yīng)用的復(fù)雜 AI 工作流。
RTX AI PC 通過多模態(tài)小語言模型為數(shù)字人賦能
NVIDIA ACE 是一套數(shù)字人技術(shù),可以讓智能體、助手和虛擬形象栩栩如生。為了深度理解信息,以更強(qiáng)的情境感知能力做出響應(yīng),數(shù)字人必須能夠像人一樣在視覺上感知世界。
NVIDIA 在 SIGGRAPH 2024 中曾向外界介紹了交互式數(shù)字人 James。James 將 NVIDIA NIM 微服務(wù)、NVIDIA ACE 和 ElevenLabs 數(shù)字人技術(shù)相結(jié)合,可提供自然的沉浸式交互體驗(yàn)。
提升數(shù)字人交互的真實(shí)感,需要能夠感知和理解周圍環(huán)境更細(xì)微差別的技術(shù)。為此,NVIDIA 開發(fā)了多模態(tài)小語言模型,可同時處理文本和圖像信息,在角色扮演方面表現(xiàn)出色,并針對響應(yīng)速度進(jìn)行了優(yōu)化。
NVIDIA 即將推出的 Nemovision-4B-Instruct 模型利用最新的 NVIDIA VILA 和 NVIDIA NeMo 框架進(jìn)行蒸餾、剪枝和量化,使其體積小到足以在 RTX GPU 上以開發(fā)者所需的精度運(yùn)行。該模型使數(shù)字人能夠理解現(xiàn)實(shí)世界和屏幕上的視覺圖像,以做出相關(guān)的響應(yīng)。多模態(tài)作為智能體工作流的基礎(chǔ),讓我們得以窺見未來,屆時數(shù)字人只需極少的用戶輔助,即可進(jìn)行推理并采取行動。
NVIDIA 還推出了 Mistral NeMo Minitron 128k Instruct 系列模型,這是一套專為優(yōu)化的高效數(shù)字人交互而設(shè)計的長上下文小語言模型。這一系列模型提供 8B、4B 和 2B 參數(shù)版本的靈活選項(xiàng),以平衡在 RTX AI PC 上運(yùn)行的速度、顯存用量和模型精度。模型單次推理可以處理大量數(shù)據(jù),無需進(jìn)行數(shù)據(jù)分割和重組。這些模型提供 GGUF 格式,為低功耗設(shè)備的效率進(jìn)行優(yōu)化,并與多種編程語言兼容。
利用面向 Windows 的 NVIDIA TensorRT Model Optimizer 加速生成式 AI
將模型引入 PC 環(huán)境時,開發(fā)者面臨著有限的顯存和計算資源,這為本地運(yùn)行 AI 提出了挑戰(zhàn)。開發(fā)者希望模型可以被更多人使用,同時精度損失最小。
Microsoft Ignite 大會上,NVIDIA 公布了 NVIDIA TensorRT Model Optimizer (ModelOpt) 的更新,為 Windows 開發(fā)者提供了針對 ONNX Runtime 部署的模型優(yōu)化方案。借助最新更新,TensorRT ModelOpt 可將模型優(yōu)化為 ONNX 格式,以便使用 CUDA、TensorRT 和 DirectML 等 GPU 運(yùn)行后端在 ONNX 運(yùn)行時環(huán)境中部署模型。
最新更新使模型可優(yōu)化為 ONNX 檢查點(diǎn),以便通過 CUDA、TensorRT 和 DirectML 等執(zhí)行提供商在 ONNX 運(yùn)行時環(huán)境中部署模型,從而提高整個 PC 生態(tài)系統(tǒng)的精度和吞吐量。在部署時,與 FP16 模型相比,這些模型可將顯存占用減少 2.6 倍。這可提高吞吐量,同時精度損失降到最低,使其能夠在更多的 PC 上運(yùn)行。
RTX AI PC 賦能 AI 應(yīng)用開發(fā)者
生成式 AI 賦能的 PC 正在推動游戲、內(nèi)容創(chuàng)作、生產(chǎn)力和程序開發(fā)更進(jìn)一步。目前,超過 600 款 Windows 應(yīng)用和游戲已在全球超過 1 億臺 GeForce RTX AI PC 上本地運(yùn)行 AI,提供快速、可靠的低延遲體驗(yàn)。
眾所周知,GeForce 顯卡除了能加速游戲圖形運(yùn)算,還能助力 AI 應(yīng)用開發(fā)者以更高的效率進(jìn)行開發(fā)。歷經(jīng)多年經(jīng)營的 CUDA 生態(tài)圈,營造了高效的 AI 應(yīng)用開發(fā)環(huán)境。全球眾多開發(fā)者選擇 RTX AI PC 作為開發(fā)平臺,直接推動了 AI 應(yīng)用的快速發(fā)展。
索泰(ZOTAC)作為 NVIDIA 全球核心合作伙伴,17年來專注 GeForce RTX 系列顯卡研發(fā),為廣大游戲愛好者、專業(yè)開發(fā)者及創(chuàng)意工作者提供了強(qiáng)大的 RTX AI 加速體驗(yàn)。
尤其是搭載 Ada Lovelace 架構(gòu) GPU 的索泰 GeForce RTX 40 系顯卡,受到了全球眾多專業(yè)開發(fā)者的青睞。RTX 40 系顯卡核心內(nèi)嵌第四代 Tensor Core,擁有強(qiáng)大的 AI 運(yùn)算能力,賦能專門針對 CUDA 架構(gòu)優(yōu)化的高性能計算和并行任務(wù)。
攜手你的索泰 RTX 顯卡,感受“稱心又稱手”的 AI 應(yīng)用開發(fā)體驗(yàn),盡情暢想“萬物AI”的未來。