亚洲嫩模在线观看,日韩视频特黄色大片,乱色中文视频在线,动漫免费观看

游客發(fā)表

全球首個(gè)!英偉達(dá)發(fā)布了一把用于“聲音的瑞士軍刀”

發(fā)帖時(shí)間:2024-12-29 12:22:40

11月26日訊,全球英偉達(dá)近日展示了其最新研發(fā)的首個(gè)聲音士軍人工智能模型——Fugatto。

Fugatto是英偉用于一款基于生成式Transformer架構(gòu)的人工智能模型,其完整版配備了25億個(gè)參數(shù),達(dá)發(fā)的瑞刀并在由32個(gè)NVIDIA H100 Tensor Core GPU組成的布把NVIDIA DGX系統(tǒng)上進(jìn)行了訓(xùn)練。

全球首個(gè)!英偉達(dá)發(fā)布了一把用于“聲音的瑞士軍刀”

這款模型的全球主要功能在于能夠修改和生成聲音效果,專為音樂、首個(gè)聲音士軍電影和視頻游戲制作人設(shè)計(jì),英偉用于英偉達(dá)將其形象地稱為“聲音的達(dá)發(fā)的瑞刀瑞士軍刀”。

據(jù)NVIDIA應(yīng)用音頻研究經(jīng)理Rafael Valle透露,布把Fugatto的全球研發(fā)初衷是創(chuàng)建一個(gè)能夠像人類一樣理解和生成聲音的模型。

它支持多種音頻生成和轉(zhuǎn)換任務(wù),首個(gè)聲音士軍是英偉用于首個(gè)展示緊急屬性的基礎(chǔ)生成式AI模型,這得益于其各種訓(xùn)練能力的達(dá)發(fā)的瑞刀交互以及組合自由格式指令的能力。

Fugatto的布把功能十分強(qiáng)大,能夠根據(jù)文本描述生成音效和音樂,例如將鋼琴演奏轉(zhuǎn)換成人聲歌唱,或改變錄音的口音和情緒。

對于音樂制作人而言,F(xiàn)ugatto可以幫助他們快速制作原型或編輯歌曲創(chuàng)意,嘗試不同的風(fēng)格、聲音和樂器,同時(shí)添加效果并提高現(xiàn)有軌道的整體音頻質(zhì)量。

廣告代理商則可以利用Fugatto快速定位多個(gè)地區(qū)或情況的現(xiàn)有廣告活動(dòng),將不同的口音和情感應(yīng)用于畫外音。

視頻游戲開發(fā)人員則可以使用該模型修改游戲中預(yù)先錄制的素材,或根據(jù)文本說明和可選的音頻輸入動(dòng)態(tài)創(chuàng)建新素材。

另外,F(xiàn)ugatto 的新穎性主要體現(xiàn)在以下方面:

首先,在推理過程中,該模型采用了稱為ComposableART的技術(shù),能夠組合在訓(xùn)練期間只能單獨(dú)看到的指令。

例如,通過組合提示,可以要求模型以法國口音說出帶有悲傷情緒的文本。

此外,該模型在指令之間進(jìn)行插值的能力使用戶能夠?qū)ξ谋局噶钸M(jìn)行精細(xì)控制如重音的沉重程度或悲傷的程度。

其次,F(xiàn)ugatto還能夠生成隨時(shí)間變化的聲音,NVIDIA將這一功能稱為時(shí)間插值。

例如,它可以模擬暴雨穿過區(qū)域的聲音,雷聲逐漸增強(qiáng),然后慢慢消失在遠(yuǎn)處。這一功能使用戶能夠精細(xì)地控制音景的演變方式。

最后,與大多數(shù)只能重現(xiàn)所接觸的訓(xùn)練數(shù)據(jù)的模型不同,F(xiàn)ugatto允許用戶創(chuàng)建以前從未見過的音景。

例如,它可以模擬雷雨隨著鳥兒的歌聲緩和為黎明的場景。

總而言之,F(xiàn)ugatto憑借其功能多樣性和創(chuàng)新性,在音頻領(lǐng)域具有廣闊的發(fā)展空間。

    熱門排行

    友情鏈接