12月5日,亮相以“智能躍進(jìn) 創(chuàng)造無(wú)限”為主題的2024中國(guó)生成式AI大會(huì)(上海站)正式開(kāi)幕。在主會(huì)場(chǎng)首日的中國(guó)大模型峰會(huì)上,RockAI CTO楊華帶來(lái)《非Transformer架構(gòu)大模型Yan在端側(cè)的實(shí)踐》主題演講,主要探討了生成式AI在端側(cè)面臨的挑戰(zhàn),詳解國(guó)內(nèi)首個(gè)非Transformer架構(gòu)大模型Yan的技術(shù)路線及其落地應(yīng)用,同時(shí)分享了大模型從單體智能到群體智能的發(fā)展路徑。
Transformer架構(gòu)雖在大模型領(lǐng)域取得巨大成功,生成式A索端但它表現(xiàn)出的局限性,例如計(jì)算和內(nèi)存消耗大、特征提取能力相對(duì)較弱等,側(cè)智使得人們開(kāi)始思考是否過(guò)度依賴(lài)它,以及現(xiàn)有大模型形態(tài)的可持續(xù)性。
基于以上思考,邊界RockAI從底層原理出發(fā),在架構(gòu)層面做創(chuàng)新,推出了非Transformer架構(gòu)的大模型——Yan架構(gòu)大模型。底層原理主要有兩點(diǎn),亮相一是類(lèi)腦激活機(jī)制,二是MCSD。前者參照人腦神經(jīng)網(wǎng)絡(luò),中國(guó)大幅減少計(jì)算冗余,有效提升計(jì)算效率和精度;后者在訓(xùn)練時(shí)可充分利用GPU并行計(jì)算能力,推理時(shí)也能夠解決內(nèi)存占用逐漸增加的問(wèn)題。
依托算力受限場(chǎng)景下的生成式A索端本地部署運(yùn)行等優(yōu)勢(shì),Yan架構(gòu)大模型在手機(jī)、電腦、側(cè)智機(jī)器人、邊界無(wú)人機(jī)、亮相樹(shù)莓派等端側(cè)設(shè)備上均可部署,中國(guó)且模型具有強(qiáng)大的指令跟隨能力、多應(yīng)用場(chǎng)景。生成式A索端此外,側(cè)智自主學(xué)習(xí)、群體智能也是邊界RockAI在大模型領(lǐng)域的思考和探索。
以下為演講全文(共4355字,約需15分鐘)。
非Transformer架構(gòu)大模型Yan
“非Transformer”對(duì)大多數(shù)人來(lái)說(shuō)可能會(huì)比較陌生。為什么會(huì)陌生?因?yàn)槲覀儸F(xiàn)在身邊所接觸、所使用的模型,基本上都是基于Transformer。
RockAI為什么要做一個(gè)非Transfermer Based的模型,以及我們是怎么做的,當(dāng)前做到什么樣的進(jìn)展?今天我會(huì)圍繞這個(gè)主線和大家做一些分享,同時(shí)也會(huì)分享RockAI在大模型時(shí)代對(duì)技術(shù)路線的一些思考。
兩年前,GPT掀起了這一輪大模型的浪潮?,F(xiàn)在來(lái)看,無(wú)論是自然語(yǔ)言的大模型還是多模態(tài)的大模型,甚至是文生圖、文生視頻的模型,大家能看到曝光率最高的是Transformer,Transformer毫無(wú)疑問(wèn)也取得了很大的成功。
但是在浪潮之后,作為技術(shù)的從業(yè)人員不禁會(huì)思考:當(dāng)前我們是否會(huì)過(guò)度依賴(lài)于Transformer?在Transformer之外還有沒(méi)有其他可能性的進(jìn)展以及技術(shù)上的突破?Transformer作為大模型時(shí)代一個(gè)明星的技術(shù)點(diǎn),它是不是真的不可取代?
另外一個(gè)事實(shí)現(xiàn)象也會(huì)告訴我們:人腦在思考問(wèn)題的時(shí)候,只會(huì)使用到二十瓦的功耗,而我們現(xiàn)在普通人接觸到的一臺(tái)GPU服務(wù)器,它所需要的功耗差不多在兩千瓦。面對(duì)這巨大的功耗懸殊比,我們不禁要問(wèn),當(dāng)前的技術(shù)路線是不是可持續(xù)發(fā)展的?
另外,我們還會(huì)思考一個(gè)問(wèn)題,現(xiàn)有的大模型,它的形態(tài)是什么樣子?更多的是模型廠商基于大量的數(shù)據(jù)、大量的算力做離線訓(xùn)練,然后給到使用者使用,模型并不會(huì)再次進(jìn)化、再次演進(jìn)。這樣的學(xué)習(xí)范式,是不是能夠支撐我們通向AGI?
RockAI也一直在思考這些問(wèn)題,同時(shí),行業(yè)里面也會(huì)有很多的聲音。人工智能的三巨頭在不同的時(shí)間點(diǎn)、不同的場(chǎng)合下,表達(dá)了對(duì)Transformer的一些顧慮跟思考。《Attention is All You Need》論文的原作者,也在今年GDC大會(huì)發(fā)表了一些觀點(diǎn)。
目前的大模型,無(wú)論參數(shù)量是千億還是萬(wàn)億,思考一個(gè)簡(jiǎn)單問(wèn)題還是一個(gè)復(fù)雜問(wèn)題,所有的神經(jīng)元參數(shù)會(huì)被全部激活,并不會(huì)因?yàn)槟硞€(gè)問(wèn)題難,而像人類(lèi)一樣需要思考的時(shí)間更多,輸出更慢。
基于這些思考,RockAI從底層原理出發(fā),在架構(gòu)層面做創(chuàng)新,我們推出了Yan架構(gòu)大模型。
主要有兩個(gè)基本原理,類(lèi)腦激活機(jī)制和MCSD。在這兩塊技術(shù)模塊的加持下,Yan架構(gòu)的設(shè)計(jì)理念秉承三點(diǎn):
一是類(lèi)人的感知,我們認(rèn)為模型跟外界環(huán)境的接觸,不僅僅是文本一種形態(tài),還會(huì)有視覺(jué)形態(tài),也會(huì)有語(yǔ)音形態(tài)。
二是類(lèi)人的交互,如果我們過(guò)度依賴(lài)于云端的模型,隱私的安全、通信的延遲,都有可能成為它的瓶頸。
三是類(lèi)人的學(xué)習(xí),現(xiàn)在的模型部署后,在和物理世界交互的過(guò)程中并不會(huì)獲得二次進(jìn)化的能力。
圖示是Yan架構(gòu)迭代到今天為止所依賴(lài)的技術(shù)模塊。我們以神經(jīng)元選擇激活(類(lèi)腦激活機(jī)制)以及MCSD這兩個(gè)模塊替換了Transformer里面的Attention機(jī)制。
類(lèi)腦激活機(jī)制,參照人腦的神經(jīng)網(wǎng)絡(luò)。人類(lèi)的腦神經(jīng)元,是一個(gè)分層的結(jié)構(gòu),比如說(shuō)我們?cè)诳礀|西的時(shí)候,更多的是視覺(jué)皮層的神經(jīng)元被激活,那思考問(wèn)題的時(shí)候,可能是邏輯神經(jīng)元被激活。我們的大模型在訓(xùn)練、推理時(shí),也符合這樣的特性,在一次前向推理的過(guò)程中,激活神經(jīng)元是有選擇的。
MCSD,設(shè)計(jì)之初,我們希望模型具有可并行訓(xùn)練、可循環(huán)推理的特點(diǎn),在訓(xùn)練的過(guò)程中達(dá)到更少的功耗消耗,在推理的時(shí)候也能達(dá)到一個(gè)O(n)的時(shí)間復(fù)雜度以及常量的空間復(fù)雜度,解決注意力機(jī)制推理時(shí)內(nèi)存占用逐漸增加的問(wèn)題。
今年八月份在部分?jǐn)?shù)據(jù)集上進(jìn)行的測(cè)評(píng),對(duì)比相同參數(shù)量的Transformer架構(gòu)模型,Yan架構(gòu)大模型無(wú)論是訓(xùn)練效率,還是推理吞吐量,都有明顯提升。
值得一提的是,我們的Yan架構(gòu)大模型已經(jīng)通過(guò)了國(guó)家網(wǎng)信辦的備案。
Yan架構(gòu)大模型的端側(cè)多模態(tài)應(yīng)用
基于Yan架構(gòu)的自然語(yǔ)言大模型,我們也開(kāi)啟了多模態(tài)的探索。
模型一旦部署到端側(cè),文本這樣的形態(tài)反而是最不容易會(huì)觸發(fā)的,更多的是語(yǔ)音交互?;谶@樣的思考,我們?cè)O(shè)計(jì)了Yan多模態(tài)大模型。不同于現(xiàn)在很多大模型可能會(huì)做對(duì)視覺(jué)的理解、視覺(jué)圖像的生成,Yan-Omni多模態(tài)大模型聚焦的是對(duì)文本、人聲、圖像、視頻混合模態(tài)的理解,以及文本和音頻的token輸出。
我們核心解決的點(diǎn)包括:
第一個(gè)是Audio Tokenizer,為什么會(huì)有這么一個(gè)模塊?因?yàn)槲覀冃枰獙⑦B續(xù)一個(gè)人的聲音變換成離散化特征表征。我們探索了很多種路徑,包括語(yǔ)音,因?yàn)槿苏f(shuō)話時(shí),除了語(yǔ)義信息之外,還有更多的聲學(xué)特征,比如說(shuō)這個(gè)人的喜怒哀樂(lè),這個(gè)人的性別。我們也會(huì)對(duì)語(yǔ)義token和聲學(xué)token做一個(gè)區(qū)分,并且在離散化特征表征時(shí)對(duì)碼本有所考量,設(shè)計(jì)合適的碼本,同時(shí)盡可能保證碼本的高利用率。
第二個(gè)是Vision Encoder,視覺(jué)模塊,我們也設(shè)計(jì)了一個(gè)中文友好的跨模態(tài)特征對(duì)齊。另外一個(gè)層面我們會(huì)發(fā)現(xiàn),現(xiàn)在多數(shù)視覺(jué)和文本的對(duì)齊模型,可能會(huì)聚焦在全局語(yǔ)義信息的對(duì)齊。但是,如果能做到圖像里的圖像塊和文本里的文本片段更細(xì)粒度的對(duì)齊,這對(duì)多模態(tài)大語(yǔ)言模型的使用性能會(huì)有巨大提升。
同時(shí)我們也會(huì)關(guān)注信息壓縮的高效性。比如說(shuō),在端側(cè)算力受限的場(chǎng)景下,如果一個(gè)視覺(jué)圖像編碼時(shí)的token長(zhǎng)度過(guò)長(zhǎng),勢(shì)必會(huì)影響模型推理的耗時(shí)。
基于這些點(diǎn),我們研發(fā)了Yan-Omni。
圖示中,我們能看到Y(jié)an-Omni當(dāng)前能夠做到的一些模態(tài)的輸入輸出。
首先它作為多模態(tài)大模型,自然而然會(huì)有一個(gè)文本的輸入和輸出的狀態(tài)。
同時(shí)還會(huì)有聲音,比如當(dāng)我說(shuō)話的時(shí)候去問(wèn)模型問(wèn)題,它也會(huì)以語(yǔ)音的方式來(lái)回復(fù)我,也就是第二個(gè)模塊VQA。
在視覺(jué)的問(wèn)答模塊里,當(dāng)用戶(hù)以文本的形式去問(wèn)問(wèn)題,模型會(huì)自動(dòng)選擇以文本的模態(tài)進(jìn)行回復(fù),當(dāng)用戶(hù)以聲音的模態(tài)去問(wèn)的時(shí)候,模型會(huì)自動(dòng)選擇用聲音的模態(tài)進(jìn)行回復(fù),這表現(xiàn)了模型強(qiáng)大的指令跟隨能力。同時(shí)在OCR這個(gè)模塊,它對(duì)一個(gè)長(zhǎng)密集的中文文本也能做到很高準(zhǔn)確率的轉(zhuǎn)錄。
在Ref Grounding目標(biāo)檢測(cè)里,例如自然災(zāi)害、火災(zāi)等,可以應(yīng)用在無(wú)人機(jī)航拍,及時(shí)做到異常場(chǎng)景的發(fā)現(xiàn)。
最后還有ASR跟TTS任務(wù),它能夠很好地處理中英文混用的場(chǎng)景。
通過(guò)Yan-Omni模型在這些任務(wù)上的表現(xiàn),我們可以發(fā)現(xiàn),它能夠做到多模態(tài)的輸入,以及文本跟音頻選擇性模態(tài)的輸出。
基于Yan-Omni,我們?cè)诙鄠€(gè)端側(cè)上進(jìn)行了模型的本地化部署跟推理。最低算力上,Yan架構(gòu)的大模型可以在樹(shù)莓派5的開(kāi)發(fā)板上部署運(yùn)行,推理的token吞吐量能夠達(dá)到7tokens每秒。樹(shù)莓派開(kāi)發(fā)板廣泛應(yīng)用在工業(yè)控制、智能家居、機(jī)器人、平板電腦等載體設(shè)備上。
在中低算力的手機(jī)上,也能部署Yan多模態(tài)大模型,能夠達(dá)到20tokens每秒的輸出。它能當(dāng)作個(gè)人的智能助手,準(zhǔn)確理解用戶(hù)意圖。比如我要給小張發(fā)一條短信,它能從我的通訊錄里找到小張,激活短信應(yīng)用,然后基于要發(fā)的主題進(jìn)行信息生成。
Yan架構(gòu)多模態(tài)大模型,無(wú)論是部署在教育機(jī)器人,還是人形機(jī)器人,都能實(shí)現(xiàn)通用問(wèn)答、動(dòng)作控制、環(huán)境感知。
如果一架無(wú)人機(jī)搭載了多模態(tài)大模型,它可以做哪些事兒?我們?cè)跓o(wú)人機(jī)場(chǎng)景中設(shè)置了四個(gè)巡航點(diǎn),到第一個(gè)巡航點(diǎn)的時(shí)候,它通過(guò)視覺(jué)信息的捕獲,明白當(dāng)前場(chǎng)景“限低10米”,會(huì)將飛行高度提高到10米以上,繼續(xù)飛行。在第二個(gè)巡航點(diǎn),我們?cè)O(shè)定的任務(wù)是垃圾溢出檢測(cè),它能夠準(zhǔn)確識(shí)別到當(dāng)前有垃圾溢出。第三個(gè)巡航點(diǎn),是河對(duì)岸一個(gè)沒(méi)有垃圾溢出的垃圾桶,最后是河面垃圾的檢測(cè),無(wú)人機(jī)都能夠基于視覺(jué)模態(tài)進(jìn)行準(zhǔn)確的識(shí)別。
邁向群體智能
創(chuàng)新,RockAI一直在路上。我們自主研發(fā)的Yan架構(gòu)大模型不僅能夠在端側(cè)部署,更多的是希望讓它具備自主學(xué)習(xí)的能力。RockAI認(rèn)為,智能最本質(zhì)的特征是能夠糾正現(xiàn)存知識(shí)的缺陷和不足,同時(shí)能夠增加新的知識(shí)。
目前無(wú)論是大模型還是小模型,大多數(shù)都是離線訓(xùn)練好再給用戶(hù)使用。用戶(hù)在使用過(guò)程中,模型的知識(shí)并不會(huì)二次變更和進(jìn)化,不會(huì)因?yàn)樗臀业慕佑|時(shí)間長(zhǎng)了就會(huì)更理解我的喜好。
而RockAI想做的是訓(xùn)推同步,將人類(lèi)學(xué)習(xí)進(jìn)化的特點(diǎn)也賦予機(jī)器,這依賴(lài)于Yan架構(gòu)的選擇性神經(jīng)元激活。
當(dāng)部署Yan架構(gòu)大模型的設(shè)備,在和物理世界進(jìn)行交互的過(guò)程中,比如學(xué)習(xí)到“Yan is a non-Transformer architecture large model developed by RockAI.”,基于這樣的輸入,機(jī)器會(huì)選擇激活神經(jīng)元,從信息里面提煉出兩條,一條是“Yan is a non-Transformer architecture”,一條是“Yan is developed by RockAI”。這兩條信息,是模型進(jìn)行自主學(xué)習(xí)的一個(gè)過(guò)程。
有了自主學(xué)習(xí)的能力,大模型會(huì)演變成什么樣?反觀人類(lèi)社會(huì)還有自然界,我們會(huì)發(fā)現(xiàn),無(wú)論是蟻群、蜂群,還是人類(lèi)群體,廣泛存在的是群體智能。這也是RockAI認(rèn)為通往AGI的一條可能的路線。
當(dāng)機(jī)器有了群體智能,每一個(gè)部署Yan多模態(tài)大模型的智能終端,就是一個(gè)具備自主學(xué)習(xí)能力的智能體。當(dāng)智能體和物理世界進(jìn)行交互時(shí),能夠通過(guò)環(huán)境的感知,進(jìn)行自發(fā)地組織與協(xié)作,解決復(fù)雜的問(wèn)題,同時(shí)在外界的環(huán)境中,實(shí)現(xiàn)整體智能的提升,這一點(diǎn)很有必要。為什么?因?yàn)楝F(xiàn)在的大模型,它是依賴(lài)于海量數(shù)據(jù)、大算力,數(shù)據(jù)總有一天會(huì)使用枯竭,而部署了Yan架構(gòu)大模型的終端設(shè)備,可以在與物理世界交互中進(jìn)行二次進(jìn)化,將實(shí)時(shí)獲得的數(shù)據(jù)內(nèi)化到模型里。
RockAI認(rèn)為,實(shí)現(xiàn)群體智能有三個(gè)必要條件:
首先,兼容廣泛的終端,模型需要有強(qiáng)大的適配伸縮性,比如說(shuō)低至樹(shù)莓派這樣的開(kāi)發(fā)板,然后到手機(jī)、AIPC,還是無(wú)人機(jī)這樣搭載Jetson算力的硬件平臺(tái)。只有在更廣泛的端側(cè)設(shè)備上進(jìn)行部署,群體智能才成為一種可能。
其次是人機(jī)交互。我們會(huì)發(fā)現(xiàn),當(dāng)一款產(chǎn)品推向市場(chǎng)的時(shí)候,如果不能做到實(shí)時(shí)性交互,用戶(hù)的耐心其實(shí)并不會(huì)很高。同時(shí)它也一定不是以單一模態(tài)在載體中呈現(xiàn),我們需要的是它能感知視覺(jué),感知聲音,甚至能感知信號(hào)。
最后我們認(rèn)為,實(shí)現(xiàn)群體智能需要有一款具備自主學(xué)習(xí)能力的模型。也就是說(shuō),讓模型從實(shí)驗(yàn)室階段,或者從單純的推理應(yīng)用階段,走向物理世界,在和人、其他硬件進(jìn)行交互的過(guò)程中進(jìn)化、演變。
從Yan架構(gòu)大模型到群體智能的革新之路,是我們RockAI的技術(shù)之路。
最底層,我們希望有兼容廣泛終端設(shè)備的大模型存在,同時(shí)能夠支持很好的人機(jī)交互,每一臺(tái)部署Yan架構(gòu)大模型的設(shè)備具備自主學(xué)習(xí)的能力。在此基礎(chǔ)上,以這樣的模型充當(dāng)每臺(tái)設(shè)備上的一個(gè)通用智能操作系統(tǒng),部署到玩具,還有手機(jī)、機(jī)器人、AR眼鏡、無(wú)人機(jī),以及AIPC等等?;趶V泛的終端應(yīng)用,構(gòu)成群體智能。廣泛的終端,它可以是一個(gè)無(wú)中心節(jié)點(diǎn)的組織形式,也可以是一個(gè)有中心節(jié)點(diǎn)的組織形式。
今年珠海航展,RockAI Yan架構(gòu)大模型,跟隨上海交通大學(xué),在珠海航展亮相,展示了在無(wú)人機(jī)的場(chǎng)景里面,怎么做到讓機(jī)群進(jìn)行一個(gè)任務(wù)的完成。
RockAI是一家技術(shù)創(chuàng)新型的創(chuàng)業(yè)公司,我們的目標(biāo)是邁向群體智能,這個(gè)目標(biāo)分為四個(gè)階段。
第一個(gè)階段是架構(gòu)的重塑,架構(gòu)的重塑意味著我們不再依賴(lài)于Transformer這一套單一的技術(shù)體系。
第二個(gè)階段是單體的推理。非Transformer架構(gòu)的模型能夠在更廣泛的設(shè)備端進(jìn)行推理和部署,不再依賴(lài)于云端的計(jì)算資源,甚至不再依賴(lài)于通信網(wǎng)絡(luò)的存在。
第三個(gè)階段也是目前我們?cè)趯?shí)驗(yàn)室階段的單體智能。要求我們現(xiàn)在的模型往前更進(jìn)一步,在和環(huán)境交互的過(guò)程中形成一個(gè)正反饋系統(tǒng),擁有訓(xùn)推同步、自主性二次進(jìn)化能力。
有了更多的單體智能,我們會(huì)走向第四階段——群體智能。
現(xiàn)階段RockAI已經(jīng)邁過(guò)了第二階段,在第三階段進(jìn)行沉淀。而多數(shù)大模型廠商受限于Transformer架構(gòu)所需的推理算力以及多模態(tài)性能,目前還在端側(cè)設(shè)備上進(jìn)行推理部署的嘗試。
最后謝謝大家!希望國(guó)內(nèi)有更多開(kāi)發(fā)者做出更多創(chuàng)新,也歡迎加入RockAI,和我們一起探索群體智能的技術(shù)路線。