游客發(fā)表
在白天,失意上燒Danny是職場一位白領(lǐng),朝八晚五。人迷他大學(xué)畢業(yè)后,短視就進了老家南昌的失意上燒一家公司,一待就是職場七八年,如今30歲出頭,人迷住在公司大樓內(nèi)的短視出租屋,是失意上燒一位勤勤懇懇的UI設(shè)計師。
當(dāng)夜晚降臨,職場Danny回到獨居的人迷小屋,成為自己的短視造夢師——用AI把自己各種神奇的夢境變成短片。他是失意上燒藝術(shù)生,高中時一直夢想去4A廣告公司做創(chuàng)意片,職場但工作后從事的人迷是沒有那么熱愛的UI設(shè)計師,在業(yè)余時間做電商產(chǎn)品創(chuàng)意帶貨短視頻,來靠近職業(yè)夢想。
今年7月,看到一場AI短片的創(chuàng)作大賽通知后,Danny決定all in AIGC,“你不需要高昂的拍攝設(shè)備,不需要場地,不需要演員,甚至不需要配音,都可以用AI實現(xiàn)很多天馬行空的創(chuàng)意。”
Danny本來打算年底離開南昌,去上海北京求職,但是AI讓他看到機會:“不用離開自己的城市,也可以創(chuàng)作。”
自此,Danny每天晚上回到獨居的小房間,熬夜到凌晨兩三點,用可靈AI做短片。幾秒鐘的鏡頭,從Midjourney生圖片再到可靈AI生視頻,常常要抽卡十幾、二十多次,直到滿意。
他以西游記的白骨精為題材,做了兩集AI短劇,為了調(diào)試不同鏡頭中白骨精的發(fā)型、頭冠、衣服的統(tǒng)一性,每張圖片都要重繪幾十次,甚至上百次,“非常大的工作量,快做崩潰了。”
AI生成一組圖片/視頻的過程中,每個圖片/視頻的效果都不同,有些會變形扭曲,或者動作、表情和預(yù)期的不一致。創(chuàng)作者們只有不斷調(diào)整提示詞,生成多次,在一組圖片/視頻中挑選效果合適的,這個過程被稱為“抽卡”。
為了制作白骨精的短片,Danny抽卡一共花了五六千元。Danny對畫面細節(jié)要求高,花費也比其他創(chuàng)作者高,別人可能抽卡幾遍,但他要幾十遍,找到最滿意的版本。他用自己的工資來支撐制作費用,“賭的成分很大,如果流量不好,就相當(dāng)于打水漂了。”
《白骨精前傳》截圖。圖片來源:受訪者提供
后來Danny用名為“怪物集”的賬號,發(fā)布了《白骨精前傳》短片,最后在快手和抖音的播放量一共近2000萬,他在快手可靈的AI短劇大賽中獲得一等獎,拿到了5萬元獎金,“我終于被大家看到了。”Danny說。
AI視頻作為內(nèi)容形態(tài)的“新物種”,來勢洶洶。各家大模型廠商和互聯(lián)網(wǎng)大廠紛紛發(fā)力AI視頻生成。
今年8月,昆侖萬維昆侖萬維推出AI短劇平臺SkyReels。9月,字節(jié)跳動發(fā)布了豆包視頻生成-PixelDance、豆包視頻生成-Seaweed兩款大模型。到了11月,騰訊混元也開始內(nèi)測視頻生成模型,又在12月把視頻模型開源。
快手在9月上線了可靈大模型的1.5版本,根據(jù)快手2024 Q3財報,可靈AI的月活躍用戶在9月超過了150萬。
如何燒錢,又如何省錢
談起AI視頻的制作,創(chuàng)作者們紛紛感嘆燒錢,但燒錢也要沖,因為長遠收益大,AI視頻是他們的人生“第二增長曲線”和“第二春”。AI視頻創(chuàng)作者們,大多是副業(yè)做AI,主業(yè)分布在各行各業(yè),如設(shè)計師、游戲工程師、廣告、電影導(dǎo)演、VR從業(yè)者等等。
對UI設(shè)計師Danny來說,AI圓了他的廣告創(chuàng)意的夢。
對主業(yè)從事VR的葛老板來說,AI是事業(yè)的轉(zhuǎn)機。今年40歲的葛老板在十年前從一家視頻網(wǎng)站辭職,后來與人搭伙做VR公司,做了十年,經(jīng)歷了VR行業(yè)的潮漲潮落,“還在苦苦支撐”,又在當(dāng)下發(fā)力AI視頻。
“AI的生意比VR好落地很多。”相比于VR內(nèi)容需要Apple Vision Pro、XR眼鏡等硬件終端作為載體,AI視頻在手機上就可以大范圍傳播。
葛老板的AI動畫短劇《胡相公》獲得快手可靈AI短劇大賽的最佳創(chuàng)意獎,獎金兩萬。他的AI視頻作品也給他帶來了一些影視劇制作和AI文旅宣傳片的商單。
AI視頻的燒錢,都圍繞一個核心:在AI生成的不確定內(nèi)容中,為了保持人物角色的一致性和故事連貫,要不斷抽卡。
可靈在10月底開始內(nèi)測人臉模型,用戶上傳一些關(guān)于同一人物的動作/表情視頻,每段視頻10-15s左右,就能訓(xùn)練出這個人物的數(shù)字人,之后就可以生成這個數(shù)字人在不同角度、不同景別的視頻,而不會發(fā)生人物的形變。
生成這樣一個人物模型,需要2000點數(shù)左右(給超級創(chuàng)作者打完折后需要1000點數(shù),約合人民幣100元),每次從人物模型生成一段視頻,需要消耗35點數(shù)左右(約合人民幣3元多)。
AI視頻創(chuàng)作者葛老板在使用可靈的人臉模型后發(fā)現(xiàn):“如果是簡單的表情,比如微笑,用眼神看你一眼,是可以的。大笑、哭泣以及過于細膩的表情演繹,就會比較吃力,表情容易不自然,可能要多次抽卡才能效果滿意。”
Danny表示,目前業(yè)內(nèi)常用的Lora訓(xùn)練模型,可以大致解決人臉長相上的一致性,但對于更多細節(jié)例如發(fā)型、發(fā)飾、妝容、服裝造型等,還無法完美還原。例如,Danny的《白骨精前傳》中,白骨精頭頂上銀色金屬的發(fā)冠,用AI生成圖片后常常形態(tài)、大小不一致,“幾乎每張圖片都需要進行幾十次甚至上百次的局部重繪。”
《白骨精前傳》AI短劇截圖,創(chuàng)作者Danny幾乎每張圖片都要幾十次上百次重繪。圖片來源:受訪者提供
“一段5秒鐘的片段,常常要抽十幾二十次,花一兩百塊錢。要做兩分鐘的視頻,就很費錢。我會執(zhí)著一些細節(jié),花費比別人高一些。”Danny 表示當(dāng)時做白骨精短片花了五六千塊,都用自己工資支撐。
雖然抽卡很燒錢,但是國產(chǎn)視頻模型相比于國外模型,已經(jīng)把價格打下來很多。
對于非會員,國產(chǎn)視頻模型如可靈、即夢給用戶每天贈送登錄積分,有一定的免費生成視頻的額度。
在基礎(chǔ)包月會員價條件下,用提示詞文生視頻,生成一個5秒片段,Runway需要約1美元,Pika需要約0.25美元,即夢需要約0.4美元(約3元人民幣),而可靈只要約0.1美元(約0.9元人民幣)。在卷價格方面,可靈AI已經(jīng)走在前面。
雖然AI視頻要抽卡燒錢,但相比于傳統(tǒng)影視制作,AI視頻的性價比到底如何?
對于傳統(tǒng)電影行業(yè)出身的青年導(dǎo)演朱智立來說,AI影像相比于電影實拍,已經(jīng)大大降本。
朱智立的AI短片《新桃花源記》入選了“工業(yè)強國·工業(yè)與科幻影像展”,講述了一位宇航員為地球?qū)ふ倚录覉@的故事,影片海報的畫面是一位宇航員走向桃花繽紛的山洞,原圖是用文生圖模型Midjourney制作的,片中鏡頭是再用AI工具圖轉(zhuǎn)視頻。“(如果是電影實拍),要呈現(xiàn)這樣質(zhì)感的洞,還要有桃花,肯定要制景。還需要特別大功率的燈,以及一個非常好的燈光指導(dǎo),才能打出這種有層次的光效。如果實景找不到這樣的洞,就需要綠幕加特效或虛擬拍攝,成本比AI生成要高得多。”
朱智立的AI短片《新桃花源記》 海報,用AI工具做出堪比電影實拍的效果。圖片來源:受訪者提供
影片結(jié)尾使用的音樂是用音樂生成模型Suno制作,朱智立最開始以為AI音樂會非常機械,沒想到AI生成的配樂展現(xiàn)出非常復(fù)雜的情感,“有一段是十分糾結(jié)的旋律,完全能夠體現(xiàn)出這個人物最后離開桃花星時,居民告訴他‘不足為外人道也’,但他又想把這個地方公之于眾的復(fù)雜心理狀態(tài)。”
令朱智立驚訝的是,AI不僅能很精微地表達出他的創(chuàng)意,還會自己產(chǎn)生新的創(chuàng)意,“AI還會自己加戲。”比如,他用圖生視頻生成一個鏡頭,表現(xiàn)有一群外星居民圍住宇航員,宇航員跟外星居民講自己是從地球來的。結(jié)果AI不僅生成了這個畫面,還充當(dāng)了半個導(dǎo)演,加了戲——有個外星居民竟然自己拿出手機拍宇航員,然后宇航員講完后還跟外星居民里的一個小朋友擊掌,這些都是意料之外的。“AI很聰明,會幫你加一些創(chuàng)意,至于適不適合,你可以自己選擇。”
AI短片《新桃花源記》中的鏡頭,AI視頻模型自己“加戲”。圖片來源:受訪者提供
狂奔的技術(shù),如何影響敘事
AI視頻生成模型們,在技術(shù)迭代的路上,一路狂奔。
針對人物一致性的痛點,各家紛紛出招:
10月底,可靈1.5版本開始內(nèi)測人臉模型。
11月,生數(shù)科技Vidu 1.5推出了多主體一致性功能,依靠通用模型能力的提升,而非業(yè)界常用的LoRA 微調(diào)方案,宣稱用三張圖就能實現(xiàn)主體在不同場景下的一致性。
Runway也在10月底上線了Act-One功能,在從真人表情遷移到AI人物表情時,原始圖像的外觀特征得以保留,表情變化不會讓人臉形變。
不斷迭代的技術(shù),也在影響創(chuàng)作者們的敘事方式。
每個創(chuàng)作者都有自己保持人物一致性的方法。一個討巧的方法是,從一開始的角色形象設(shè)計上,就避開細節(jié)復(fù)雜的形象,而選擇形狀簡潔的角色形象。例如Sora在一個demo片段中展現(xiàn)的氣球人,頭頂一個氣球,即使發(fā)生些許形變,觀眾也不大看得出來。因此,朱智立在短片《桃花源記》中選擇了身穿宇航服、頭戴面罩的人物形象。
葛老板的AI短劇《胡相公》采用動畫形象。圖片來源:受訪者提供
動畫也是保持人物一致性的捷徑。人類天然地對人臉更敏銳、更容易挑刺,而動畫形象即使發(fā)生些許形變,觀眾的容忍度也更高。2024北京國際電影節(jié)AIGC短片單元中,最佳影片《致親愛的自己》、最佳美術(shù)設(shè)計《達芬奇計劃:新文藝復(fù)興》以及近半的優(yōu)秀獎短片如《AI升職記》《老鼠嫁女》等等都采用動畫角色。
在故事題材選擇上,一種方法是選擇大眾熟悉的故事原型加以改編,這樣即使AI短片本身的敘事不足,觀眾能夠自行腦補劇情。葛老板的AI短劇《胡相公》獲得了可靈AI短劇創(chuàng)作大賽的最佳創(chuàng)意獎,講述了狐貍與書生的愛情故事,全程沒有解說詞,“觀眾一看到狐貍和書生,腦海里面自然會有一個畫面,很多東西(劇情)就不用介紹……盡量寫100 字以內(nèi)就能講明白的故事,如果講一個300字以上的故事,用AI表現(xiàn)就難了。”
葛老板的AI短劇《胡相公》選擇了狐貍與書生的故事原型。圖片來源:受訪者提供
這種方法是不用解說詞,另一種相反的方式是——完全依賴解說詞來敘事,這在AI短片中也非常常見,例如朱智立的短片《新桃花源記》中采用古文《桃花源記》的改寫版作為全片的旁白,Runway獲獎影片《My Mom》全片以口述信件作為旁白。
“故事依賴解說詞”的現(xiàn)象,背后原因是節(jié)約成本,因為AI視頻還hold不住長鏡頭復(fù)雜敘事。要推動劇情和人物,就需要大量有效的分鏡頭,而不是一些MV式空鏡過場畫面。
如果不依賴旁白與解說詞,而靠人物對話,首先要解決的是配音。AI視頻創(chuàng)作者葛老板表示,“找一個好的配音演員其實很花時間,在短時間內(nèi)做到是很難的”。其次,即使找到好的配音演員,如何把配音與AI角色的嘴型同步,也是個難題。
針對這種問題,視頻模型的技術(shù)也在飛快進化。今年10月,可靈新增“對口型”功能,生成人物的口型與上傳配音同步。
AI角色對嘴型的問題,對于Danny也是一個難點。在制作《白骨精前傳》時,Danny找了全球十幾個專門給角色對嘴型的網(wǎng)站,效果都不太好。此外,為了給AI角色配音,Danny也嘗試了全球十幾個AI語音合成的網(wǎng)站,發(fā)現(xiàn)AI配音仍然比不上真人說話的質(zhì)感,就去找真人配音。為了在短時間內(nèi)低成本完成比賽作品,他在抖音上找1萬-10萬粉絲量的配音博主,花幾百塊錢完成了2分鐘AI短片的配音。
但AI技術(shù)不斷狂奔,誰也說不上AI語音何時會超過真人配音的質(zhì)感。Danny近期在用AI語音合成軟件“Dubbing X”,該軟件在發(fā)布的全AI生成臺詞演繹的《十二公民》中,角色臺詞的音色、情緒都展現(xiàn)出復(fù)雜層次。
最近視頻模型廠商們開始卷的“多主體一致性”功能,也給AI短片的敘事帶來突破。
生數(shù)科技在11月推出Vidu 1.5版本,主打多主體一致性功能,可以讓人物在環(huán)境中大幅度移動,而不出現(xiàn)人物和環(huán)境的形變。
目前,多主體一致性的功能效果還有局限。葛老板在嘗試使用時,“比如我把一個人放到臥室背景的床上,再讓他抱著一只公仔小熊,他的臉會有點變化,抱熊的姿勢會很怪,但是整體上畫面可用。”
但這相比于之前,已經(jīng)給敘事帶來很大自由度。在此之前,葛老板很難制作有兩個主體同時在運動的畫面,如果想讓兩個角色同時出現(xiàn)在畫面中且有運動,就需要把兩個角色各自摳像,先各自生成視頻,再放到背景上。
可以預(yù)見,飛奔猛進的視頻模型,會讓AI視頻的敘事自由度繼續(xù)提升。
隨機閱讀
熱門排行
友情鏈接