①生數(shù)科技在兩個(gè)月內(nèi)有如此提升已經(jīng)是算法和工程能力上的突破,但在同等性能表現(xiàn)下追平Sora的1分鐘時(shí)長(zhǎng),還有較長(zhǎng)的一段路要走。 ②目前,Vidu對(duì)外公布的時(shí)長(zhǎng)上限是16秒,Sora最大時(shí)長(zhǎng)則是1分鐘。
大模型領(lǐng)域最熱話題又重新回到視頻模型上,因?yàn)橐患覄?chuàng)業(yè)公司被認(rèn)為做出了“最強(qiáng)國(guó)產(chǎn)Sora”。
4月27日,在中關(guān)村論壇未來人工智能先鋒論壇上,生數(shù)科技聯(lián)合清華大學(xué)發(fā)布了具有“長(zhǎng)時(shí)長(zhǎng)、高一致性、高動(dòng)態(tài)性”性能標(biāo)簽的視頻大模型Vidu,可根據(jù)文本描述直接生成長(zhǎng)達(dá)16秒、分辨率達(dá)1080P的高清視頻內(nèi)容。
高一致性是團(tuán)隊(duì)著重強(qiáng)調(diào)的特點(diǎn)。清華大學(xué)人工智能研究院副院長(zhǎng)、生數(shù)科技首席科學(xué)家朱軍表示,當(dāng)前國(guó)內(nèi)視頻大模型的生成視頻時(shí)長(zhǎng)大多為4秒左右,Vidu則可實(shí)現(xiàn)一次性生成16秒的視頻時(shí)長(zhǎng)。同時(shí),視頻畫面能保持連貫流暢,隨著鏡頭移動(dòng),人物和場(chǎng)景在時(shí)間、空間中能保持高一致性。
在動(dòng)態(tài)性方面,Vidu的動(dòng)態(tài)鏡頭在推、拉、移之外,開始涉及一段畫面中遠(yuǎn)景、近景、中景、特寫等鏡頭的切換,以及直接生成長(zhǎng)鏡頭、追焦和轉(zhuǎn)場(chǎng)效果。物理規(guī)律方面,朱軍介紹稱,Vidu可以模擬真實(shí)物理世界中細(xì)節(jié)復(fù)雜且符合物理規(guī)律的場(chǎng)景,例如合理的光影效果、細(xì)膩的人物表情等,還可生成具有深度和復(fù)雜性的超現(xiàn)實(shí)主義內(nèi)容(例如“戴珍珠耳環(huán)的貓”)。
在生數(shù)科技放出的視頻物料中,的確有不少用戶反饋認(rèn)可其時(shí)間與空間上的一致性表現(xiàn),而這是視頻模型在長(zhǎng)時(shí)長(zhǎng)內(nèi)容生成上需要克服的關(guān)鍵問題。
一致性表現(xiàn)不能獨(dú)立于視頻時(shí)長(zhǎng)以外單獨(dú)討論。目前,Vidu對(duì)外公布的時(shí)長(zhǎng)上限是16秒,Sora最大時(shí)長(zhǎng)則是1分鐘。今年2月Sora推出后,生數(shù)科技內(nèi)部成立了攻堅(jiān)小組,加快原本視頻方向的研發(fā)進(jìn)度。3月,內(nèi)部實(shí)現(xiàn)8秒的視頻生成,并在4月提升到16秒生成,但團(tuán)隊(duì)沒有公布更多技術(shù)突破的細(xì)節(jié)。
從已有信息來看,技術(shù)路線上,Vidu采用的是自研U-ViT架構(gòu),與Sora一樣是Diffusion和Transformer的融合架構(gòu)。這種架構(gòu)不采用插幀的多步驟處理方式來生成視頻,而是通過單一步驟“端到端”直接生成內(nèi)容,從文本到視頻的轉(zhuǎn)換是直接、連續(xù)的。
這意味著,Vidu同樣繞不開模型訓(xùn)練的Scaling Law(規(guī)模法則),需要不斷堆積更大參數(shù)和更多算力。
算力限制之外,一名有多模態(tài)大模型訓(xùn)練經(jīng)驗(yàn)的創(chuàng)業(yè)者對(duì)界面新聞?dòng)浾弑硎?,生成?shù)據(jù)的差距是國(guó)內(nèi)視頻大模型與Sora之間的重要差別。視頻大模型需要大量的數(shù)據(jù)收集,其路線是一個(gè)逐漸細(xì)化和確定的過程。從實(shí)現(xiàn)上來講,這是一個(gè)確定性事件,但需要一定時(shí)間。
因此,盡管生數(shù)科技在兩個(gè)月內(nèi)有如此提升已經(jīng)是算法和工程能力上的突破,但在同等性能表現(xiàn)下追平Sora的1分鐘時(shí)長(zhǎng),真正做到全面對(duì)標(biāo)Sora,必然還有較長(zhǎng)的一段路要走——至少不是“兩倍于兩個(gè)月”這樣簡(jiǎn)單的線性估算。
“16秒跟1分鐘,看起來大概差四倍,但中間的誤差累計(jì)到后面可能不只是四倍的算力或者工程能力能彌補(bǔ)的?!币幻竽P皖I(lǐng)域投資人對(duì)界面新聞?dòng)浾弑硎尽?/p>
他同時(shí)指出,其實(shí)Vidu和Sora一樣,目前釋放的素材并不足夠多,從其發(fā)布的物料來看一致性表現(xiàn)的確不錯(cuò),但還是很難做出更準(zhǔn)確的判斷。
在這一視角下,Vidu與Sora可直接比較的維度或許更多在于以鏡頭語(yǔ)言為代表的動(dòng)態(tài)性,以及對(duì)物理世界規(guī)律的理解與模擬能力等方面。而長(zhǎng)時(shí)長(zhǎng)與一致性構(gòu)成的核心性能,還需要等待后續(xù)版本迭代做進(jìn)一步比較。