①據(jù)介紹,Emu3證明了下一個token預(yù)測能在多模態(tài)任務(wù)中有高性能的表現(xiàn); ②目前,多模態(tài)生成模型的發(fā)展相對滯后,該領(lǐng)域未來的發(fā)展?jié)摿^大。
《科創(chuàng)板日報》10月22日訊(記者 李明明)日前,人工智能領(lǐng)域的新型研發(fā)機構(gòu)智源研究院正式發(fā)布原生多模態(tài)世界模型Emu3。據(jù)介紹,該模型實現(xiàn)了視頻、圖像、文本三種模態(tài)的統(tǒng)一理解與生成。
當(dāng)前,行業(yè)現(xiàn)有的多模態(tài)大模型多為對于不同任務(wù)而訓(xùn)練的專用模型,比如Stable Diffusion之于文生圖,Sora之于文生視頻,GPT-4V之于圖生文。但是現(xiàn)有模型的能力多為單一分散的能力組合,而不是原生的統(tǒng)一能力,比如目前Sora還做不到圖像和視頻的理解。
而下一token預(yù)測被認(rèn)為是通往AGI的可能路徑,但這種范式在語言以外的多模態(tài)任務(wù)中沒有被證明。
智源研究院院長王仲遠(yuǎn)告訴《科創(chuàng)板日報》記者,“Emu3證明了下一個token預(yù)測能在多模態(tài)任務(wù)中有高性能的表現(xiàn),這為構(gòu)建多模態(tài)AGI提供了廣闊的技術(shù)前景。Emu3有機會將基礎(chǔ)設(shè)施建設(shè)收斂到一條技術(shù)路線上,為大規(guī)模的多模態(tài)訓(xùn)練和推理提供基礎(chǔ),這一簡單的架構(gòu)設(shè)計將利于產(chǎn)業(yè)化。同時,該訓(xùn)練技術(shù)能夠以較大程度復(fù)用現(xiàn)有的大模型訓(xùn)練基礎(chǔ)設(shè)施,降低了對新基礎(chǔ)設(shè)施的需求,從而加速多模態(tài)大模型的迭代和最終落地。未來,多模態(tài)世界模型將促進(jìn)機器人大腦、自動駕駛、多模態(tài)對話和推理等場景應(yīng)用。而多模態(tài)大模型通過統(tǒng)一表示空間實現(xiàn)了跨模態(tài)的統(tǒng)一訓(xùn)練和生成,展現(xiàn)巨大潛力?!?/p>
一位大模型領(lǐng)域?qū)<乙矊Α犊苿?chuàng)板日報》記者分析,當(dāng)前,視覺的理解模型和生成模型各自分開獨立發(fā)展,這也是多模態(tài)領(lǐng)域面臨的問題,也會造成生成模型的生成能力強而理解能力弱,或者理解模型的理解能力強而生成能力弱。因此,多模態(tài)大模型亟需將理解和生成統(tǒng)一在一個模型里。目前,多模態(tài)生成模型的發(fā)展相對滯后,該領(lǐng)域未來的發(fā)展?jié)摿^大。
(圖注:Emu3圖片理解案例)
具體就Emu3如何實現(xiàn)圖像、視頻和文字的統(tǒng)一輸入和輸出,王仲遠(yuǎn)總結(jié)道,團(tuán)隊構(gòu)建了一個統(tǒng)一的Tokenizer系統(tǒng),將文本、圖像、視頻等各種模態(tài)信息映射到一個離散空間,并通過auto Regressive的方式進(jìn)行統(tǒng)一訓(xùn)練和生成。這相當(dāng)于為文字、圖像、視頻發(fā)明了一種統(tǒng)一的“新語言”,可以在同一空間中表達(dá)。
王仲遠(yuǎn)表示,“Emu3 會為未來多模態(tài)基座模型的發(fā)展指明一個方向,是下一代的多模態(tài)大模型的訓(xùn)練范式。對于這樣的技術(shù)路線,需要各界共同努力,才能加速多模態(tài)基座模型的發(fā)展。期待在產(chǎn)業(yè)轉(zhuǎn)化過程中,Emu3能夠像悟道系列,與各大模型公司、互聯(lián)網(wǎng)企業(yè)等合作,共同推進(jìn)技術(shù)的應(yīng)用。”