必讀視頻專題飛象趣談光通信人工智能低空經(jīng)濟(jì)5G手機(jī)智能汽車智慧城市會(huì)展特約記者

我國大模型成果首次登上《自然》正刊

2026年1月30日 10:30北青網(wǎng)-北京青年報(bào)作 者:雷嘉

近日,北京智源人工智能研究院的多模態(tài)大模型成果“通過預(yù)測下一個(gè)詞元進(jìn)行多模態(tài)學(xué)習(xí)的多模態(tài)大模型”上線國際頂級(jí)學(xué)術(shù)期刊《自然》,預(yù)計(jì)2月12日紙質(zhì)版正式刊發(fā),這是我國科研機(jī)構(gòu)主導(dǎo)的大模型成果首次在《自然》正刊發(fā)表。

2018年以來,GPT采用“預(yù)測下一個(gè)詞元(NTP)”的自回歸路線,實(shí)現(xiàn)了語言大模型重大突破,開啟了生成式人工智能浪潮。而多模態(tài)模型主要依賴對(duì)比學(xué)習(xí)、擴(kuò)散模型等專門路線,自回歸路線是否可以作為通用路線統(tǒng)一多模態(tài)?一直是未解之謎。

智源研究院提出的Emu3模型,基于“預(yù)測下一個(gè)詞元”的全新多模態(tài)模型,將圖像、文本和視頻統(tǒng)一離散化到同一個(gè)表示空間中,并從零開始,在多模態(tài)序列混合數(shù)據(jù)上聯(lián)合訓(xùn)練一個(gè)單一的Transformer。這一架構(gòu)證明了僅憑“預(yù)測下一個(gè)詞元”,就能夠同時(shí)支持高水平的生成能力與理解能力,并且在同一統(tǒng)一架構(gòu)下,自然地?cái)U(kuò)展到機(jī)器人操作以及多模態(tài)交錯(cuò)等生成任務(wù)。

實(shí)驗(yàn)顯示,Emu3在生成與感知任務(wù)上的整體表現(xiàn)可與多種成熟的任務(wù)專用模型相媲美:在文生圖任務(wù)中,其效果達(dá)到擴(kuò)散模型水平;在視覺語言理解方面,可以與融合CLIP和大語言模型的主流方案比肩。此外,Emu3還具備視頻生成能力。不同于以噪聲為起點(diǎn)的擴(kuò)散式視頻生成模型,Emu3通過自回歸方式逐詞元(token)預(yù)測視頻序列,實(shí)現(xiàn)基于因果的視頻生成與延展,展現(xiàn)出對(duì)物理世界中環(huán)境、人類與動(dòng)物行為的初步模擬能力。

這項(xiàng)成果表明,只采用自回歸路線,就可以統(tǒng)一多模態(tài)學(xué)習(xí),訓(xùn)練出優(yōu)秀的原生多模態(tài)大模型,對(duì)于確立自回歸成為生成式人工智能統(tǒng)一路線具有重大意義。值得一提的是,智源研究團(tuán)隊(duì)對(duì)相關(guān)研究的多項(xiàng)關(guān)鍵技術(shù)與模型進(jìn)行了開源,以推動(dòng)該方向的持續(xù)研究。

《自然》編輯點(diǎn)評(píng)這項(xiàng)研究:Emu3僅基于預(yù)測下一個(gè)詞元,實(shí)現(xiàn)了大規(guī)模文本、圖像和視頻的統(tǒng)一學(xué)習(xí),其在生成與感知任務(wù)上的性能可與使用專門路線相當(dāng),這一成果對(duì)構(gòu)建可擴(kuò)展、統(tǒng)一的多模態(tài)智能系統(tǒng)具有重要意義。

編 輯:章芳
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
推薦閱讀

精彩視頻

精彩專題

關(guān)于我們廣告報(bào)價(jià)聯(lián)系我們隱私聲明本站地圖

CCTIME飛象網(wǎng) CopyRight © 2007-2025 By CCTIME.COM

京ICP備08004280號(hào)-1 電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)

公司名稱: 北京飛象互動(dòng)文化傳媒有限公司

未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像