每日微信報
人物專訪監(jiān)管
制造芯片
6G 運營
大數(shù)據(jù)物聯(lián)網(wǎng)
移動互聯(lián)網(wǎng)量子
云計算互聯(lián)網(wǎng)
報告衛(wèi)星

阿里、字節(jié)同日上新，圖像大模型激戰(zhàn)“春節(jié)檔”

2026年2月14日 08:37第一財經(jīng)

AI應(yīng)用掀起春節(jié)大戰(zhàn)的同時，基礎(chǔ)大模型也在加速上架“春節(jié)檔”。

2月10日，阿里云發(fā)布新一代圖像生成基礎(chǔ)模型Qwen-Image-2.0，而千問的新一代基座模型Qwen3.5也已經(jīng)在路上。同一天，字節(jié)跳動旗下剪映宣布上線新一代圖像生成模型——Seedream 5.0預(yù)覽版，距離上一代模型（Seedream 4.5）發(fā)布僅兩個多月。

臨近春節(jié)，圖像生成大模型發(fā)布按下加速鍵，事實上，伴隨著AIGC落地加速，在圖像生成領(lǐng)域，誰能從“生成好看的圖” 率先轉(zhuǎn)向 “高效解決實際問題”，正在成為模型競爭的關(guān)鍵。

Qwen-Image-2.0對陣Seedream 5.0

盡管同日發(fā)布，兩款模型在技術(shù)路徑和生成效果上有著一定的差異。

具體來看，字節(jié)跳動文生圖模型主要升級點為首次支持檢索生圖，對提示詞的理解準(zhǔn)確性增強(qiáng)、支持更細(xì)節(jié)、精細(xì)紋理的圖像生成，允許用戶精確調(diào)整圖像。而阿里的Qwen-Image-2.0則是Qwen-Image項目自2025年5月啟動后，首次將生圖和編輯兩條支線迭代的模型能力統(tǒng)一整合到單一模型架構(gòu)中，提升了中文漢字渲染方面能力，并輸入提示詞擴(kuò)展到1K token，優(yōu)化了對超長文字和復(fù)雜指令的渲染。

第一財經(jīng)記者分別對Qwen-Image-2.0和Seedream 5.0進(jìn)行了同題測試，以相同的提示詞分別請Qwen-Image-2.0和Seedream 5.0生成了《清晨霧中的瑞士阿爾卑斯山》和《無厘頭美食番<三國演義>》兩張圖片，Qwen-Image-2.0和Seedream 5.0分別作答如下：

從生成效果來看，兩大模型在生成圖片的清晰度和細(xì)致度上都有了較大的提升，對于薄霧的層次、水中倒影、兵器造型的餐具等都能夠準(zhǔn)確理解和生成，總體上，Qwen-Image-2.0的畫風(fēng)更偏寫實，而Seedream 5.0則更具美感。但在具體指令的理解準(zhǔn)確度上，模型仍存在一定的偏差，例如Seedream 5.0對兵器造型的餐具理解停留在西餐而非火鍋餐具，而Qwen-Image-2.0對關(guān)羽的“紅臉”的體現(xiàn)不足。

公平起見，記者將兩道測試分別給了豆包和kimi評判“誰更符合原提示詞的需求？”，發(fā)現(xiàn)豆包和kimi做出了同樣的判斷。在《清晨霧中的瑞士阿爾卑斯山》中，它們選擇了Qwen-Image-2.0勝出，在《無厘頭美食番<三國演義>》中選擇Seedream 5.0勝出。

kimi認(rèn)為，阿爾卑斯山場景（寫實風(fēng)景）中，Qwen-Image-2.0的細(xì)節(jié)精度拉滿、紋理清晰，而Seedream 5.0更重氛圍感營造，朦朧詩意，偏印象派，但偏“油畫感”，細(xì)節(jié)被柔化。而三國演義場景（卡通萌系）中，kimi認(rèn)為，Qwen-Image-2.0漏讀關(guān)鍵詞“舉起”而更像“圍坐”，Seedream 5.0更體現(xiàn)出了熱血歡樂氛圍，無厘頭解構(gòu)感強(qiáng)。最終，kimi給出的判詞是：“Qwen-Image-2.0像嚴(yán)謹(jǐn)?shù)墓こ處�，Seedream 5.0像懂流量的設(shè)計師——沒有絕對優(yōu)劣，只有場景適配�！�

圖像編輯方面，記者實測過程中發(fā)現(xiàn)，在剪映平臺通過Seedream 5.0 Preview生圖后，圖片可調(diào)整范圍包括裁剪、畫質(zhì)、像素等，但無法在生成過程中或完成進(jìn)行局部調(diào)整。Qwen-Image-2.0則可在對話中直接根據(jù)指令調(diào)整圖片，不過，圖像編輯的準(zhǔn)確度仍有待提升。記者嘗試讓Qwen-Image-2.0在《無厘頭美食番<三國演義>》圖中加入一個碗，Qwen-Image-2.0選擇直接將火鍋的外殼換成了碗，再次追加指令后，Qwen-Image-2.0成功加上了碗，甚至自主加上了桌子，展現(xiàn)了一定的邏輯推理能力，但碗內(nèi)的食物又與火鍋場景有一定脫離。

總體來看，比起會“畫圖”，步入2026年，圖像生成模型都在往真正解讀用戶意圖、準(zhǔn)確理解語義、具備可控編輯能力、根據(jù)真實場景及需求智能推理的方向去。換句話說，比起“能不能畫”，大模型們轉(zhuǎn)向了“畫得是否符合使用場景”。但在復(fù)雜且非專業(yè)指令的理解以及圖像可控編輯的“深水區(qū)”，頭部廠商的真正較量才剛剛開始。

從“會畫”到“能用”

“會辦事”，是這一年無論大模型還是AI應(yīng)用都在強(qiáng)調(diào)的方向，圖像模型接下來要面臨的問題則更具體：“這張圖能解決什么問題？”

千問大模型高級解決方案架構(gòu)師熊撼天在接受包括第一財經(jīng)在內(nèi)的媒體采訪時提到，從2023年開始，文生圖或圖生圖開始在偏C端或個人使用的場景中落地，但在真正的“企業(yè)級”應(yīng)用層面，離落地始終有距離，實際上是“生成不可控”的問題一直解決得不是很好，而隨著模型對語義的理解及模型能力的上限更高后，這些問題正在技術(shù)層面被攻克。

圍繞著如何讓圖片更“可用”的競爭，圖像模型在技術(shù)升級的同時，開始圍繞生態(tài)、場景分化。

目前，字節(jié)已將 Seedream 5.0 深度集成到剪映、CapCut、即夢 AI等字節(jié)生態(tài)體系平臺，方便創(chuàng)作者直接完成生圖、分鏡、視頻創(chuàng)作、分發(fā)抖音等操作，支持2K與4K分辨率輸出，限時免費使用，未來計劃在美國市場逐步開放，以此來鞏固字節(jié)跳動在內(nèi)容創(chuàng)作領(lǐng)域的優(yōu)勢地位。CapCut海外官方賬號發(fā)文稱，Seedream 5.0 對標(biāo)Nano Banana Pro，但價格便宜得多。記者了解到，Qwen-Image-2.0 也將在正式發(fā)布時上線阿里千問APP，未來，Qwen-Image-2.0與阿里系電商等業(yè)務(wù)的打通也成為業(yè)內(nèi)關(guān)注的方向，Qwen-Image-2.0或許將更多落向電商、專業(yè)PPT、海報設(shè)計等場景。

未來一年，圖像模型可能圍繞怎樣的方向發(fā)展？對此，千問Qwen視覺生成負(fù)責(zé)人吳晨飛表示，Qwen-Image-2.0升級的核心之一是“信息圖”。信息圖可以理解為“爸爸圖”，每一張“爸爸圖”中都包含很多的子圖，每一個子圖有各自的細(xì)節(jié)。在他看來，“信息圖”是目前生圖領(lǐng)域的一個大趨勢，“生成一張圖”不再是傳統(tǒng)意義上的“一張圖”，而是一口氣生成了很多張關(guān)聯(lián)圖片，這種能力在漫畫、復(fù)雜海報、PPT制作等領(lǐng)域非常重要。除此之外，當(dāng)生成非常多文字或復(fù)雜結(jié)構(gòu)內(nèi)容時，Qwen-Image-2.0仍可能出現(xiàn)幻覺和錯誤，這也是下一步要探索的方向。

AIGC設(shè)計師石恕之則提到了行業(yè)內(nèi)對“圖層分離”的渴望，他形容這是整個AIGC平面市場的需求。這意味著讓大模型生成的圖片可解耦，像PS一樣實現(xiàn)圖層分離與編輯，對工業(yè)流程來說有著巨大價值，目前圖像模型仍未真正觸及。吳晨飛提到，分層模型也會是Qwen-Image下一步去探索的另一個重點。

“除了技術(shù)層面，視覺模型發(fā)展更多的痛點還是與應(yīng)用場景的結(jié)合。”熊撼天表示，如何將現(xiàn)在模型能力的迭代，去結(jié)合現(xiàn)有的業(yè)務(wù)場景快速落地，也是模型發(fā)展的一大挑戰(zhàn)，這之中也藏著中國廠商“彎道超車”的機(jī)會。比如在短劇或漫劇的AIGC生成領(lǐng)域，熊撼天提到，中國漫劇的發(fā)展速度已經(jīng)遠(yuǎn)超國外了，形成了一個龐大的產(chǎn)業(yè)鏈。漫劇產(chǎn)業(yè)鏈公司會拿著最新一代的模型快速在生產(chǎn)級的場景里落地，“單劇集做一個動漫視頻的錢可能馬上就會從幾百塊錢減少到幾十塊錢。”

強(qiáng)調(diào)“辦事能力”的同時，行業(yè)也在期待應(yīng)用反哺技術(shù)。熊撼天認(rèn)為，在技術(shù)已經(jīng)追平的情況下，中國企業(yè)更擅長做應(yīng)用，而應(yīng)用的土壤會催生出一些新的產(chǎn)業(yè)鏈，新的產(chǎn)業(yè)鏈也會反復(fù)去迭代模型的能力。

編輯：高靖宇

飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容，凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有，未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像，違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載，請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源：XXXX”的作品，均轉(zhuǎn)載自其它媒體，在于傳播更多行業(yè)信息，并不代表本網(wǎng)贊同其觀點和對其真實性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題，請在相關(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系，我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777，郵件后綴為cctime.com，冒充本站員工以任何其他聯(lián)系方式，進(jìn)行的“內(nèi)容核實”、“商務(wù)聯(lián)系”等行為，均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。