千問APP圖片能力升級:中文生成編輯更精準、人像一致性更強觀點
12月2日,阿里巴巴發布了圖片生成及編輯模型Qwen-Image的重磅更新。
12月2日,阿里巴巴發布了圖片生成及編輯模型Qwen-Image的重磅更新。新模型在圖像編輯中維持了更高的一致性,并在多視角轉換、多圖像融合、多模態推理等方面取得突破進展,可廣泛用于概念創意、工業設計、日常修圖等諸多場景。目前,新版本Qwen-Image已首發接入千問APP,用戶可無限次免費使用。
Qwen-Image-Edit 基于20B的 Qwen-Image 模型進一步訓練,相較于上個版本,新的Qwen-Image-Edit模型還進行多項關鍵性能增強:在圖片編輯中,新模型大幅減輕了主體偏移問題,生圖不模糊、更穩定;同時提升了主體一致性,使得多張圖片中的人物可順暢融合為一張合照。Qwen-Image-Edit新模型在工業設計場景著重進行了優化,輕松實現變顏色、變視角、局部修改、材質替換等常用功能;新模型的推理能力也有大幅提升,特別是在幾何推理方面,可直接在幾何圖上生成新的輔助線等效果。
此前,Qwen-Image基礎版在用于通用圖像生成的GenEval、DPG和OneIG-Bench,以及用于圖像編輯的GEdit、ImgEdit和GSO等多個基準測試中均取得了最先進的性能,展現出其在圖像生成與圖像編輯方面的強大能力。此外,在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的結果表明,Qwen-Image在文本渲染方面表現尤為出色。

Qwen-Image系列模型自開源發布以來,即刻成為全球AI社區最火熱的開源視覺基礎模型,當前總下載量已突破300萬次。在全球最大的AI開源社區HuggingFace的“圖生圖”榜單前15中,有13個都是Qwen-Image的原生或衍生模型,網友們紛紛基于Qwen-Image魔改出各種新版本等,比如鏡頭控制lora效果,可實現圖片的多角度重新編輯,目前仍高居HuggingFace的演示空間(Space)榜單第一。如今,開源社區的優秀創意也已吸納到新改版的Qwen-Image-Edit模型中,基模上就可實現打光、換視角等特色效果。

Qwen-Image衍生模型霸榜開源社區
目前,Qwen-Image-Edit最新模型已經在千問App全面上線,普通用戶也可免費使用這一新模型。用戶只需在千問APP對話界面輸入指令,即可自動調用Qwen-Image系列模型的強大能力,實現生圖、修圖、多圖融合等操作。例如,輸入“生成圖1和圖2的人物合照”,模型能高效、精準地生成符合語義的圖像,效果直觀且富有創意。

此外,結合千問App上接入的萬相Wan2.5視頻生成能力,用戶還可實現生圖、生視頻的無縫串聯:先生成人物圖像,再一鍵實現“一張照片就跳舞”或“對口型唱歌”等功能,瞬間將靜態畫面轉化為動態視頻,真正實現從圖像生成到創意表達的全新創作方法。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。
