阿里开源全新图像模型Qwen-Image-Layered,PS级图层精准编辑生成

12月22日,阿里开源全新图像生成模型Qwen-Image-Layered,首次在模型内实现PS级的图层理解与图像生成。千问新模型采用自研创新架构,可将图片“拆解”成多个图层,...

12月22日 ,阿里开源全新图像生成模型Qwen-Image-Layered ,首次在模型内实现PS级的图层理解与图像生成。

千问新模型采用自研创新架构,可将图片“拆解 ”成多个图层,就像个专业设计师用Photoshop分层作图修图 ,可实现几乎“零漂移 ”的AI图像精准编辑,彻底解决AI生图的一致性难题,加速大模型在专业设计领域的现实落地 。

Qwen-Image-Layered打破了主流视觉大模型的“扁平式思维” ,模型通过“分层”和“补全 ”建立起对现实世界更准确的“物理式理解”,让AI从平面的“看图说话”迈向真实的“空间重构 ” 。

阿里开源全新图像模型Qwen-Image-Layered,PS级图层精准编辑生成

在当前的视觉大模型领域 ,图像一致性编辑始终是一个核心挑战。AI生图有创意但难编辑,主要是因为大模型对图片的理解是扁平的,是一堆像素点紧密耦合在一起 ,而不能像人一样感知出图中物体的远近、遮挡等物理关系。

因此,让大模型生图和编辑就像抽卡“开盲盒”:比如你想把画里的猫往左挪10厘米,但AI完全不知道猫左挪后空出来的背景会有什么 ,只能再重新生成一次 ,猫和背景全都变了样 。

这种“牵一发而动全身”的随机性,让AI绘图在追求极致精准的商业广告设计 、UI界面设计 、影视后期处理等专业领域,始终只能作为一种参考 ,而无法真正取代专业工具。

Qwen-Image-Layered 的出现,意味着视觉大模型从“像素预测 ”转向“结构重组”。

千问团队自研了一种全新的RGBA-VAE编码,在传统的RGB图像中引入代表透明度图层的“Alpha通道” ,让模型有了图层的概念;同时新模型采用了创新的VLD-MMDiT架构,配合独特的“图层级3D位置编码 ”,让AI自动“脑补”被遮挡部分的背景纹理 ,实现对图层和空间的更深入理解和生成 。

据了解,为训练这种能力,千问团队从海量的专业Photoshop(PSD)文件中提取真实图层逻辑 ,让AI从出生起就拥有专业设计师的“分层思维”。

阿里开源全新图像模型Qwen-Image-Layered,PS级图层精准编辑生成

Qwen-Image-Layered模型架构图

业内人士指出,千问新模型将为创意产业带来实质性变革。AI生图不再是死板一块 ,而成为一个活生生的、可无限调整的素材库;图片编辑也不再需要复杂精细的人工抠图 ,而是AI原生地实现了“内在可编辑性 ”,设计师、动画和影视制作人员可在保持背景或主体完全不变的前提下,对特定图层的构件进行位移 、缩放或重绘 ,显著提升数字内容创作的生产效率 。

据了解,Qwen-Image-Layered已在魔搭社区和HuggingFace开源,开发者和企业可免费下载商用。截至目前 ,阿里已开源近400个千问模型,全球下载量突破7亿次,衍生模型数超18万个 ,是全球第一的开源模型。通义大模型已服务超100万家客户,在中国企业级大模型调用市场中通义位居第一,是中国企业选择最多的大模型 。

— 完 —

量子位 QbitAI

关注我们 ,第一时间获知前沿科技动态

本文来自作者[江南沐雨]投稿,不代表视听号立场,如若转载,请注明出处:https://cn.stddy.com/wiki/202512-67255.html

(4)

文章推荐

发表回复

本站作者后才能评论

评论列表(4条)

  • 江南沐雨
    江南沐雨 2025年12月23日

    我是视听号的签约作者“江南沐雨”!

  • 江南沐雨
    江南沐雨 2025年12月23日

    希望本篇文章《阿里开源全新图像模型Qwen-Image-Layered,PS级图层精准编辑生成》能对你有所帮助!

  • 江南沐雨
    江南沐雨 2025年12月23日

    本站[视听号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 江南沐雨
    江南沐雨 2025年12月23日

    本文概览:12月22日,阿里开源全新图像生成模型Qwen-Image-Layered,首次在模型内实现PS级的图层理解与图像生成。千问新模型采用自研创新架构,可将图片“拆解”成多个图层,...

    联系我们

    邮件:视听号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们