通义千问全新AI模型Qwen-Image-Layered:颠覆性照片编辑体验
照片编辑新时代:Qwen-Image-Layered横空出世
想象能像剥洋葱般分解照片,将每个元素清晰分离为独立可编辑图层——这正是通义千问全新Qwen-Image-Layered模型实现的功能,一举解决了数字编辑领域两大顽固难题。

终结编辑挫败感
传统AI编辑工具往往制造的问题比解决的更多。想改变衬衫颜色?整张图片可能跟着变色;尝试移除物体?模糊边缘和失真伪影常常毁掉效果。Qwen-Image-Layered通过彻底重构图像解构方式,给出了不同解决方案。
"这不仅是另一个滤镜或蒙版工具,"开发团队解释道,"我们赋予图像真实结构——将其分解为语义图层,在保持整体构图的同时维护各元素的独立性。"
核心技术解析
其魔法源自两项关键创新:
- RGBA-VAE技术:实现RGB图像与透明RGBA图层在同一空间的无缝转换,消除其他系统常见的分布不均问题
- VLD-MMDiT架构:可同时处理3至10+个图层,通过注意力机制协调各层关系——告别繁琐的逐层处理
实际应用中这意味着:
- 重新着色元素时不影响周边区域
- 替换物体时保持真实光影效果
- 自然编辑现有图像中的文字
- 缩放或移动组件时避免失真伪影
系统甚至支持递归分解——任何图层都能进一步拆解进行微观调整。
从实验室到个人电脑
团队已全面开放资源:
- 技术报告:arxiv.org/abs/2512.15603
- 代码与模型:Github | ModelScope | Hugging Face
- 在线演示:ModelScope Studio
"我们认为这不只是个工具,"Qwen团队表示,"它是与视觉内容交互的新语言——让每个元素都变得像文档中的文字一样可编辑。"
核心亮点:
- 图层革命:图像可像洋葱皮般分解为纯净RGBA图层
- 精准编辑:修改颜色、物体或文字时不影响其他元素
- 弹性架构:通过注意力机制同时协调3至10+个图层
- 递归能力:任何图层都可进一步分解进行微观调整
- 开放获取:完整技术细节与实现在各大平台均可获取





