昆仑万维开源发布Skywork UniPic多模态AI模型
昆仑万维发布开源多模态AI模型
中国科技企业昆仑万维正式推出Skywork UniPic——一个开源的统一多模态预训练模型,在单一系统中整合了图像理解、文生图和图像编辑能力。此次发布标志着可及性人工智能技术的重大进步。
统一架构应对多重任务
该模型借鉴了GPT-4o的自回归方法,建立了开发者所称的"真正统一的多模态架构"。与传统系统将这些功能分开处理不同,Skywork UniPic通过创新的MAR编码器和SigLIP2结构设计将它们结合起来。

性能与可及性
尽管仅有相对较小的15亿参数,该模型展现出接近更庞大系统的性能。昆仑万维强调这种"小而美"的设计理念使技术对计算资源有限的开发者更加友好。
在基准评估中,Skywork UniPic在以下方面表现尤为突出:
- 指令跟随准确度
- 复杂指令生成
- 精确的图像编辑操作
公司已公开所有开发材料,包括:
- Hugging Face平台上的模型权重
- 详细技术文档
- 完整源代码仓库
技术实现
开发团队使用精心筛选的数据集实施了多阶段训练流程,其方法包括:
- 渐进式任务引入以优化学习效果
- 创新的奖励模型提升性能表现
- 基于高质量数据的端到端预训练
"这不仅关乎发布另一个AI模型,"昆仑万维发言人解释道,"我们致力于通过开放协作降低实际AI应用的门槛。"
该系统允许用户通过简单提示执行复杂操作——从生成全新图像到通过风格迁移或内容调整修改现有图像。
获取方式与未来发展计划
所有资源目前可通过以下途径获取:
公司表示本次发布仅代表其多模态AI发展路线图的第一阶段,后续将根据社区反馈规划更多增强功能。
核心亮点:
✅ 集成能力: 在一个系统中融合图像理解、生成与编辑功能
✅ 轻量化设计: 15亿参数媲美更大模型的性能表现
✅ 开放生态: 完整技术文档与代码全面公开
✅ 实用导向: 专为开发者实际落地设计




