跳转到主要内容

昆仑万维开源发布Skywork UniPic多模态AI模型

昆仑万维发布开源多模态AI模型

中国科技企业昆仑万维正式推出Skywork UniPic——一个开源的统一多模态预训练模型,在单一系统中整合了图像理解文生图图像编辑能力。此次发布标志着可及性人工智能技术的重大进步。

统一架构应对多重任务

该模型借鉴了GPT-4o的自回归方法,建立了开发者所称的"真正统一的多模态架构"。与传统系统将这些功能分开处理不同,Skywork UniPic通过创新的MAR编码器SigLIP2结构设计将它们结合起来。

Image

性能与可及性

尽管仅有相对较小的15亿参数,该模型展现出接近更庞大系统的性能。昆仑万维强调这种"小而美"的设计理念使技术对计算资源有限的开发者更加友好。

在基准评估中,Skywork UniPic在以下方面表现尤为突出:

  • 指令跟随准确度
  • 复杂指令生成
  • 精确的图像编辑操作

公司已公开所有开发材料,包括:

  • Hugging Face平台上的模型权重
  • 详细技术文档
  • 完整源代码仓库

技术实现

开发团队使用精心筛选的数据集实施了多阶段训练流程,其方法包括:

  1. 渐进式任务引入以优化学习效果
  2. 创新的奖励模型提升性能表现
  3. 基于高质量数据的端到端预训练

"这不仅关乎发布另一个AI模型,"昆仑万维发言人解释道,"我们致力于通过开放协作降低实际AI应用的门槛。"

该系统允许用户通过简单提示执行复杂操作——从生成全新图像到通过风格迁移或内容调整修改现有图像。

获取方式与未来发展计划

所有资源目前可通过以下途径获取:

公司表示本次发布仅代表其多模态AI发展路线图的第一阶段,后续将根据社区反馈规划更多增强功能。

核心亮点:

集成能力: 在一个系统中融合图像理解、生成与编辑功能
轻量化设计: 15亿参数媲美更大模型的性能表现
开放生态: 完整技术文档与代码全面公开
实用导向: 专为开发者实际落地设计

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

Moonlight AI的Kiwi-do模型以视觉物理能力惊艳亮相
News

Moonlight AI的Kiwi-do模型以视觉物理能力惊艳亮相

Moonshot AI神秘的新模型'Kiwi-do'已成为多模态AI领域的潜在颠覆者。这款新发现的模型在视觉物理理解方面展现出非凡能力,似乎领先于Moonshot计划发布的K2系列。早期测试表明Kiwi-do可能彻底改变AI解读复杂视觉数据的方式。

January 5, 2026
multimodal-AIcomputer-visionMoonshot-AI
DeepSeek全新OCR模型实现类人化文档阅读
News

DeepSeek全新OCR模型实现类人化文档阅读

DeepSeek发布突破性产品DeepSeek-OCR2,彻底革新机器理解文档的方式。与传统机械扫描页面的模型不同,该AI能根据内容含义动态调整处理顺序,模拟人类阅读模式。早期测试显示在保持效率的同时准确率显著提升3.7%,这对处理复杂报告、表格和技术文档可能带来革命性变化。

January 27, 2026
OCRAIdocument-processing
LTX-2开启AI视频创作新时代
News

LTX-2开启AI视频创作新时代

Lightricks团队发布了革命性的开源模型LTX-2,能够一次性生成同步的4K视频和音频。该技术在消费级GPU上流畅运行,将专业级视频创作带入个人电脑。开发者们已准备好工作流程和优化性能,热烈庆祝其问世。

January 7, 2026
AI-videoopen-sourcecreative-tools
PromptFill将AI艺术提示词转换为简单的填空题练习
News

PromptFill将AI艺术提示词转换为简单的填空题练习

一款名为PromptFill的新开源工具正在通过将复杂的提示词简化为直观的填空模板,彻底改变AI艺术创作。凭借拖放功能和智能关键词库,它消除了记忆技术语法的需求,同时保留了创作控制权。该工具已在开源社区中获得关注,因为它使AI艺术对初学者和专业人士都更加易于接触。

December 22, 2025
AI-artcreative-toolsopen-source
News

英伟达通过收购SchedMD及发布新模型推动开源AI发展

英伟达在开源AI领域掀起波澜,采取了两大重要举措。这家科技巨头收购了广受欢迎的Slurm工作负载管理器背后的公司SchedMD,同时承诺保持其开源状态。与此同时,英伟达发布了Nemotron 3 AI模型系列和一款用于自动驾驶研究的新视觉语言模型,彰显其对物理AI应用日益增长的投入。

December 16, 2025
Nvidiaopen-sourceAI-models
阿里巴巴Z-Image Turbo以惊人效率加速AI艺术创作
News

阿里巴巴Z-Image Turbo以惊人效率加速AI艺术创作

阿里巴巴通义实验室发布突破性AI图像生成器Z-Image-Turbo,仅用60亿参数(远少于竞争对手)就能在消费级GPU上秒速生成惊艳效果。该模型自然处理复杂中文提示词,并以最少处理步骤生成印刷品质图像。这款开源挑战者已在人类偏好排名中攀升,或将重塑AI艺术格局。

November 27, 2025
AI-artgenerative-modelscomputer-vision