跳转到主要内容

苹果发布Manzano:兼具图像理解与生成能力的双用途AI模型

苹果Manzano桥接图像理解与生成

苹果发布了Manzano——一个专注于图像处理的新型人工智能模型,兼具图像理解生成双重能力。这一进展使苹果的研究成果与OpenAI和谷歌的领先商业AI系统形成竞争。

技术突破

该创新解决了开源模型中长期存在的难题:传统模型通常擅长分析或创作中的单一功能,但难以兼顾两者。苹果的研究论文展示了Manzano处理复杂提示的能力,其表现可与GPT-4o和谷歌的"Nano Banana"(Gemini 2.5闪存图像生成)相媲美。

Image

混合架构

Manzano采用混合图像分词器,可输出:

  • 连续token:使用浮点数表示图像以实现理解功能
  • 离散token:将图像划分为固定类别以实现生成功能

这种架构通过从同一编码器派生两种token类型,减少了传统模型中常见的冲突。

可扩展设计

该系统包含三个核心组件:

  1. 混合分词器
  2. 统一语言模型
  3. 独立图像解码器(提供90M、175M和352M参数版本)

最大配置支持高达2048像素的分辨率,测试显示当参数数量从3亿增加到30亿时性能持续提升。

Image

性能基准测试

苹果报告了多项测试中的优异表现,特别是在:

  • 图表分析
  • 文档解读
  • 文字密集图像任务 该模型还具备以下创意功能:
  • 风格迁移
  • 图像修复/扩展
  • 深度估算
  • 基于提示的编辑 模块化设计表明其具有超越当前能力的多模态AI应用潜力。 完整研究论文详见:https://arxiv.org/abs/2509.16197 --- ### 关键要点: 🌟 双重能力 - 同步实现图像理解与生成 🔍 商用级性能 - 媲美GPT-4o和Gemini系统 ⚙️ 混合分词器 - 减少分析/创作功能间的冲突 📈 可扩展架构 - 三种解码器尺寸支持最高2048px分辨率

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

苹果否认针对中国iPhone的AI测试传闻,并警告安全风险

近期关于中国iPhone用户收到AI测试提示的说法已被苹果澄清。公司确认其AI功能尚未在中国大陆推出,并警告不要使用第三方工具强制激活,这可能危及用户安全。专家表示,任何看似测试通知的内容可能是之前非正式尝试访问功能留下的痕迹。

January 4, 2026
AppleAIiPhoneSecurityTechRumors
中国研究人员推出无需眼镜的3D显示技术,效果宛如魔法
News

中国研究人员推出无需眼镜的3D显示技术,效果宛如魔法

复旦大学团队开发出名为EyeReal的突破性3D显示技术,无需特殊眼镜即可投射出清晰的全息图像。该研究成果发表于《自然》杂志,系统提供100度视角且移动时无模糊效果,加上模拟人眼的真实深度感。这款紧凑设备可能彻底改变从游戏到医学影像的各个领域。

December 9, 2025
3DDisplayEyeRealHolographicTech
腾讯OCR技术突破:小模型,大成效
News

腾讯OCR技术突破:小模型,大成效

腾讯推出开源OCR模型HunyuanOCR,这款仅含10亿参数的轻量级模型展现出惊人性能。在文档解析和多语言翻译任务中,其表现超越体积更大的竞品,并能处理从收据到路牌等各种场景。端到端设计使其比传统方法更快输出精准结果。

November 25, 2025
OCRTencentComputerVision
清华与快手突破性成果:SVG模型将AI训练效率提升6200%
News

清华与快手突破性成果:SVG模型将AI训练效率提升6200%

清华大学与快手灵犀团队的研究人员开发出革命性的SVG扩散模型,相比传统VAE模型实现了6200%的训练效率提升和3500%的生成速度提升。这项创新在保持卓越输出质量的同时,解决了图像生成中长期存在的语义纠缠问题。

October 29, 2025
GenerativeAIComputerVisionDeepLearning
字节跳动发布Seed3D 1.0:3D生成领域的重大突破
News

字节跳动发布Seed3D 1.0:3D生成领域的重大突破

字节跳动Seed团队推出Seed3D 1.0,这款前沿大模型能从单张图像生成高质量3D模型。该模型在几何结构、纹理和材质方面表现卓越,在具身智能和机器人领域具有应用潜力,并在对比评估中超越了规模更大的行业模型。

October 23, 2025
AIComputerVisionMachineLearning
LiblibAI获1.3亿美元融资,领跑中国AI应用市场
News

LiblibAI获1.3亿美元融资,领跑中国AI应用市场

中国AI平台LiblibAI完成1.3亿美元B轮融资,创下中国AI应用领域单笔最大投资记录。本轮融资由红杉中国和CMC资本领投,公司计划进行全球化扩张和重大平台升级以增强视频生成能力。

October 23, 2025
ArtificialIntelligenceChinaTechStartupFunding