跳转到主要内容

北京大学发布LLaVA-o1:一种新的多模态AI模型

北京大学发布LLaVA-o1:一种新的多模态AI模型

最近,北京大学的一个研究团队宣布推出LLaVA-o1,这是一种多模态开源模型,声称是首个能够进行自发和系统性推理的视觉语言模型,类似于GPT-o1。

该模型在六项具有挑战性的多模态基准测试中表现出色。其拥有110亿参数的版本超越了包括Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct在内的显著竞争对手。

image

特性与能力

LLaVA-o1基于Llama-3.2-Vision模型构建,并采用独特的“慢思维”推理机制。这使得它能够更复杂的推理过程进行自主推理,这比传统的思维链提示方法有了显著的进步。

在多模态推理基准评估中,LLaVA-o1的表现比其基础模型提高了8.9%。该模型的推理过程分为四个不同的阶段:摘要、视觉解释、逻辑推理和结论生成。传统模型通常表现出相对简单的推理过程,可能导致错误的结论。相反,LLaVA-o1的多步骤推理框架提高了输出的准确性。

例如,在回答问题“去掉所有小的亮球和紫色物体后还剩多少个物体?”时,LLaVA-o1首先对问题进行摘要,从随附的图像中提取相关信息,然后进行详细的逐步推理过程,以得出正确答案。这种分阶段的方法显著增强了模型的系统性推理能力,提高了处理复杂问题的效率。

推理创新

值得注意的是,LLaVA-o1在推理阶段整合了阶段性束搜索方法。这一创新方法使得模型能够在每个推理阶段生成多个候选答案,并选择最佳响应以进入下一个阶段,从而显著提升了其推理的整体质量。通过系统的微调和使用适当的训练数据,LLaVA-o1在与更大或闭源模型相比时显示出显著的性能。

北京大学团队的研究成果有望推动多模态人工智能领域的发展。他们为未来的视觉语言理解模型引入了新思想与方法。团队承诺将完全开源与LLaVA-o1相关的代码、预训练权重和数据集,鼓励AI社区的研究人员和开发者进一步探索和应用。

有关更详细的信息,研究论文可在此处获取,项目的源代码可在GitHub上找到。

要点

  1. LLaVA-o1是由北京大学团队发布的新多模态推理模型,具有“慢思维”推理能力。
  2. 该模型在多模态推理基准测试中超越了其基础模型,提升幅度为8.9%。
  3. LLaVA-o1通过结构化的多步骤推理确保准确性,并将在不久的将来开源。

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

新型AI模型为机器人注入常识

深度心智智能发布了突破性AI模型PhysBrain 1.0,赋予机器人物理常识。与传统系统简单模仿动作不同,这项新技术能理解物理世界的基本原理。由北京中关村学院与中关村人工智能研究院联合开发,该模型可能彻底改变机器人与环境互动的方式,使其在现实场景中更具适应性和智能性。

March 27, 2026
人工智能机器人技术机器学习
Anthropic瞄准10月IPO,加入高风险人工智能竞赛
News

Anthropic瞄准10月IPO,加入高风险人工智能竞赛

人工智能巨头Anthropic正筹备可能在今年10月进行科技界最大规模的IPO之一,有望在公开市场上击败竞争对手OpenAI。随着华尔街巨头纷纷准备承销,以及谷歌和亚马逊等科技巨头的支持,该公司刚刚清除了一个威胁其数十亿美元政府合同的重大法律障碍。此举表明人工智能淘金热正迅速从实验室转向华尔街。

March 27, 2026
人工智能首次公开募股科技行业
苹果借力谷歌Gemini强化其人工智能野心
News

苹果借力谷歌Gemini强化其人工智能野心

在一项可能重塑移动AI格局的战略举措中,苹果已获得谷歌强大Gemini模型的完全访问权限。这家科技巨头计划通过一种名为模型蒸馏的先进技术,利用这一权限加速开发自己的轻量级AI系统。在保持独立研发路径的同时,苹果旨在将Gemini的能力与自身创新相结合——成果可能于今年WWDC大会上揭晓。这一合作标志着AI军备竞赛从原始计算能力转向更智能的训练方法。

March 27, 2026
人工智能科技合作移动计算
News

AI界的'龙虾热潮'引发行业变革,科技巨头纷纷涌入

AI界正因开源框架OpenClaw(被戏称为'龙虾')而沸腾,它正在彻底改变我们与技术互动的方式。百度、腾讯等巨头争相开发自己的AI智能体,标志着商业化可能迎来转折点。随着这些数字助手进入金融和管理领域,专家预测2026年可能是AI投资终于见效的一年——尽管在安全性和可用性方面仍存在挑战。

March 27, 2026
AI智能体科技创新商业化
News

小米豪掷60亿美元重注AI,推出全新模型家族

小米创始人雷军宣布未来三年将在AI领域投入高达60亿美元,其中仅2026年就计划投入16亿美元。公司发布了MiMo-V2模型家族,包括专注智能体的MiMo-V2-Pro和多模态V2-Omni。这些进展伴随着小米首款AI原生智能手机和升级版智能汽车座舱的亮相,标志着该公司正强势进军AI驱动硬件领域。

March 27, 2026
小米人工智能科技投资
News

泄露:Anthropic的Claude Mythos AI在秘密测试中超越顶级模型

根据泄露的内部文件显示,Anthropic似乎正在开发一款名为Claude Mythos的强大新型AI模型。该系统据称在能力上超越了该公司当前的旗舰产品Claude Opus,同时也引发了关于AI安全的新担忧。这一进展可能会显著改变主要AI实验室之间的竞争格局。

March 27, 2026
人工智能AnthropicAI安全