跳转到主要内容

Alibaba's AI Team Unveils Ovis2.5: Breakthrough in Visual Reasoning

Alibaba Advances Multimodal AI with Ovis2.5 Release

The AI Team (AIDC-AI) of Alibaba International Digital Trade Group has introduced Ovis2.5, a cutting-edge multimodal language model available in two configurations: 9B and 2B parameters. This release marks a significant leap in economic visual reasoning solutions, combining compact size with industry-leading performance.

Image

Key Innovations in Ovis2.5

  1. Native Resolution Recognition: Utilizing the NaViT Visual Encoder, Ovis2.5 preserves fine image details without quality loss, enabling superior visual processing capabilities.

  2. Advanced Reasoning Capabilities: The model features a "thinking mode" potentially leveraging Alibaba's Qwen3 technology. Beyond standard chain-of-thought (CoT) reasoning, it supports self-correction and configurable thinking budgets for improved accuracy.

  3. Industry-Leading Document Analysis: Ovis2.5 outperforms competitors in complex diagram interpretation, document understanding (including tables/forms), and optical character recognition (OCR) at both parameter sizes.

  4. Broad Task Competency: Demonstrates strong performance across image reasoning, video understanding, and visual localization benchmarks, showcasing versatile multimodal abilities.

Strategic Impact

The open-source availability on GitHub and Hugging Face positions Ovis2.5 as an accessible solution for developers needing combined visual-textual analysis. Alibaba emphasizes this release as part of their ongoing innovation in multimodal AI technology.

Key Points:

  • Two model sizes (9B/2B parameters) balance performance with efficiency
  • Native resolution handling via NaViT encoder technology
  • Self-correcting reasoning capabilities with configurable thinking budgets
  • Open-source availability accelerates industry adoption

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

谷歌新推Windows应用:仅需两键即可搜索万物
News

谷歌新推Windows应用:仅需两键即可搜索万物

谷歌发布了一款智能Windows桌面应用,让AI驱动的搜索真正触手可及——只需按下Alt+Space组合键,无需打开浏览器即可即时获取搜索结果。这款轻量级应用采用Gemini AI技术,可同时检索网络和本地文件,而Google Lens等便捷功能则支持对屏幕上任何可见内容进行搜索。尽管目前仅支持英文,但它有望成为基于浏览器搜索的替代方案,或将改变我们与信息交互的方式。

April 15, 2026
Google AIWindows应用效率工具
News

WorldLabs推出Spark2.0:将影院级3D效果带入浏览器

斯坦福大学教授李飞飞的初创公司WorldLabs发布了突破性的3D渲染技术Spark2.0,该技术能为任何带有网页浏览器的设备提供高保真图形。通过与Three.js无缝集成,这项创新让智能手机、平板电脑和VR头显能够显示以往需要强大工作站才能处理的复杂3D环境。其秘诀?一个能根据设备性能自动适配同时保持惊艳画质的智能流媒体系统。

April 15, 2026
Web3DSpatialComputingThreeJS
News

微软在全球算力竞赛中智胜OpenAI

一场关于AI基础设施的暗战正在上演:微软积极扩张计算资源之际,OpenAI却显现收缩态势。这家科技巨头最近拿下了挪威3万块NVIDIA芯片的使用权——这些设备原本是为OpenAI准备的。与此同时,在OpenAI暂停英国'星际之门'项目后,谷歌迅速接管了当地算力资源。这些战略举动暗示着AI格局的重大转变:微软加倍押注数据中心投资,而OpenAI正在收缩其雄心勃勃的计划。

April 15, 2026
AI基础设施微软OpenAI
News

小红书震撼AI界:开源其Relax训练引擎

出人意料的是,生活方式平台小红书开源了其名为Relax的AI训练引擎,该引擎专为多模态场景设计。这一复杂工具通过创新的并行处理技术,能够处理文本、图像、音频和视频。这家非传统AI玩家的意外之举,显示了该公司在人工智能开发上的雄心壮志,以及其希望在科技社区中建立影响力的愿望。

April 15, 2026
AI开源机器学习
神秘AI模型'Elephant'席卷OpenRouter排行榜
News

神秘AI模型'Elephant'席卷OpenRouter排行榜

一款名为Elephant Alpha的匿名AI模型在发布仅一天后就飙升至OpenRouter趋势榜第二位,引发了AI界的轰动。这个拥有1000亿参数和惊人256K上下文处理能力的黑马,在性能上匹敌顶级模型的同时,其神秘背景也引发了广泛猜测。其使用量突然激增377%,表明开发者正蜂拥测试其能力。

April 15, 2026
AI模型OpenRouter新兴科技
News

苹果施压马斯克的X平台整改Grok AI图像风险,否则面临应用商店下架

苹果公司私下警告埃隆·马斯克的X平台,其Grok人工智能工具因生成不当图像违反App Store政策。内部文件显示双方进行了长达数月的拉锯战,苹果多次拒绝X平台的内容审核方案,最终才批准修订版本。虽然事件有所减少,但近期测试表明用户仍能绕过防护措施生成露骨内容。

April 15, 2026
AI伦理App Store政策内容审核