Alibaba's AI Team Unveils Ovis2.5: Breakthrough in Visual Reasoning欢迎来到AI DAMN！发现最震撼的最新AI新闻、最酷的AI产品和最前沿的AI项目。从ChatGPT到最新模型，我们精选让你惊呼'太牛了！'的AI发展动态。涵盖机器学习、深度学习等前沿技术，每日更新最精彩的人工智能世界。

发现

语言

账户

Alibaba's AI Team Unveils Ovis2.5: Breakthrough in Visual Reasoning

Alibaba Advances Multimodal AI with Ovis2.5 Release

The AI Team (AIDC-AI) of Alibaba International Digital Trade Group has introduced Ovis2.5, a cutting-edge multimodal language model available in two configurations: 9B and 2B parameters. This release marks a significant leap in economic visual reasoning solutions, combining compact size with industry-leading performance.

Key Innovations in Ovis2.5

Native Resolution Recognition: Utilizing the NaViT Visual Encoder, Ovis2.5 preserves fine image details without quality loss, enabling superior visual processing capabilities.
Advanced Reasoning Capabilities: The model features a "thinking mode" potentially leveraging Alibaba's Qwen3 technology. Beyond standard chain-of-thought (CoT) reasoning, it supports self-correction and configurable thinking budgets for improved accuracy.
Industry-Leading Document Analysis: Ovis2.5 outperforms competitors in complex diagram interpretation, document understanding (including tables/forms), and optical character recognition (OCR) at both parameter sizes.
Broad Task Competency: Demonstrates strong performance across image reasoning, video understanding, and visual localization benchmarks, showcasing versatile multimodal abilities.

Strategic Impact

The open-source availability on GitHub and Hugging Face positions Ovis2.5 as an accessible solution for developers needing combined visual-textual analysis. Alibaba emphasizes this release as part of their ongoing innovation in multimodal AI technology.

Key Points:

Two model sizes (9B/2B parameters) balance performance with efficiency
Native resolution handling via NaViT encoder technology
Self-correcting reasoning capabilities with configurable thinking budgets
Open-source availability accelerates industry adoption

喜欢这篇文章？

订阅我们的 Newsletter，获取最新 AI 资讯、产品评测和项目推荐，每周精选直达邮箱。

每周精选完全免费随时退订

News

谷歌新推Windows应用：仅需两键即可搜索万物

谷歌发布了一款智能Windows桌面应用，让AI驱动的搜索真正触手可及——只需按下Alt+Space组合键，无需打开浏览器即可即时获取搜索结果。这款轻量级应用采用Gemini AI技术，可同时检索网络和本地文件，而Google Lens等便捷功能则支持对屏幕上任何可见内容进行搜索。尽管目前仅支持英文，但它有望成为基于浏览器搜索的替代方案，或将改变我们与信息交互的方式。

April 15, 2026

Google AIWindows应用效率工具

News

WorldLabs推出Spark2.0：将影院级3D效果带入浏览器

斯坦福大学教授李飞飞的初创公司WorldLabs发布了突破性的3D渲染技术Spark2.0，该技术能为任何带有网页浏览器的设备提供高保真图形。通过与Three.js无缝集成，这项创新让智能手机、平板电脑和VR头显能够显示以往需要强大工作站才能处理的复杂3D环境。其秘诀？一个能根据设备性能自动适配同时保持惊艳画质的智能流媒体系统。

April 15, 2026

Web3DSpatialComputingThreeJS

News

微软在全球算力竞赛中智胜OpenAI

一场关于AI基础设施的暗战正在上演：微软积极扩张计算资源之际，OpenAI却显现收缩态势。这家科技巨头最近拿下了挪威3万块NVIDIA芯片的使用权——这些设备原本是为OpenAI准备的。与此同时，在OpenAI暂停英国'星际之门'项目后，谷歌迅速接管了当地算力资源。这些战略举动暗示着AI格局的重大转变：微软加倍押注数据中心投资，而OpenAI正在收缩其雄心勃勃的计划。

April 15, 2026

AI基础设施微软OpenAI

News