AI2的Molmo 2将开源视频智能技术带到您指尖
开源视频智能的新纪元
艾伦人工智能研究所(AI2)再次以其最新发布的Molmo 2震撼AI界。这不仅仅是一个普通的语言模型——它专为理解视频和图像而设计,最重要的是,它完全开源。

技术细节
Molmo 2提供多个版本:
- Molmo2-4B & Molmo2-8B:基于阿里巴巴的Qwen3架构构建
- Molmo2-O-7B:使用AI2自主Olmo架构的完全透明版本
该套件包含九个新数据集,涵盖从多图像分析到视频追踪等各个方面——实质上是为开发者提供了创建定制化视频理解系统的构建模块。
对企业的意义
AI2感知研究负责人Ranjay Krishna解释了Molmo 2的独特之处:"这些模型不仅能回答问题——它们可以精确定位视频中事件发生的具体时间和位置。"想象一下询问"球员何时得分?"不仅能得到答案,还能获得精确的时间戳。
这些模型具备一些令人印象深刻的能力:
- 生成详细的视频描述
- 跨帧统计物体数量
- 在长镜头中发现罕见事件
开源优势
在大多数强大模型都被企业锁闭的行业中,AI2对开放性的承诺显得尤为突出。正如分析师Bradley Shimmin指出:"对于担心数据主权或需要定制解决方案的公司来说,完全获取模型权重和训练数据是无价之宝。"
相对紧凑的规模(40亿-80亿参数)使Molmo 2在实际部署中更具实用性。Shimmin补充道:"企业正在意识到更大并不总是更好——重要的是对AI工具的控制和理解。"
亲自尝试
感兴趣的开发者可以在以下平台试用Molmo 2:
完整项目详情请访问allenai.org/blog/molmo2。
关键点:
- 开放获取:完整的模型权重和训练数据可用
- 视频智能:理解时序事件和空间关系
- 开发者友好:多种尺寸选项平衡能力与效率
- 透明AI:完全可见模型的构建过程



