跳转到主要内容

AI2的Molmo 2将开源视频智能技术带到您指尖

开源视频智能的新纪元

艾伦人工智能研究所(AI2)再次以其最新发布的Molmo 2震撼AI界。这不仅仅是一个普通的语言模型——它专为理解视频和图像而设计,最重要的是,它完全开源。

Image

技术细节

Molmo 2提供多个版本:

  • Molmo2-4B & Molmo2-8B:基于阿里巴巴的Qwen3架构构建
  • Molmo2-O-7B:使用AI2自主Olmo架构的完全透明版本

该套件包含九个新数据集,涵盖从多图像分析到视频追踪等各个方面——实质上是为开发者提供了创建定制化视频理解系统的构建模块。

对企业的意义

AI2感知研究负责人Ranjay Krishna解释了Molmo 2的独特之处:"这些模型不仅能回答问题——它们可以精确定位视频中事件发生的具体时间和位置。"想象一下询问"球员何时得分?"不仅能得到答案,还能获得精确的时间戳。

这些模型具备一些令人印象深刻的能力:

  • 生成详细的视频描述
  • 跨帧统计物体数量
  • 在长镜头中发现罕见事件

开源优势

在大多数强大模型都被企业锁闭的行业中,AI2对开放性的承诺显得尤为突出。正如分析师Bradley Shimmin指出:"对于担心数据主权或需要定制解决方案的公司来说,完全获取模型权重和训练数据是无价之宝。"

相对紧凑的规模(40亿-80亿参数)使Molmo 2在实际部署中更具实用性。Shimmin补充道:"企业正在意识到更大并不总是更好——重要的是对AI工具的控制和理解。"

亲自尝试

感兴趣的开发者可以在以下平台试用Molmo 2:

完整项目详情请访问allenai.org/blog/molmo2

关键点:

  • 开放获取:完整的模型权重和训练数据可用
  • 视频智能:理解时序事件和空间关系
  • 开发者友好:多种尺寸选项平衡能力与效率
  • 透明AI:完全可见模型的构建过程

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

谷歌Gemini 3将AI推理能力推向科学新高度

谷歌发布Gemini 3 Deep Think,标志着AI能力在日常对话之外的重大飞跃。这款专业模型以奥林匹克竞赛级别的推理能力解决复杂科学问题,在数学和编程挑战中表现惊人。现已面向精选研究人员和Google AI Ultra订阅用户开放,有望从基准测试冠军转型为真正的实验室伙伴。

February 13, 2026
AI研究机器学习科学计算
蚂蚁集团最新AI模型在多模态技术领域取得突破性进展
News

蚂蚁集团最新AI模型在多模态技术领域取得突破性进展

蚂蚁集团开源发布了前沿多模态AI模型Ming-Flash-Omni 2.0。这款强大模型在视觉理解和音频生成方面超越了Gemini 2.5 Pro等竞争对手,并引入了统一音轨创建等突破性功能。开发者现在可以利用这些先进能力打造更集成的AI应用。

February 11, 2026
AI创新多模态技术开源AI
阿里通义千问Qwen-Image-2.0震撼发布:创作与编辑合二为一,呈现2K超清细节
News

阿里通义千问Qwen-Image-2.0震撼发布:创作与编辑合二为一,呈现2K超清细节

阿里云推出突破性AI模型Qwen-Image-2.0,将图像生成与编辑功能无缝整合。这款轻量级7B架构模型可生成令人惊叹的2K分辨率图像,实现像素级文本渲染与逼真材质表现。从古典书法到现代信息图,它能处理多样化创意任务,并在复杂场景中保持角色一致性。该模型已通过阿里云百炼平台开放测试。

February 10, 2026
AI图像生成阿里云计算机视觉
News

苹果的制胜秘诀:为何调优后的开源模型在UI设计上超越GPT-5

苹果研究团队在AI辅助UI开发领域取得惊人突破。通过与21位设计专家合作,通过草图与代码修改提供针对性反馈,他们证明了在AI训练中质量胜过数量。经过微调的Qwen3-Coder模型虽规模较小,却在生成应用界面时超越了GPT-5——这印证了在人工智能时代,专业的人类洞察力依然不可替代。

February 6, 2026
AI研究UI开发机器学习
深度求索全新OCR技术模拟人类视觉,大幅降低成本
News

深度求索全新OCR技术模拟人类视觉,大幅降低成本

中国AI公司深度求索发布了突破性的视觉编码器OCR2,其处理文档的方式如同人眼浏览页面。通过摒弃僵化的网格处理方式,采用灵活的'因果流令牌'技术,该系统在性能超越Gemini3Pro的同时,将视觉令牌使用量减少了80%。这项开源技术可能为真正统一的多模态AI铺平道路。

February 2, 2026
计算机视觉AI突破文档AI
News

AI领军人物彭天宇执掌腾讯混元多模态研究

AI研究新星彭天宇,这位与清华大学渊源深厚的学者,已加入腾讯混元部门担任首席研究科学家。这位机器学习专家将引领多模态强化学习的创新,融合视觉与语言AI能力。拥有包括顶级会议奖项和论文发表在内的卓越履历,彭的加入彰显了腾讯在生成式AI技术前沿突破的决心。

January 30, 2026
AI研究腾讯混元多模态学习