小米开源多模态AI模型MiMo-VL-7B-2508
小米开源先进多模态AI模型
小米AI研究团队公开发布了其MiMo-VL-7B-2508多模态大语言模型,标志着对开源AI社区的重大贡献。此次发布包括模型的强化学习(RL)和监督微调(SFT)两个版本。
突破性性能指标
新模型在多个领域展现出卓越能力:
- 主题推理:在MMMU基准测试中达到70+分
- 文档理解:在ChartQA测试中获得94.4分
- 图形界面定位:在ScreenSpot-v2测试中达到92.5分
- 视频理解:在VideoMME测试中提升至70.8分

技术增强
最新版本在以下方面有显著改进:
- 强化学习稳定性
- 监督微调流程
- 内部VLM Arena评分(从1093.9提升至1131.2)
以用户为中心的功能
模型引入了创新的交互模式:
- 思考模式:显示完整推理链(100%控制成功率)
- 非思考模式:直接生成答案(99.84%成功率且响应更快)
用户可通过
/no_think指令切换模式。
可用模型版本
MiMo-VL-7B-RL-2508
- 推荐用于通用场景
- 开源仓库
MiMo-VL-7B-SFT-2508
- 适合自定义微调
- 相比之前版本改进了RL稳定性
- 开源仓库
关键要点
✅ 四项核心AI能力达到新水平
✅ 双模式操作优化准确度或速度
✅ 完全开源且采用商业友好许可协议
✅ 增强强化学习应用的稳定性



