跳转到主要内容

小红书开源多模态模型比肩顶级AI

小红书开源多模态模型挑战行业领导者

中国社交媒体平台小红书通过发布dots.vlm1进入AI竞赛,这是其首个自主研发的多模态大模型。该开源系统结合了12亿参数的NaViT视觉编码器DeepSeek V3大语言模型,实现了与谷歌Gemini2.5Pro等专有模型相媲美的性能。

Image

原生架构突破创新

该模型的突出特点是其完全自主研发的架构,从零开始训练而非基于现有模型微调。NaViT编码器支持动态分辨率处理,能够更好地应对现实世界图像的多样性。通过结合纯视觉和文本-视觉训练的双重监督,该系统在处理非标准内容方面表现出色,包括:

  • 表格和图表
  • 数学公式
  • 文档结构

"我们重建了整个训练流程," Hi Lab团队解释道,"从使用dots.ocr工具进行PDF处理的数据收集,到对网络来源文本的手动重写,每个组件都针对跨模态理解进行了优化。"

基准测试表现分析

在国际评估集的严格测试中,dots.vlm1显示出显著成果:

基准测试 性能水平

该模型在复杂分析任务中表现尤为突出,能够解决奥林匹克级别的数学问题并展现出强大的STEM推理能力。虽然在高级文本推理方面稍显不足,但其数学和编码性能与领先的大语言模型相当。

Image

未来发展路线图

Hi Lab团队概述了未来发展的三个关键领域:

  1. 数据扩展:扩大跨模态训练数据集
  2. 算法增强:实施强化学习技术
  3. 推理改进:提升泛化能力

通过开源dots.vlm1,小红书旨在激发多模态AI领域的创新,同时确立自身在基础模型开发中的重要地位。

关键点:

  • 小红书首个完整的开源多模态模型
  • NaViT原生编码器天然支持动态分辨率
  • 在6/8基准测试类别中与专有模型相当
  • STEM和分析任务表现卓越
  • 计划通过强化学习和数据扩展进行增强

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

Kling AI 3.0震撼发布:触手可及的电影级魔法
News

Kling AI 3.0震撼发布:触手可及的电影级魔法

Kling AI最新3.0版本通过智能分镜和长达15秒的片段扩展彻底改变视频创作。本次更新引入电影级光照技术,呈现惊艳的4K画质,并简化多图像风格融合功能。目前黑金会员可优先体验,这些工具将助力大众轻松实现专业级叙事效果。

February 5, 2026
AI视频生成创意工具数字叙事
全球AI对决:中国模型崛起,海外巨头仍占优势
News

全球AI对决:中国模型崛起,海外巨头仍占优势

最新SuperCLUE排名揭示了人工智能领域的惊人变化。虽然Anthropic的Claude-Opus仍在中文能力上领先,但Kimi、Qwen3等国产模型正取得显著进步,甚至在特定领域拔得头筹。尤为引人注目的是中国开源生态系统如今在该领域占据主导地位——这充分证明了该国日益增长的AI实力。

February 4, 2026
AI排名中国科技大语言模型
News

蚂蚁科技押注企业AI,新设大模型事业部彰显雄心

蚂蚁数字科技通过成立专门的大模型技术创新部门进行架构调整,彰显其在企业AI领域的雄心壮志。由CEO赵文彪领衔的团队将专注于将百灵大模型适配实际商业场景。目前已服务中国主要银行的蚂蚁,正将其AI解决方案拓展至制造业、能源等更广阔领域。

February 4, 2026
企业级AI蚂蚁集团大语言模型
News

腾讯AI布局再添强援:顶尖科学家田雨鹏加入混元团队

腾讯在人工智能人才争夺战中再下一城,聘请田雨鹏担任混元多模态团队首席研究科学家。这位清华大学博士、前Sea AI Lab研究员将专注于提升腾讯旗舰AI模型的强化学习能力。此举彰显了腾讯持续领跑多模态AI前沿研发的决心。

February 3, 2026
腾讯人工智能研究强化学习
深度求索全新OCR技术模拟人类视觉,大幅降低成本
News

深度求索全新OCR技术模拟人类视觉,大幅降低成本

中国AI公司深度求索发布了突破性的视觉编码器OCR2,其处理文档的方式如同人眼浏览页面。通过摒弃僵化的网格处理方式,采用灵活的'因果流令牌'技术,该系统在性能超越Gemini3Pro的同时,将视觉令牌使用量减少了80%。这项开源技术可能为真正统一的多模态AI铺平道路。

February 2, 2026
计算机视觉AI突破文档AI
News

商汤科技推出新型AI模型,思维模式堪比侦探

商汤科技发布开源AI模型SenseNova-MARS,该模型融合视觉推理与图文搜索能力。在多项基准测试中超越GPT-5.2,这项创新技术模拟人类调查技能——放大微小细节、串联信息点并自主解决复杂问题。公司已向全球开发者公开8B和32B两个版本。

January 30, 2026
AI创新计算机视觉机器学习