小红书开源多模态模型比肩顶级AI欢迎来到AI DAMN！发现最震撼的最新AI新闻、最酷的AI产品和最前沿的AI项目。从ChatGPT到最新模型，我们精选让你惊呼'太牛了！'的AI发展动态。涵盖机器学习、深度学习等前沿技术，每日更新最精彩的人工智能世界。

发现

语言

账户

小红书开源多模态模型比肩顶级AI

小红书开源多模态模型挑战行业领导者

中国社交媒体平台小红书通过发布dots.vlm1进入AI竞赛，这是其首个自主研发的多模态大模型。该开源系统结合了12亿参数的NaViT视觉编码器和DeepSeek V3大语言模型，实现了与谷歌Gemini2.5Pro等专有模型相媲美的性能。

原生架构突破创新

该模型的突出特点是其完全自主研发的架构，从零开始训练而非基于现有模型微调。NaViT编码器支持动态分辨率处理，能够更好地应对现实世界图像的多样性。通过结合纯视觉和文本-视觉训练的双重监督，该系统在处理非标准内容方面表现出色，包括：

表格和图表
数学公式
文档结构

"我们重建了整个训练流程," Hi Lab团队解释道,"从使用dots.ocr工具进行PDF处理的数据收集，到对网络来源文本的手动重写，每个组件都针对跨模态理解进行了优化。"

基准测试表现分析

在国际评估集的严格测试中，dots.vlm1显示出显著成果：

基准测试	性能水平

该模型在复杂分析任务中表现尤为突出，能够解决奥林匹克级别的数学问题并展现出强大的STEM推理能力。虽然在高级文本推理方面稍显不足，但其数学和编码性能与领先的大语言模型相当。

未来发展路线图

Hi Lab团队概述了未来发展的三个关键领域：

数据扩展：扩大跨模态训练数据集
算法增强：实施强化学习技术
推理改进：提升泛化能力

通过开源dots.vlm1，小红书旨在激发多模态AI领域的创新，同时确立自身在基础模型开发中的重要地位。

关键点：

小红书首个完整的开源多模态模型
NaViT原生编码器天然支持动态分辨率
在6/8基准测试类别中与专有模型相当
STEM和分析任务表现卓越
计划通过强化学习和数据扩展进行增强

喜欢这篇文章？

订阅我们的 Newsletter，获取最新 AI 资讯、产品评测和项目推荐，每周精选直达邮箱。

每周精选完全免费随时退订

News

Kling AI 3.0震撼发布：触手可及的电影级魔法

Kling AI最新3.0版本通过智能分镜和长达15秒的片段扩展彻底改变视频创作。本次更新引入电影级光照技术，呈现惊艳的4K画质，并简化多图像风格融合功能。目前黑金会员可优先体验，这些工具将助力大众轻松实现专业级叙事效果。

February 5, 2026

AI视频生成创意工具数字叙事

News

全球AI对决：中国模型崛起，海外巨头仍占优势

最新SuperCLUE排名揭示了人工智能领域的惊人变化。虽然Anthropic的Claude-Opus仍在中文能力上领先，但Kimi、Qwen3等国产模型正取得显著进步，甚至在特定领域拔得头筹。尤为引人注目的是中国开源生态系统如今在该领域占据主导地位——这充分证明了该国日益增长的AI实力。

February 4, 2026

AI排名中国科技大语言模型

News

蚂蚁科技押注企业AI，新设大模型事业部彰显雄心

蚂蚁数字科技通过成立专门的大模型技术创新部门进行架构调整，彰显其在企业AI领域的雄心壮志。由CEO赵文彪领衔的团队将专注于将百灵大模型适配实际商业场景。目前已服务中国主要银行的蚂蚁，正将其AI解决方案拓展至制造业、能源等更广阔领域。

February 4, 2026

企业级AI蚂蚁集团大语言模型

News

腾讯AI布局再添强援：顶尖科学家田雨鹏加入混元团队

腾讯在人工智能人才争夺战中再下一城，聘请田雨鹏担任混元多模态团队首席研究科学家。这位清华大学博士、前Sea AI Lab研究员将专注于提升腾讯旗舰AI模型的强化学习能力。此举彰显了腾讯持续领跑多模态AI前沿研发的决心。

February 3, 2026

腾讯人工智能研究强化学习

News

深度求索全新OCR技术模拟人类视觉，大幅降低成本

中国AI公司深度求索发布了突破性的视觉编码器OCR2，其处理文档的方式如同人眼浏览页面。通过摒弃僵化的网格处理方式，采用灵活的'因果流令牌'技术，该系统在性能超越Gemini3Pro的同时，将视觉令牌使用量减少了80%。这项开源技术可能为真正统一的多模态AI铺平道路。

February 2, 2026

计算机视觉AI突破文档AI

News

商汤科技推出新型AI模型，思维模式堪比侦探

商汤科技发布开源AI模型SenseNova-MARS，该模型融合视觉推理与图文搜索能力。在多项基准测试中超越GPT-5.2，这项创新技术模拟人类调查技能——放大微小细节、串联信息点并自主解决复杂问题。公司已向全球开发者公开8B和32B两个版本。

January 30, 2026

AI创新计算机视觉机器学习

小红书开源多模态模型比肩顶级AI

小红书开源多模态模型挑战行业领导者

原生架构突破创新

基准测试表现分析

未来发展路线图

关键点：

喜欢这篇文章？

相关文章

Kling AI 3.0震撼发布：触手可及的电影级魔法

全球AI对决：中国模型崛起，海外巨头仍占优势

蚂蚁科技押注企业AI，新设大模型事业部彰显雄心

腾讯AI布局再添强援：顶尖科学家田雨鹏加入混元团队

深度求索全新OCR技术模拟人类视觉，大幅降低成本

商汤科技推出新型AI模型，思维模式堪比侦探

热门文章

台积电报告创纪录收入，人工智能增长为2025年带来乐观情绪

Nano Banana 2以毫米级精度重新定义AI艺术

Wittro：面向面试与会议场景的隐形AI助手

华硕发布 NUC AI Mini PC，配备彩色电子墨水显示屏

Anthropic将Claude Code AI编程助手扩展至网页端

主要页面

内容分类

其他