跳转到主要内容

VLM2Vec-V2:多模态检索的统一框架

多模态学习的突破:VLM2Vec-V2桥接视觉数据类型

来自Salesforce Research加州大学圣塔芭芭拉分校滑铁卢大学清华大学的合作研究团队发布了VLM2Vec-V2,这是一个革命性的多模态嵌入学习框架,旨在统一图像、视频和视觉文档的检索任务。

解决当前局限性

现有的多模态嵌入模型主要关注来自MSCOCOFlickrImageNet等数据集的自然图像。这些模型在处理更广泛的视觉信息类型(包括文档、PDF、网站、视频和幻灯片)时表现不佳,导致在文章搜索和视频检索等实际应用中存在性能差距。

Image

扩展能力

VLM2Vec-V2框架引入了多项关键进展:

  • 扩展的MMEB数据集,包含五种新任务类型
  • 支持视觉文档检索
  • 增强的视频检索能力
  • 时间定位功能
  • 集成的视频分类和问答功能

技术创新

该模型基于Qwen2-VL架构,融合了以下技术:

  1. 简单的动态分辨率
  2. 多模态旋转位置嵌入(M-RoPE)
  3. 结合2D/3D卷积的统一框架
  4. 灵活的数据采样管道,用于稳定的对比学习

性能基准测试

在涵盖78个数据集的全面测试中,VLM2Vec-V2取得了以下成果:

  • 58.0的最高平均分
  • 在图像和视频任务中均表现出色
  • 在文档检索方面与ColPali等专用模型相比具有竞争力

该框架现已在GitHubHugging Face上发布。

关键点:

  • 🚀 **统一框架适用于图像、视频和文档的检索任务
  • 📊 扩展评估数据集包含多样化任务类型
  • ⚡ 在全面测试中超越现有基准性能
  • 🔍 开源可用性加速研究采用

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

李飞飞的AI初创公司获得高达10亿美元巨额投资

由著名AI先驱李飞飞联合创立的人工智能初创公司World Labs已完成一轮高达10亿美元的巨额融资。主要投资者包括Autodesk、Andreessen Horowitz、NVIDIA和AMD。该公司旨在推动AI发展的边界,延续李飞飞在ImageNet项目上的开创性工作——该项目彻底改变了计算机视觉领域。

February 19, 2026
人工智能科技初创企业计算机视觉
阿里通义千问Qwen-Image-2.0震撼发布:创作与编辑合二为一,呈现2K超清细节
News

阿里通义千问Qwen-Image-2.0震撼发布:创作与编辑合二为一,呈现2K超清细节

阿里云推出突破性AI模型Qwen-Image-2.0,将图像生成与编辑功能无缝整合。这款轻量级7B架构模型可生成令人惊叹的2K分辨率图像,实现像素级文本渲染与逼真材质表现。从古典书法到现代信息图,它能处理多样化创意任务,并在复杂场景中保持角色一致性。该模型已通过阿里云百炼平台开放测试。

February 10, 2026
AI图像生成阿里云计算机视觉
News

腾讯AI布局再添强援:顶尖科学家田雨鹏加入混元团队

腾讯在人工智能人才争夺战中再下一城,聘请田雨鹏担任混元多模态团队首席研究科学家。这位清华大学博士、前Sea AI Lab研究员将专注于提升腾讯旗舰AI模型的强化学习能力。此举彰显了腾讯持续领跑多模态AI前沿研发的决心。

February 3, 2026
腾讯人工智能研究强化学习
深度求索全新OCR技术模拟人类视觉,大幅降低成本
News

深度求索全新OCR技术模拟人类视觉,大幅降低成本

中国AI公司深度求索发布了突破性的视觉编码器OCR2,其处理文档的方式如同人眼浏览页面。通过摒弃僵化的网格处理方式,采用灵活的'因果流令牌'技术,该系统在性能超越Gemini3Pro的同时,将视觉令牌使用量减少了80%。这项开源技术可能为真正统一的多模态AI铺平道路。

February 2, 2026
计算机视觉AI突破文档AI
News

AI领军人物彭天宇执掌腾讯混元多模态研究

AI研究新星彭天宇,这位与清华大学渊源深厚的学者,已加入腾讯混元部门担任首席研究科学家。这位机器学习专家将引领多模态强化学习的创新,融合视觉与语言AI能力。拥有包括顶级会议奖项和论文发表在内的卓越履历,彭的加入彰显了腾讯在生成式AI技术前沿突破的决心。

January 30, 2026
AI研究腾讯混元多模态学习
清华AI精英加盟腾讯,助力多模态学习加速发展
News

清华AI精英加盟腾讯,助力多模态学习加速发展

腾讯的人工智能雄心因清华大学机器学习新星彭天佑的加入而获得重大提升。这位31岁的天才将他在强化学习和多模态系统方面的专长带到通义团队,此前他刚结束在新加坡Sea AI Lab的工作。这是继近期挖角OpenAI研究员后,腾讯的又一战略人才引进。

January 30, 2026
腾讯人工智能研究机器学习