跳转到主要内容

阿里巴巴与南开大学联合推出LLaVA-Scissor视频模型压缩技术

阿里巴巴与南开大学推出LLaVA-Scissor实现高效视频处理

在重要合作中,阿里巴巴通义实验室南开大学计算机学院联合发布了创新压缩技术LLaVA-Scissor,旨在优化视频大模型处理。这一发展解决了视频AI中的关键挑战,特别是传统方法因生成过多令牌导致的效率低下问题。

Image

视频模型处理的挑战

传统视频模型需要对每帧单独编码,导致令牌数量呈指数增长。虽然现有压缩方法如FastVVisionZipPLLaVA在图像处理中表现良好,但由于语义覆盖不足和时间冗余问题,它们在视频应用中仍有局限。

LLaVA-Scissor的工作原理

新技术采用了基于图论的算法——SCC(相似性连通组件)方法。该方案:

  1. 计算令牌相似度
  2. 构建相似性图谱
  3. 识别图谱中的连通组件

每个组件的令牌可由单个代表令牌表示,从而大幅减少总数而不丢失关键信息。

Image

两步时空压缩策略

LLaVA-Scissor实施了精密的双阶段方案:

  • 空间压缩:识别单帧内的语义区域
  • 时间压缩:消除多帧间的冗余信息

该策略确保最终令牌集能高效代表整个视频内容。

基准测试亮点表现

该技术在多项测试中展现出卓越成果:

  • 50%令牌保留率下匹配原始模型性能
  • 35%和10%保留率下超越竞争对手
  • 以35%保留率在EgoSchema数据集上达到57.94%准确率

这项创新在长视频理解任务中表现尤为突出,满足了行业关键需求。

未来影响

LLaVA-Scissor的开发不仅是效率提升——它还为以下领域开辟了新可能:

  • 实时视频分析应用
  • 降低计算资源需求
  • 增强大规模视频处理系统的可扩展性

产学合作孕育的这一解决方案或将重塑视频AI发展格局。

关键要点:

  • 🚀 效率突破:大幅减少令牌数同时保持准确性
  • 🔬 创新算法:SCC方法实现智能语义保留
  • 📈 性能验证:在低保留率下优于现有方法
  • 🎯 实际应用:提供更具扩展性的视频处理方案

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

中国研究人员教会AI在图像生成中自我纠错
News

中国研究人员教会AI在图像生成中自我纠错

中国高校取得突破性进展,解决了AI的'视觉读写障碍'——图像系统能理解概念却难以正确呈现的问题。他们的UniCorn框架如同内部质检团队,能在创作过程中捕捉并修正错误。早期测试显示其在空间准确性和细节处理方面有显著提升。

January 12, 2026
AI创新计算机视觉机器学习
智谱与华为联合发布完全基于国产技术的突破性AI图像模型
News

智谱与华为联合发布完全基于国产技术的突破性AI图像模型

中国AI企业智谱与华为合作推出GLM-Image,这是一款完全基于国产硬件训练的革命性多模态模型。这一创新系统结合了文本与图像生成能力,尤其在汉字渲染和复杂视觉任务方面表现优异。现已作为开源软件发布,有望使先进的AI图像创作更加普及。

January 14, 2026
AI创新国产技术计算机视觉
MIT自动化'运动工厂'赋予AI物理直觉
News

MIT自动化'运动工厂'赋予AI物理直觉

来自MIT、NVIDIA和加州大学伯克利分校的研究人员攻克了视频分析领域的一大难题——教会AI理解物理运动。他们的自动化'FoundationMotion'系统无需人工干预即可生成高质量训练数据,帮助AI系统以惊人准确度掌握轨迹与时机等概念。初期测试显示其性能超越更庞大模型,标志着机器真正理解物体运动规律的进展。

January 12, 2026
计算机视觉AI训练运动分析
DeepSeek-V4将于今年二月彻底革新代码生成领域
News

DeepSeek-V4将于今年二月彻底革新代码生成领域

DeepSeek正筹备在农历新年期间推出其强大的新型AI模型DeepSeek-V4。此次更新将在代码生成和处理复杂编程任务方面实现重大突破,有望超越Claude和GPT系列等竞争对手。开发者可以期待这款创新工具提供更有条理的响应和更强的推理能力。

January 12, 2026
AI发展编程工具机器学习
Mugen3D将单张照片转化为惊艳的3D世界
News

Mugen3D将单张照片转化为惊艳的3D世界

一款名为Mugen3D的突破性AI工具正在改变我们创建3D内容的方式。它运用先进的3D高斯泼溅技术,仅需一张图像就能生成极其逼真的模型——以惊人的精确度捕捉纹理、光照和材质。这项创新有望在从游戏到电子商务的各行各业中普及3D创作。

January 12, 2026
AIComputerGraphicsDigitalCreation
News

高通与谷歌联手通过AI革新汽车技术

高通与谷歌正携手解决汽车行业最头疼的问题之一:分散的车载系统。他们新推出的'汽车AI代理'将高通的骁龙数字底盘与谷歌的Android Automotive OS相结合,承诺带来更流畅的开发体验和更智能的功能(如面部识别)。该合作还引入了基于云的开发工具,有望大幅缩短研发时间。这标志着向更统一、更智能的车辆系统迈出了重要一步。

January 9, 2026
automotive-techAIsmart-cars