字节跳动Vidi2 AI以类人理解力革新视频编辑
字节跳动颠覆性AI将视频编辑推向新高度
想象将原始假期素材导入手机,几分钟后就能获得专业剪辑的精彩集锦——包含完美剪辑和字幕。随着字节跳动推出迄今最先进的视频理解AI Vidi2,这个未来已近在咫尺。
像人类一样理解视频
Vidi2的与众不同不仅在于其庞大的1200亿参数,更在于它理解视频内容的方式。"传统AI可能只能识别场景中的狗",字节跳动研究员李伟解释道,"而Vidi2能理解这条狗在3分42秒时正在画面左角追球——并能跨镜头追踪这一动作"。
突破来自其细粒度时空定位(STG)能力:
- 精确定位特定动作发生的精确时刻
- 在整个场景中为相关物体绘制数字框
- 在长达数小时的视频中保持上下文而不丢失细节

说明一切的基准测试
独立测试显示Vidi2碾压竞争对手:
- 48.75整体IoU分数(比商业对手高17.5分)
- 32.57 vIoU复杂场景空间准确度
- 处理长内容速度比前代模型快60%同时保持精度
秘诀?升级的Gemma-3主干网络搭配自适应令牌压缩技术,即使在压缩信息时也能保留关键细节。
从实验室到智能手机
该技术已在改变TikTok:
- 智能分割自动将冗长片段转为适合病毒传播的短视频
- AI大纲根据基本提示生成吸引人的标题和故事结构
- 所有功能都能在日常设备上流畅运行——无需超级计算机
"我们本质上把好莱坞剪辑室装进了创作者口袋",TikTok产品负责人Maria Chen表示。早期测试者报告制作时间从数小时缩短至几分钟。
更广阔的图景
凭借超10亿日活用户产生的海量视频数据,字节跳动创造了AI飞轮:更多使用改进模型,进而吸引更多用户。这种良性循环给难以匹配如此庞大训练资源的独立AI公司带来严峻挑战。
研究论文现已发布,公开演示预计很快推出。有一点可以肯定——我们创作和消费视频内容的方式将彻底改变。
关键点:
- Vidi2利用先进STG技术上下文理解视频
- 在长内容分析方面显著优于竞争对手
- 已为TikTok智能分割等实际工具提供支持
- 为主流创作者普及专业级视频编辑


