TikTok与清华大学开源多模态视频框架HuMo
TikTok与清华大学发布开源HuMo框架
在AI视频生成领域的重大进展中,字节跳动智能创作团队与清华大学合作开源了HuMo框架,这是一个专为以人物为中心的视频生成(HCVG)设计的多模态系统。此次合作标志着学术研究与工业级AI应用结合的重要一步。
技术能力
HuMo框架的突出之处在于其能够同时处理三种输入模态:
- 文本描述
- 参考图像
- 音频提示
这种多模态方法使系统能够生成连贯的视频,其中人物根据复杂提示自然地移动。当前实现可生成480P和720P分辨率的视频,最大长度为97帧,速度为每秒25帧。

创新亮点
研究团队将HuMo的卓越性能归功于两大关键创新:
- 一个专注于人体运动模式的精心策划的训练数据集
- 一种新颖的渐进式训练方法,优于传统的单阶段方法
该框架采用先进的数据处理流程,在保持帧间时间一致性的同时,允许对角色动作进行精确控制。早期基准测试显示,与现有的单模态解决方案相比,HuMo实现了15-20%的运动保真度提升。
实际应用
开发者可以利用HuMo进行多种用例开发,包括:
- 虚拟内容创作
- 教育视频制作
- AI辅助的电影预可视化
开源版本包括预训练模型和全面的文档,降低了学术研究人员和商业开发者尝试该技术的门槛。
该项目已在GitHub上发布,并附有详细的技术论文发布于arXiv:https://arxiv.org/pdf/2509.08519
关键点:
- 首个专门针对人物视频生成优化的开源多模态框架
- 结合文本、图像和音频输入以产生连贯输出
- 渐进式训练方法在运动质量上达到新基准
- 实际应用涵盖娱乐、教育和专业媒体制作



