跳转到主要内容

TikTok与清华大学开源多模态视频框架HuMo

TikTok与清华大学发布开源HuMo框架

在AI视频生成领域的重大进展中,字节跳动智能创作团队与清华大学合作开源了HuMo框架,这是一个专为以人物为中心的视频生成(HCVG)设计的多模态系统。此次合作标志着学术研究与工业级AI应用结合的重要一步。

技术能力

HuMo框架的突出之处在于其能够同时处理三种输入模态

  • 文本描述
  • 参考图像
  • 音频提示

这种多模态方法使系统能够生成连贯的视频,其中人物根据复杂提示自然地移动。当前实现可生成480P和720P分辨率的视频,最大长度为97帧,速度为每秒25帧

Image

创新亮点

研究团队将HuMo的卓越性能归功于两大关键创新:

  1. 一个专注于人体运动模式的精心策划的训练数据集
  2. 一种新颖的渐进式训练方法,优于传统的单阶段方法

该框架采用先进的数据处理流程,在保持帧间时间一致性的同时,允许对角色动作进行精确控制。早期基准测试显示,与现有的单模态解决方案相比,HuMo实现了15-20%的运动保真度提升

实际应用

开发者可以利用HuMo进行多种用例开发,包括:

  • 虚拟内容创作
  • 教育视频制作
  • AI辅助的电影预可视化

开源版本包括预训练模型和全面的文档,降低了学术研究人员和商业开发者尝试该技术的门槛。

该项目已在GitHub上发布,并附有详细的技术论文发布于arXiv:https://arxiv.org/pdf/2509.08519

关键点:

  • 首个专门针对人物视频生成优化的开源多模态框架
  • 结合文本、图像和音频输入以产生连贯输出
  • 渐进式训练方法在运动质量上达到新基准
  • 实际应用涵盖娱乐、教育和专业媒体制作

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

Step-Audio-R1.1 打破纪录,成为新一代语音AI冠军
News

Step-Audio-R1.1 打破纪录,成为新一代语音AI冠军

StepZen Star 的开源语音模型 Step-Audio-R1.1 超越了科技巨头的产品,在全球 AI 评估中以破纪录的 96.4% 准确率脱颖而出。这一创新模型结合了类人推理与实时响应能力,通过流式推理让用户能够边思考边说话。开发者现已可通过 HuggingFace 体验其突破性技术。

January 15, 2026
语音识别AI突破开源技术
News

AI赋能故事新生命:阅道与生数科技携手打造下一代影视技术

中国娱乐产业迎来技术升级,阅道集团与生数科技达成合作,彻底改变IP可视化方式。双方将生数的Vidu视频生成模型整合至阅道创作平台,实现文本到动态画面的革命性转换。除技术突破外,两家企业还通过专项教育计划解决行业人才缺口,构建从创作到生产的完整生态体系。

January 13, 2026
AIGC数字叙事AI视频生成
Lightricks推出开源AI,数秒内生成带声音的视频
News

Lightricks推出开源AI,数秒内生成带声音的视频

以色列科技公司Lightricks发布了LTX-2,这是一款创新的AI系统,能够根据文本提示生成20秒高清视频并完美同步音频。与传统方法不同,它采用独特的双流架构同时处理视觉和声音。这款开源模型以惊人的速度超越竞争对手——每步仅需一秒多即可生成720p内容。

January 12, 2026
AI视频生成开源AILightricks
News

阿里云新工具包为日常设备注入AI智能

阿里云发布了一款颠覆性的开发工具包,将其强大的AI模型打包成硬件制造商可即插即用的解决方案。该工具包整合了语音、视觉和语言能力,帮助智能眼镜、机器人等设备自然地理解用户并与之互动。凭借从作业辅导到创意工具等预制功能,制造商现可在数周而非数月内为其产品添加类人智能。

January 8, 2026
Alibaba CloudAI硬件智能设备
字节跳动StoryMem为AI视频注入记忆增强能力
News

字节跳动StoryMem为AI视频注入记忆增强能力

字节跳动与南洋理工大学研究人员开发的StoryMem系统创新性地解决了AI视频生成的持续性难题。通过模拟人类记忆机制,该系统保持了跨场景的角色一致性——即便是Sora和Kling等模型也面临的挑战。该方案巧妙地将关键帧存储为参考,同时保持计算成本可控。早期测试显示在视觉连贯性和用户偏好评分方面均有显著提升。

January 4, 2026
AI视频生成字节跳动计算机视觉
字节跳动StoryMem为AI生成视频带来一致性
News

字节跳动StoryMem为AI生成视频带来一致性

字节跳动与南洋理工大学研究人员联合开发了StoryMem系统,这一突破性技术解决了AI视频生成中的角色一致性问题。通过智能存储和引用关键帧,该技术实现了跨场景的视觉连续性——比现有模型提升28.7%的一致性表现。尽管在叙事应用上前景广阔,该系统仍面临复杂多角色场景的处理挑战。

January 4, 2026
AI视频生成字节跳动计算机视觉